Newsletter

אשליית ההיגיון: הוויכוח שמטלטל את עולם הבינה המלאכותית

אפל מפרסמת שני מאמרים הרסניים - "GSM-Symbolic" (אוקטובר 2024) ו-"The Illusion of Thinking" (יוני 2025) - המדגימים כיצד תוכניות לימודי משפטים (LLM) נכשלות בווריאציות קטנות של בעיות קלאסיות (מגדל האנוי, חציית נהר): "הביצועים יורדים כאשר רק ערכים מספריים משתנים". אפס הצלחות במגדל האנוי המורכב. אבל אלכס לוסן (Open Philanthropy) מתנגד עם "The Illusion of the Illusion of Thinking", המדגים מתודולוגיה פגומה: כשלים היו מגבלות פלט של אסימון, לא קריסת חשיבה, סקריפטים אוטומטיים סיווגו באופן שגוי פלטים חלקיים נכונים, חלק מהחידות היו בלתי פתירות מבחינה מתמטית. על ידי חזרה על בדיקות עם פונקציות רקורסיביות במקום רישום מהלכים, קלוד/ג'מיני/GPT פותרים את מגדל האנוי בן 15 הדיסקים. גארי מרקוס מאמץ את תזת "הסטת ההפצה" של אפל, אך מאמר תזמון שלפני WWDC מעלה שאלות אסטרטגיות. השלכות עסקיות: עד כמה עלינו לסמוך על בינה מלאכותית למשימות קריטיות? פתרון: גישות נוירו-סימבוליות - רשתות עצביות לזיהוי תבניות + שפה, מערכות סמליות ללוגיקה פורמלית. דוגמה: חשבונאות מבוססת בינה מלאכותית מבינה "כמה הוצאתי על נסיעות?" אבל SQL/חישובים/ביקורות מס = קוד דטרמיניסטי.
פאביו לאוריה
מנכ"ל ומייסד חברת Electe
כאשר חשיבה מבוססת בינה מלאכותית פוגשת את המציאות: הרובוט מיישם נכון את הכלל הלוגי אך מזהה את כדור הכדורסל כתפוז. מטאפורה מושלמת לאופן שבו חוקרים במשפטים יכולים לדמות תהליכים לוגיים מבלי להיות בעלי הבנה אמיתית.

בחודשים האחרונים, קהילת הבינה המלאכותית נתונה לוויכוח סוער שהתעורר בעקבות שני מאמרי מחקר משפיעים שפרסמה אפל. הראשון, "GSM-Symbolic" (אוקטובר 2024), והשני, "The Illusion of Thinking" (יוני 2025), הטילו ספק ביכולות החשיבה לכאורה של מודלים של שפה גדולה, מה שעורר תגובות מעורבות ברחבי התעשייה.

כפי שדנו במאמר הקודם שלנו, "אשליית הקידמה: סימולציה של בינה כללית מלאכותית מבלי להשיגה", שאלת החשיבה המלאכותית נוגעת ללב ליבה של מה שאנו מחשיבים כאינטליגנציה במכונות.

מה אומר מחקר אפל

חוקרי אפל ערכו ניתוח שיטתי של מודלים של חשיבה גדולה (LRM) - מודלים המייצרים מסלולי חשיבה מפורטים לפני מתן תשובה. התוצאות היו מפתיעות, ולרבים, מדאיגות.

הבדיקות שבוצעו

המחקר העביר את המודלים המתקדמים ביותר לחידות אלגוריתמיות קלאסיות כגון:

  • מגדל האנוי : חידה מתמטית שנפתרה לראשונה בשנת 1957
  • בעיות חציית נהר : חידות היגיון עם אילוצים ספציפיים
  • GSM-סמלי בנצ'מרק : וריאציות של בעיות מתמטיקה ברמה יסודית

בדיקת חשיבה בעזרת חידות קלאסיות: בעיית החקלאי, הזאב, העז והכרוב היא אחת מחידות הלוגיקה בהן משתמשים במחקרי אפל כדי להעריך את יכולות החשיבה של סטודנטים לתואר שני. האתגר טמון במציאת רצף המעבר הנכון תוך מניעת הזאב לאכול את העז או העז לאכול את הכרוב כאשר היא נותרת לבדה. מבחן פשוט אך יעיל להבחנה בין הבנה אלגוריתמית לשינון תבניות.

תוצאות שנויות במחלוקת

התוצאות הראו שאפילו שינויים קטנים בניסוח הבעיה הובילו לשינויים משמעותיים בביצועים , דבר המצביע על חולשה מדאיגה בנימוק. כפי שדווח בסיקור של AppleInsider , "ביצועי כל המודלים ירדו כאשר רק הערכים המספריים בשאלות benchmark GSM-Symbolic שונו".

מתקפת הנגד: "אשליית אשליית החשיבה"

תגובת קהילת הבינה המלאכותית הייתה מהירה. אלכס לוסן מ-Open Philanthropy, בשיתוף פעולה עם קלוד אופוס מ-Anthropic, פרסמו תגובה מפורטת תחת הכותרת "האשליה של אשליית החשיבה", ובה ערערו על המתודולוגיות והמסקנות של המחקר של אפל.

ההתנגדויות העיקריות

  1. מגבלות פלט הוזנחו : כשלים רבים שיוחסו ל"קריסת נימוק" נבעו למעשה ממגבלות אסימון הפלט של המודלים.
  2. הערכה שגויה : סקריפטים אוטומטיים סיווגו אפילו פלטים חלקיים אך נכונים אלגוריתמית ככשלים מוחלטים.
  3. בעיות בלתי אפשריות : חלק מהפאזלים היו בלתי פתירים מבחינה מתמטית, אך מודלים נענשו על כישלון בפתרונם.

בדיקות אישור

כאשר לוסן חזר על הבדיקות עם מתודולוגיות חלופיות - ביקש מהמודלים לייצר פונקציות רקורסיביות במקום לפרט את כל המהלכים - התוצאות היו שונות באופן דרמטי. מודלים כמו קלוד, ג'מיני ו-GPT פתרו בהצלחה בעיות של מגדל האנוי עם 15 דיסקים, הרבה מעבר למורכבות שבה אפל דיווחה על אפס הצלחות.

הקולות הסמכותיים של הדיון

גארי מרקוס: המבקר ההיסטורי

גארי מרקוס , מבקר ותיק של יכולות החשיבה של סטודנטים למשפטים, שיבח את ממצאי אפל כאישור לתזה בת 20 השנים שלו. לדברי מרקוס, סטודנטים למשפטים ממשיכים להיאבק ב"הסטה חלוקתית" - היכולת להכליל מעבר לנתוני אימון - תוך שהם נשארים "פותרים טובים של בעיות פתורות".

קהילת הללמה המקומית

הדיון גלש גם לקהילות ייעודיות כמו LocalLlama ב-Reddit , שם מפתחים וחוקרים דנים בהשלכות המעשיות של מודלים בקוד פתוח ויישום מקומי.

מעבר למחלוקת: מה המשמעות עבור עסקים

השלכות אסטרטגיות

ויכוח זה אינו אקדמי גרידא. יש לו השלכות ישירות על:

  • פריסת בינה מלאכותית בייצור : עד כמה נוכל לסמוך על מודלים עבור משימות קריטיות?
  • השקעות במחקר ופיתוח : היכן למקד משאבים לפריצת הדרך הבאה?
  • תקשורת עם בעלי עניין : כיצד לנהל ציפיות ריאליות לגבי יכולות בינה מלאכותית?

הדרך הנוירו-סימבולית

כפי שמודגש במספר תובנות טכניות , הצורך בגישות היברידיות המשלבות:

  • רשתות נוירונים לזיהוי תבניות והבנת שפה
  • מערכות סמליות לחשיבה אלגוריתמית וללוגיקה פורמלית

דוגמה טריוויאלית : עוזר בינה מלאכותית שעוזר בחשבונאות. מודל השפה מבין כששואלים "כמה הוצאתי על נסיעות החודש?" ומחלץ את הפרמטרים הרלוונטיים (קטגוריה: נסיעות, תקופה: החודש). אבל שאילתת ה-SQL שמבצעת שאילתה במסד הנתונים, מחשבת את הסכום ובודקת אילוצי מס? זה נעשה על ידי קוד דטרמיניסטי, לא על ידי מודל עצבי.

תזמון והקשר אסטרטגי

לא נעלם מעיני הצופים שהמאמר של אפל פורסם זמן קצר לפני WWDC, מה שעורר שאלות לגבי המניעים האסטרטגיים שלו. כפי שמציין ניתוח של 9to5Mac , "התזמון של המאמר של אפל - ממש לפני WWDC - עורר כמה גבות. האם זו הייתה אבן דרך מחקרית, או מהלך אסטרטגי למיצוב מחדש של אפל בנוף הבינה המלאכותית הרחב יותר?"

לקחים לעתיד

לחוקרים

  • תכנון ניסיוני : חשיבות ההבחנה בין מגבלות אדריכליות לאילוצי יישום
  • הערכה קפדנית : הצורך במדדי ייחוס מתוחכמים המפרידים בין יכולות קוגניטיביות לאילוצים מעשיים
  • שקיפות מתודולוגית : הדרישה לתעד באופן מלא את מערכי הניסוי והמגבלות

לחברות

  • ציפיות ריאליות : הכרה במגבלות הנוכחיות מבלי לוותר על פוטנציאל עתידי
  • גישות היברידיות : השקעה בפתרונות המשלבים את נקודות החוזק של טכנולוגיות שונות
  • הערכה מתמשכת : הטמעת מערכות בדיקה המשקפות תרחישי שימוש מהעולם האמיתי

מסקנות: ניווט באי ודאות

הדיון שעוררו מאמרי אפל מזכיר לנו שאנחנו עדיין בשלבים המוקדמים של הבנת הבינה המלאכותית. כפי שהודגש במאמר הקודם שלנו, ההבחנה בין סימולציה לחשיבה אותנטית נותרה אחד האתגרים המורכבים ביותר של זמננו.

הלקח האמיתי אינו האם תואר שני במשפטים (LLMs) יכול "להסיק היגיון" במובן האנושי של המילה, אלא כיצד נוכל לבנות מערכות שממנפות את נקודות החוזק שלהן תוך פיצוי על מגבלותיהן. בעולם שבו בינה מלאכותית כבר משנה תעשיות שלמות, השאלה אינה עוד האם כלים אלה "אינטליגנטיים", אלא כיצד להשתמש בהם ביעילות ובאחריות.

עתיד הבינה המלאכותית הארגונית כנראה לא יהיה טמון בגישה מהפכנית אחת, אלא בתזמור חכם של מספר טכנולוגיות משלימות. ובתרחיש זה, היכולת להעריך באופן ביקורתי וכנה את יכולות הכלים שלנו הופכת ליתרון תחרותי בפני עצמו.

לקבלת תובנות לגבי אסטרטגיית הבינה המלאכותית של הארגון שלכם ויישום פתרונות חזקים, צוות המומחים שלנו זמין לייעוץ אישי.

מקורות והפניות:

משאבים לצמיחה עסקית

9 בנובמבר, 2025

מדריך מלא לתוכנות בינה עסקית לעסקים קטנים ובינוניים

שישים אחוז מהעסקים הקטנים והבינוניים האיטלקיים מודים בפערים קריטיים בהכשרת נתונים, ל-29% אין אפילו נתון ייעודי - בעוד ששוק ה-BI האיטלקי צמח מ-36.79 מיליארד דולר ל-69.45 מיליארד דולר עד 2034 (קצב צמיחה שנתי ממוצע של 8.56%). הבעיה אינה הטכנולוגיה, אלא הגישה: עסקים קטנים ובינוניים טובעים בנתונים המפוזרים על פני מערכות CRM, ERP וגליונות אלקטרוניים של אקסל מבלי להפוך אותם להחלטות. זה חל גם על אלו שמתחילים מאפס וגם על אלו המחפשים לייעל. קריטריוני הבחירה המרכזיים: שמישות באמצעות גרירה ושחרור ללא חודשים של הכשרה, יכולת הרחבה שגדלה איתך, אינטגרציה מקורית עם מערכות קיימות, עלות כוללת מלאה (יישום + הכשרה + תחזוקה) לעומת מחיר רישיון בלבד. מפת דרכים בת ארבעה שלבים - יעדי SMART מדידים (הפחתת נטישה ב-15% ב-6 חודשים), מיפוי מקורות נתונים נקיים (זבל נכנס = זבל יוצא), הכשרת צוותים לתרבות נתונים, פרויקטים פיילוט עם לולאת משוב מתמשכת. בינה מלאכותית משנה הכל: החל מ-BI תיאורי (מה קרה) ועד אנליטיקה רבודה (רבודה) שחושפת דפוסים נסתרים, אנליטיקה ניבויית שמעריכה ביקוש עתידי, ואנליטיקה מרשם שמציעה פעולות קונקרטיות. Electe דמוקרטיזציה של כוח זה עבור עסקים קטנים ובינוניים.
9 בנובמבר, 2025

מערכת הקירור של גוגל דיפמיינד בבינה מלאכותית: כיצד בינה מלאכותית מחוללת מהפכה ביעילות אנרגטית של מרכזי נתונים

Google DeepMind משיגה חיסכון של -40% באנרגיה בקירור מרכז נתונים (אך רק -4% מהצריכה הכוללת, מכיוון שהקירור מהווה 10% מהסך הכל) - דיוק של 99.6% עם שגיאה של 0.4% ב-PUE 1.1 באמצעות למידה עמוקה בת 5 שכבות, 50 צמתים, 19 משתני קלט על 184,435 דגימות אימון (שנתיים של נתונים). אושר ב-3 מתקנים: סינגפור (פריסה ראשונה 2016), אימסהייבן, קאונסיל בלאפס (השקעה של 5 מיליארד דולר). PUE כלל-ציית מערכות של גוגל 1.09 לעומת ממוצע בתעשייה 1.56-1.58. Model Predictive Control מנבאת טמפרטורה/לחץ לשעה הקרובה תוך ניהול בו זמנית של עומסי IT, מזג אוויר ומצב ציוד. אבטחה מובטחת: אימות דו-שלבי, מפעילים תמיד יכולים להשבית בינה מלאכותית. מגבלות קריטיות: אפס אימות עצמאי מחברות ביקורת/מעבדות לאומיות, כל מרכז נתונים דורש מודל מותאם אישית (8 שנים, מעולם לא מסחרי). יישום: 6-18 חודשים, דורש צוות רב-תחומי (מדעי נתונים, HVAC, ניהול מתקנים). ניתן ליישם מעבר למרכזי נתונים: מפעלים תעשייתיים, בתי חולים, קניונים, משרדי תאגידים. 2024-2025: גוגל עוברת לקירור נוזלי ישיר עבור TPU v5p, דבר המצביע על מגבלות מעשיות של אופטימיזציה של בינה מלאכותית.
9 בנובמבר, 2025

למה מתמטיקה קשה (גם אם אתה בינה מלאכותית)

מודלים של שפה לא יכולים להכפיל - הם משננים תוצאות כמו שאנחנו משננים פאי, אבל זה לא הופך אותם לבעלי יכולת מתמטית. הבעיה היא מבנית: הם לומדים דרך דמיון סטטיסטי, לא הבנה אלגוריתמית. אפילו "מודלים של חשיבה" חדשים כמו o1 נכשלים במשימות טריוויאליות: הוא סופר נכון את ה-'r' ב"תות" לאחר שניות של עיבוד, אבל נכשל כשהוא צריך לכתוב פסקה שבה האות השנייה של כל משפט מאייתת מילה. גרסת הפרימיום, שעולה 200 דולר לחודש, לוקחת ארבע דקות לפתור את מה שילד יכול לעשות באופן מיידי. DeepSeek ו-Mistral עדיין סופרים אותיות באופן שגוי בשנת 2025. הפתרון המתפתח? גישה היברידית - המודלים החכמים ביותר הבינו מתי לקרוא למחשבון אמיתי במקום לנסות את החישוב בעצמם. שינוי פרדיגמה: בינה מלאכותית לא צריכה לדעת איך לעשות הכל, אלא לתזמר את הכלים הנכונים. פרדוקס סופי: GPT-4 יכול להסביר בצורה מבריקה את תורת הגבולות, אבל הוא נכשל בבעיות כפל שמחשבון כיס תמיד פותר נכון. הם מצוינים לחינוך מתמטי - הם מסבירים בסבלנות אינסופית, מתאימים דוגמאות ומפרקים חשיבה מורכבת. לחישובים מדויקים? תסמכו על מחשבון, לא על בינה מלאכותית.