Newsletter

אשליית ההיגיון: הוויכוח שמטלטל את עולם הבינה המלאכותית

אפל מפרסמת שני מאמרים הרסניים - "GSM-Symbolic" (אוקטובר 2024) ו-"The Illusion of Thinking" (יוני 2025) - המדגימים כיצד תוכניות לימודי משפטים (LLM) נכשלות בווריאציות קטנות של בעיות קלאסיות (מגדל האנוי, חציית נהר): "הביצועים יורדים כאשר רק ערכים מספריים משתנים". אפס הצלחות במגדל האנוי המורכב. אבל אלכס לוסן (Open Philanthropy) מתנגד עם "The Illusion of the Illusion of Thinking", המדגים מתודולוגיה פגומה: כשלים היו מגבלות פלט של אסימון, לא קריסת חשיבה, סקריפטים אוטומטיים סיווגו באופן שגוי פלטים חלקיים נכונים, חלק מהחידות היו בלתי פתירות מבחינה מתמטית. על ידי חזרה על בדיקות עם פונקציות רקורסיביות במקום רישום מהלכים, קלוד/ג'מיני/GPT פותרים את מגדל האנוי בן 15 הדיסקים. גארי מרקוס מאמץ את תזת "הסטת ההפצה" של אפל, אך מאמר תזמון שלפני WWDC מעלה שאלות אסטרטגיות. השלכות עסקיות: עד כמה עלינו לסמוך על בינה מלאכותית למשימות קריטיות? פתרון: גישות נוירו-סימבוליות - רשתות עצביות לזיהוי תבניות + שפה, מערכות סמליות ללוגיקה פורמלית. דוגמה: חשבונאות מבוססת בינה מלאכותית מבינה "כמה הוצאתי על נסיעות?" אבל SQL/חישובים/ביקורות מס = קוד דטרמיניסטי.
כאשר חשיבה מבוססת בינה מלאכותית פוגשת את המציאות: הרובוט מיישם נכון את הכלל הלוגי אך מזהה את כדור הכדורסל כתפוז. מטאפורה מושלמת לאופן שבו חוקרים במשפטים יכולים לדמות תהליכים לוגיים מבלי להיות בעלי הבנה אמיתית.

בחודשים האחרונים, קהילת הבינה המלאכותית נתונה לדיון סוער שהתעורר בעקבות שני מאמרי מחקר משפיעים שפורסמו על ידי אפל . הראשון, "GSM-Symbolic" (אוקטובר 2024), והשני, "The Illusion of Thinking" (יוני 2025), הטילו ספק ביכולות החשיבה לכאורה של מודלים של שפה גדולה, מה שעורר תגובות מעורבות ברחבי התחום.

כפי שדנו במאמר הקודם שלנו "אשליית הקידמה: סימולציה של בינה כללית מלאכותית מבלי להשיגה", סוגיית החשיבה המלאכותית נוגעת ללב ליבה של מה שאנו מחשיבים כאינטליגנציה במכונות.

מה אומר מחקר אפל

חוקרי אפל ערכו ניתוח שיטתי של מודלים של חשיבה גדולה (LRM) - מודלים המייצרים מסלולי חשיבה מפורטים לפני מתן תשובה. התוצאות היו מפתיעות, ולרבים, מדאיגות.

הבדיקות שבוצעו

המחקר העביר את המודלים המתקדמים ביותר לחידות אלגוריתמיות קלאסיות כגון:

  • מגדל האנוי : חידה מתמטית שנפתרה לראשונה בשנת 1957
  • בעיות חציית נהר : חידות היגיון עם אילוצים ספציפיים
  • GSM-סמלי בנצ'מרק : וריאציות של בעיות מתמטיקה ברמה יסודית

בדיקת חשיבה בעזרת חידות קלאסיות: בעיית החקלאי, הזאב, העז והכרוב היא אחת מחידות הלוגיקה בהן משתמשים במחקרי אפל כדי להעריך את יכולות החשיבה של סטודנטים לתואר שני. האתגר טמון במציאת רצף המעבר הנכון תוך מניעת הזאב לאכול את העז או העז לאכול את הכרוב כאשר היא נותרת לבדה. מבחן פשוט אך יעיל להבחנה בין הבנה אלגוריתמית לשינון תבניות.

תוצאות שנויות במחלוקת

התוצאות הראו שאפילו שינויים קטנים בניסוח הבעיה הובילו לשינויים משמעותיים בביצועים , דבר המצביע על חולשה מדאיגה בנימוק. כפי שדווח בסיקור של AppleInsider , "ביצועי כל המודלים ירדו כאשר רק הערכים המספריים בשאלות benchmark GSM-Symbolic שונו".

מתקפת הנגד: "אשליית אשליית החשיבה"

תגובת קהילת הבינה המלאכותית הייתה מהירה. אלכס לוסן מ-Open Philanthropy, בשיתוף פעולה עם קלוד אופוס מ-Anthropic, פרסמו תגובה מפורטת תחת הכותרת "האשליה של אשליית החשיבה", ובה ערערו על המתודולוגיות והמסקנות של המחקר של אפל.

ההתנגדויות העיקריות

  1. מגבלות פלט הוזנחו : כשלים רבים שיוחסו ל"קריסת נימוק" נבעו למעשה ממגבלות אסימון הפלט של המודלים.
  2. הערכה שגויה : סקריפטים אוטומטיים סיווגו אפילו פלטים חלקיים אך נכונים אלגוריתמית ככשלים מוחלטים.
  3. בעיות בלתי אפשריות : חלק מהפאזלים היו בלתי פתירים מבחינה מתמטית, אך מודלים נענשו על כישלון בפתרונם.

בדיקות אישור

כאשר לוסן חזר על הבדיקות עם מתודולוגיות חלופיות - ביקש מהמודלים לייצר פונקציות רקורסיביות במקום לפרט את כל המהלכים - התוצאות היו שונות באופן דרמטי. מודלים כמו קלוד, ג'מיני ו-GPT פתרו בהצלחה בעיות של מגדל האנוי עם 15 דיסקים, הרבה מעבר למורכבות שבה אפל דיווחה על אפס הצלחות.

הקולות הסמכותיים של הדיון

גארי מרקוס: המבקר ההיסטורי

גארי מרקוס , מבקר ותיק של יכולות החשיבה של סטודנטים למשפטים, שיבח את ממצאי אפל כאישור לתזה בת 20 השנים שלו. לדברי מרקוס, סטודנטים למשפטים ממשיכים להיאבק ב"הסטה חלוקתית" - היכולת להכליל מעבר לנתוני אימון - תוך שהם נשארים "פותרים טובים של בעיות פתורות".

קהילת הללמה המקומית

הדיון גלש גם לקהילות ייעודיות כמו LocalLlama ב-Reddit , שם מפתחים וחוקרים דנים בהשלכות המעשיות של מודלים בקוד פתוח ויישום מקומי.

מעבר למחלוקת: מה המשמעות עבור עסקים

השלכות אסטרטגיות

ויכוח זה אינו אקדמי גרידא. יש לו השלכות ישירות על:

  • פריסת בינה מלאכותית בייצור : עד כמה נוכל לסמוך על מודלים עבור משימות קריטיות?
  • השקעות במחקר ופיתוח : היכן למקד משאבים לפריצת הדרך הבאה?
  • תקשורת עם בעלי עניין : כיצד לנהל ציפיות ריאליות לגבי יכולות בינה מלאכותית?

הדרך הנוירו-סימבולית

כפי שמודגש במספר תובנות טכניות , הצורך בגישות היברידיות המשלבות:

  • רשתות נוירונים לזיהוי תבניות והבנת שפה
  • מערכות סמליות לחשיבה אלגוריתמית וללוגיקה פורמלית

דוגמה טריוויאלית : עוזר בינה מלאכותית שעוזר בחשבונאות. מודל השפה מבין כששואלים "כמה הוצאתי על נסיעות החודש?" ומחלץ את הפרמטרים הרלוונטיים (קטגוריה: נסיעות, תקופה: החודש). אבל שאילתת ה-SQL שמבצעת שאילתה במסד הנתונים, מחשבת את הסכום ובודקת אילוצי מס? זה נעשה על ידי קוד דטרמיניסטי, לא על ידי מודל עצבי.

תזמון והקשר אסטרטגי

לא נעלם מעיני הצופים שהמאמר של אפל פורסם זמן קצר לפני WWDC, מה שעורר שאלות לגבי המניעים האסטרטגיים שלו. כפי שמציין ניתוח של 9to5Mac , "התזמון של המאמר של אפל - ממש לפני WWDC - עורר כמה גבות. האם זו הייתה אבן דרך מחקרית, או מהלך אסטרטגי למיצוב מחדש של אפל בנוף הבינה המלאכותית הרחב יותר?"

לקחים לעתיד

לחוקרים

  • תכנון ניסיוני : חשיבות ההבחנה בין מגבלות אדריכליות לאילוצי יישום
  • הערכה קפדנית : הצורך במדדי ייחוס מתוחכמים המפרידים בין יכולות קוגניטיביות לאילוצים מעשיים
  • שקיפות מתודולוגית : הדרישה לתעד באופן מלא את מערכי הניסוי והמגבלות

לחברות

  • ציפיות ריאליות : הכרה במגבלות הנוכחיות מבלי לוותר על פוטנציאל עתידי
  • גישות היברידיות : השקעה בפתרונות המשלבים את נקודות החוזק של טכנולוגיות שונות
  • הערכה מתמשכת : הטמעת מערכות בדיקה המשקפות תרחישי שימוש מהעולם האמיתי

מסקנות: ניווט באי ודאות

הדיון שעוררו מאמרי אפל מזכיר לנו שאנחנו עדיין בשלבים המוקדמים של הבנת הבינה המלאכותית. כפי שהודגש במאמר הקודם שלנו, ההבחנה בין סימולציה לחשיבה אותנטית נותרה אחד האתגרים המורכבים ביותר של זמננו.

הלקח האמיתי אינו האם תואר שני במשפטים (LLMs) יכול "להסיק היגיון" במובן האנושי של המילה, אלא כיצד נוכל לבנות מערכות שממנפות את נקודות החוזק שלהן תוך פיצוי על מגבלותיהן. בעולם שבו בינה מלאכותית כבר משנה תעשיות שלמות, השאלה אינה עוד האם כלים אלה "אינטליגנטיים", אלא כיצד להשתמש בהם ביעילות ובאחריות.

עתיד הבינה המלאכותית הארגונית כנראה לא יהיה טמון בגישה מהפכנית אחת, אלא בתזמור חכם של מספר טכנולוגיות משלימות. ובתרחיש זה, היכולת להעריך באופן ביקורתי וכנה את יכולות הכלים שלנו הופכת ליתרון תחרותי בפני עצמו.

התפתחויות אחרונות (ינואר 2026)

OpenAI משחררת את o3 ו-o4-mini : ב-16 באפריל 2025, OpenAI פרסמה בפומבי את o3 ו-o4-mini, מודלי החשיבה המתקדמים ביותר בסדרת o-. מודלים אלה יכולים כעת להשתמש בכלים באופן מבוסס סוכן, המשלב חיפוש באינטרנט, ניתוח קבצים, חשיבה חזותית ויצירת תמונות. o3 קבע שיאים חדשים במבחנים כמו Codeforces, SWE-bench ו-MMMU, בעוד ש-o4-mini ממטב את הביצועים והעלות עבור משימות חשיבה בנפח גבוה. המודלים מדגימים יכולות "חשיבה תמונה", תוך שינוי חזותי של תוכן לניתוח מעמיק יותר.

DeepSeek-R1 מטלטל את תעשיית הבינה המלאכותית : בינואר 2025, DeepSeek הוציאה את R1, מודל חשיבה בקוד פתוח שהשיג ביצועים דומים ל-OpenAI O1 בעלות אימון של 6 מיליון דולר בלבד (לעומת מאות מיליונים עבור מודלים מערביים). DeepSeek-R1 מדגים שניתן לשפר מיומנויות חשיבה באמצעות למידה מבוססת חיזוקים טהורה, ללא צורך בהוכחות אנושיות מבוארות. המודל הפך לאפליקציה החינמית מספר 1 ב-App Store וב-Google Play בעשרות מדינות. בינואר 2026, DeepSeek פרסמה מאמר מורחב בן 60 עמודים שחשף את סודות האימון והודה בגלוי כי טכניקות כמו Monte Carlo Tree Search (MCTS) לא עבדו עבור חשיבה כללית.

אנתרופיק מעדכנת את "החוקה" של קלוד : ב-22 בינואר 2026, אנתרופיק פרסמה חוקה חדשה בת 23,000 מילים עבור קלוד, שעוברת מגישה מבוססת כללים לגישה המבוססת על הבנה של עקרונות אתיים. המסמך הופך למסגרת הראשונה של חברת בינה מלאכותית גדולה שמכירה רשמית באפשרות של תודעה או מעמד מוסרי של בינה מלאכותית, וקובעת כי אנתרופיק דואגת ל"רווחתו הנפשית, תחושת העצמי ורווחתו" של קלוד.

הוויכוח מתעצם : מחקר משנת 2025 שחזר ועידן את מדדי הביצועים של אפל, ואישר כי מערכות LRM עדיין מציגות מגבלות קוגניטיביות כאשר המורכבות עולה במידה מתונה (כ-8 דיסקים במגדל האנוי). החוקרים הדגימו שזה לא רק נובע מאילוצי פלט, אלא גם ממגבלות קוגניטיביות בעולם האמיתי, מה שמדגיש שהוויכוח רחוק מלהסתיים.

לקבלת תובנות לגבי אסטרטגיית הבינה המלאכותית של הארגון שלכם ויישום פתרונות חזקים, צוות המומחים שלנו זמין לייעוץ אישי.

מקורות והפניות:

משאבים לצמיחה עסקית

9 בנובמבר, 2025

מפתחים ובינה מלאכותית באתרי אינטרנט: אתגרים, כלים ושיטות עבודה מומלצות: פרספקטיבה בינלאומית

איטליה תקועה על אימוץ של 8.2% בתחום הבינה המלאכותית (לעומת 13.5% בממוצע באיחוד האירופי), בעוד שבכל העולם, 40% מהחברות כבר משתמשות בבינה מלאכותית באופן מבצעי - והמספרים מראים מדוע הפער קטלני: הצ'אטבוט של אמטרק מייצר החזר השקעה של 800%, GrandStay חוסכת 2.1 מיליון דולר בשנה על ידי טיפול אוטונומי ב-72% מהבקשות, וטלנור מגדילה את ההכנסות ב-15%. דוח זה בוחן יישום בינה מלאכותית באתרי אינטרנט עם מקרים מעשיים (Lutech Brain למכרזים, Netflix להמלצות, L'Oréal Beauty Gifter עם מעורבות פי 27 לעומת דוא"ל) ומתייחס לאתגרים טכניים מהעולם האמיתי: איכות נתונים, הטיה אלגוריתמית, אינטגרציה עם מערכות מדור קודם ועיבוד בזמן אמת. מפתרונות - מחשוב קצה להפחתת זמן השהייה, ארכיטקטורות מודולריות, אסטרטגיות נגד הטיה - ועד לסוגיות אתיות (פרטיות, בועות סינון, נגישות למשתמשים עם מוגבלויות) ועד מקרים ממשלתיים (הלסינקי עם תרגום בינה מלאכותית רב-לשונית), גלו כיצד מפתחי אתרים עוברים ממפתחי קוד לאסטרטגים של חוויית משתמש ומדוע אלו המנווטים את האבולוציה הזו היום ישלטו באינטרנט מחר.
9 בנובמבר, 2025

מערכות תומכות החלטות מבוססות בינה מלאכותית: עלייתם של "יועצים" בהנהגה תאגידית

77% מהחברות משתמשות בבינה מלאכותית, אך רק ל-1% יש יישומים "בוגרים" - הבעיה אינה הטכנולוגיה, אלא הגישה: אוטומציה מוחלטת לעומת שיתוף פעולה חכם. גולדמן זאקס, המשתמשת ביועץ בינה מלאכותית על 10,000 עובדים, מייצרת עלייה של 30% ביעילות ההסברה ועלייה של 12% במכירות צולבות תוך שמירה על החלטות אנושיות; קייזר פרמננטה מונעת 500 מקרי מוות בשנה על ידי ניתוח 100 פריטים בשעה 12 שעות מראש, אך משאירה את האבחונים לרופאים. מודל היועץ מטפל בפער האמון (רק 44% סומכים על בינה מלאכותית ארגונית) באמצעות שלושה עמודי תווך: בינה מלאכותית מוסברת עם הנמקה שקופה, ציוני ביטחון מכוילים ומשוב מתמשך לשיפור. המספרים: השפעה של 22.3 טריליון דולר עד 2030, משתפי פעולה אסטרטגיים בתחום הבינה המלאכותית יראו החזר השקעה של פי 4 עד 2026. מפת דרכים מעשית בת שלושה שלבים - הערכת מיומנויות ומשילות, פיילוט עם מדדי אמון, הרחבה הדרגתית עם הכשרה מתמשכת - החלה על פיננסים (הערכת סיכונים מפוקחת), שירותי בריאות (תמיכה אבחונית) וייצור (תחזוקה חזויה). העתיד אינו בינה מלאכותית שתחליף בני אדם, אלא תזמור יעיל של שיתוף פעולה בין אדם למכונה.
9 בנובמבר, 2025

מדריך מלא לתוכנות בינה עסקית לעסקים קטנים ובינוניים

שישים אחוז מהעסקים הקטנים והבינוניים האיטלקיים מודים בפערים קריטיים בהכשרת נתונים, ל-29% אין אפילו נתון ייעודי - בעוד ששוק ה-BI האיטלקי צמח מ-36.79 מיליארד דולר ל-69.45 מיליארד דולר עד 2034 (קצב צמיחה שנתי ממוצע של 8.56%). הבעיה אינה הטכנולוגיה, אלא הגישה: עסקים קטנים ובינוניים טובעים בנתונים המפוזרים על פני מערכות CRM, ERP וגליונות אלקטרוניים של אקסל מבלי להפוך אותם להחלטות. זה חל גם על אלו שמתחילים מאפס וגם על אלו המחפשים לייעל. קריטריוני הבחירה המרכזיים: שמישות באמצעות גרירה ושחרור ללא חודשים של הכשרה, יכולת הרחבה שגדלה איתך, אינטגרציה מקורית עם מערכות קיימות, עלות כוללת מלאה (יישום + הכשרה + תחזוקה) לעומת מחיר רישיון בלבד. מפת דרכים בת ארבעה שלבים - יעדי SMART מדידים (הפחתת נטישה ב-15% ב-6 חודשים), מיפוי מקורות נתונים נקיים (זבל נכנס = זבל יוצא), הכשרת צוותים לתרבות נתונים, פרויקטים פיילוט עם לולאת משוב מתמשכת. בינה מלאכותית משנה הכל: החל מ-BI תיאורי (מה קרה) ועד אנליטיקה רבודה (רבודה) שחושפת דפוסים נסתרים, אנליטיקה ניבויית שמעריכה ביקוש עתידי, ואנליטיקה מרשם שמציעה פעולות קונקרטיות. Electe דמוקרטיזציה של כוח זה עבור עסקים קטנים ובינוניים.
9 בנובמבר, 2025

מערכת הקירור של גוגל דיפמיינד בבינה מלאכותית: כיצד בינה מלאכותית מחוללת מהפכה ביעילות אנרגטית של מרכזי נתונים

Google DeepMind משיגה חיסכון של -40% באנרגיה בקירור מרכז נתונים (אך רק -4% מהצריכה הכוללת, מכיוון שהקירור מהווה 10% מהסך הכל) - דיוק של 99.6% עם שגיאה של 0.4% ב-PUE 1.1 באמצעות למידה עמוקה בת 5 שכבות, 50 צמתים, 19 משתני קלט על 184,435 דגימות אימון (שנתיים של נתונים). אושר ב-3 מתקנים: סינגפור (פריסה ראשונה 2016), אימסהייבן, קאונסיל בלאפס (השקעה של 5 מיליארד דולר). PUE כלל-ציית מערכות של גוגל 1.09 לעומת ממוצע בתעשייה 1.56-1.58. Model Predictive Control מנבאת טמפרטורה/לחץ לשעה הקרובה תוך ניהול בו זמנית של עומסי IT, מזג אוויר ומצב ציוד. אבטחה מובטחת: אימות דו-שלבי, מפעילים תמיד יכולים להשבית בינה מלאכותית. מגבלות קריטיות: אפס אימות עצמאי מחברות ביקורת/מעבדות לאומיות, כל מרכז נתונים דורש מודל מותאם אישית (8 שנים, מעולם לא מסחרי). יישום: 6-18 חודשים, דורש צוות רב-תחומי (מדעי נתונים, HVAC, ניהול מתקנים). ניתן ליישם מעבר למרכזי נתונים: מפעלים תעשייתיים, בתי חולים, קניונים, משרדי תאגידים. 2024-2025: גוגל עוברת לקירור נוזלי ישיר עבור TPU v5p, דבר המצביע על מגבלות מעשיות של אופטימיזציה של בינה מלאכותית.