אשליית ההיגיון: הוויכוח שמטלטל את עולם הבינה המלאכותית

Newsletter

אשליית ההיגיון: הוויכוח שמטלטל את עולם הבינה המלאכותית

אפל מפרסמת שני מאמרים הרסניים - "GSM-Symbolic" (אוקטובר 2024) ו-"The Illusion of Thinking" (יוני 2025) - המדגימים כיצד תוכניות לימודי משפטים (LLM) נכשלות בווריאציות קטנות של בעיות קלאסיות (מגדל האנוי, חציית נהר): "הביצועים יורדים כאשר רק ערכים מספריים משתנים". אפס הצלחות במגדל האנוי המורכב. אבל אלכס לוסן (Open Philanthropy) מתנגד עם "The Illusion of the Illusion of Thinking", המדגים מתודולוגיה פגומה: כשלים היו מגבלות פלט של אסימון, לא קריסת חשיבה, סקריפטים אוטומטיים סיווגו באופן שגוי פלטים חלקיים נכונים, חלק מהחידות היו בלתי פתירות מבחינה מתמטית. על ידי חזרה על בדיקות עם פונקציות רקורסיביות במקום רישום מהלכים, קלוד/ג'מיני/GPT פותרים את מגדל האנוי בן 15 הדיסקים. גארי מרקוס מאמץ את תזת "הסטת ההפצה" של אפל, אך מאמר תזמון שלפני WWDC מעלה שאלות אסטרטגיות. השלכות עסקיות: עד כמה עלינו לסמוך על בינה מלאכותית למשימות קריטיות? פתרון: גישות נוירו-סימבוליות - רשתות עצביות לזיהוי תבניות + שפה, מערכות סמליות ללוגיקה פורמלית. דוגמה: חשבונאות מבוססת בינה מלאכותית מבינה "כמה הוצאתי על נסיעות?" אבל SQL/חישובים/ביקורות מס = קוד דטרמיניסטי.

פאביו לאוריה

מנכ"ל ומייסד חברת Electe

סיכום מאמר זה באמצעות בינה מלאכותית

כאשר חשיבה מבוססת בינה מלאכותית פוגשת את המציאות: הרובוט מיישם נכון את הכלל הלוגי אך מזהה את כדור הכדורסל כתפוז. מטאפורה מושלמת לאופן שבו חוקרים במשפטים יכולים לדמות תהליכים לוגיים מבלי להיות בעלי הבנה אמיתית.

‍

בחודשים האחרונים, קהילת הבינה המלאכותית נתונה לדיון סוער שהתעורר בעקבות שני מאמרי מחקר משפיעים שפורסמו על ידי אפל . הראשון, "GSM-Symbolic" (אוקטובר 2024), והשני, "The Illusion of Thinking" (יוני 2025), הטילו ספק ביכולות החשיבה לכאורה של מודלים של שפה גדולה, מה שעורר תגובות מעורבות ברחבי התחום.

‍

כפי שדנו במאמר הקודם שלנו "אשליית הקידמה: סימולציה של בינה כללית מלאכותית מבלי להשיגה", סוגיית החשיבה המלאכותית נוגעת ללב ליבה של מה שאנו מחשיבים כאינטליגנציה במכונות.

‍

מה אומר מחקר אפל

חוקרי אפל ערכו ניתוח שיטתי של מודלים של חשיבה גדולה (LRM) - מודלים המייצרים מסלולי חשיבה מפורטים לפני מתן תשובה. התוצאות היו מפתיעות, ולרבים, מדאיגות.

‍

הבדיקות שבוצעו

המחקר העביר את המודלים המתקדמים ביותר לחידות אלגוריתמיות קלאסיות כגון:

מגדל האנוי : חידה מתמטית שנפתרה לראשונה בשנת 1957
בעיות חציית נהר : חידות היגיון עם אילוצים ספציפיים
GSM-סמלי בנצ'מרק : וריאציות של בעיות מתמטיקה ברמה יסודית

‍

בדיקת חשיבה בעזרת חידות קלאסיות: בעיית החקלאי, הזאב, העז והכרוב היא אחת מחידות הלוגיקה בהן משתמשים במחקרי אפל כדי להעריך את יכולות החשיבה של סטודנטים לתואר שני. האתגר טמון במציאת רצף המעבר הנכון תוך מניעת הזאב לאכול את העז או העז לאכול את הכרוב כאשר היא נותרת לבדה. מבחן פשוט אך יעיל להבחנה בין הבנה אלגוריתמית לשינון תבניות.

‍

תוצאות שנויות במחלוקת

התוצאות הראו שאפילו שינויים קטנים בניסוח הבעיה הובילו לשינויים משמעותיים בביצועים , דבר המצביע על חולשה מדאיגה בנימוק. כפי שדווח בסיקור של AppleInsider , "ביצועי כל המודלים ירדו כאשר רק הערכים המספריים בשאלות benchmark GSM-Symbolic שונו".

‍

מתקפת הנגד: "אשליית אשליית החשיבה"

‍

תגובת קהילת הבינה המלאכותית הייתה מהירה. אלכס לוסן מ-Open Philanthropy, בשיתוף פעולה עם קלוד אופוס מ-Anthropic, פרסמו תגובה מפורטת תחת הכותרת "האשליה של אשליית החשיבה", ובה ערערו על המתודולוגיות והמסקנות של המחקר של אפל.

ההתנגדויות העיקריות

מגבלות פלט הוזנחו : כשלים רבים שיוחסו ל"קריסת נימוק" נבעו למעשה ממגבלות אסימון הפלט של המודלים.
הערכה שגויה : סקריפטים אוטומטיים סיווגו אפילו פלטים חלקיים אך נכונים אלגוריתמית ככשלים מוחלטים.
בעיות בלתי אפשריות : חלק מהפאזלים היו בלתי פתירים מבחינה מתמטית, אך מודלים נענשו על כישלון בפתרונם.

בדיקות אישור

כאשר לוסן חזר על הבדיקות עם מתודולוגיות חלופיות - ביקש מהמודלים לייצר פונקציות רקורסיביות במקום לפרט את כל המהלכים - התוצאות היו שונות באופן דרמטי. מודלים כמו קלוד, ג'מיני ו-GPT פתרו בהצלחה בעיות של מגדל האנוי עם 15 דיסקים, הרבה מעבר למורכבות שבה אפל דיווחה על אפס הצלחות.

‍

הקולות הסמכותיים של הדיון

‍

גארי מרקוס: המבקר ההיסטורי

גארי מרקוס , מבקר ותיק של יכולות החשיבה של סטודנטים למשפטים, שיבח את ממצאי אפל כאישור לתזה בת 20 השנים שלו. לדברי מרקוס, סטודנטים למשפטים ממשיכים להיאבק ב"הסטה חלוקתית" - היכולת להכליל מעבר לנתוני אימון - תוך שהם נשארים "פותרים טובים של בעיות פתורות".

‍

קהילת הללמה המקומית

הדיון גלש גם לקהילות ייעודיות כמו LocalLlama ב-Reddit , שם מפתחים וחוקרים דנים בהשלכות המעשיות של מודלים בקוד פתוח ויישום מקומי.

‍

מעבר למחלוקת: מה המשמעות עבור עסקים

השלכות אסטרטגיות

ויכוח זה אינו אקדמי גרידא. יש לו השלכות ישירות על:

פריסת בינה מלאכותית בייצור : עד כמה נוכל לסמוך על מודלים עבור משימות קריטיות?
השקעות במחקר ופיתוח : היכן למקד משאבים לפריצת הדרך הבאה?
תקשורת עם בעלי עניין : כיצד לנהל ציפיות ריאליות לגבי יכולות בינה מלאכותית?

הדרך הנוירו-סימבולית

כפי שמודגש במספר תובנות טכניות , הצורך בגישות היברידיות המשלבות:

רשתות נוירונים לזיהוי תבניות והבנת שפה
מערכות סמליות לחשיבה אלגוריתמית וללוגיקה פורמלית

דוגמה טריוויאלית : עוזר בינה מלאכותית שעוזר בחשבונאות. מודל השפה מבין כששואלים "כמה הוצאתי על נסיעות החודש?" ומחלץ את הפרמטרים הרלוונטיים (קטגוריה: נסיעות, תקופה: החודש). אבל שאילתת ה-SQL שמבצעת שאילתה במסד הנתונים, מחשבת את הסכום ובודקת אילוצי מס? זה נעשה על ידי קוד דטרמיניסטי, לא על ידי מודל עצבי.

‍

תזמון והקשר אסטרטגי

לא נעלם מעיני הצופים שהמאמר של אפל פורסם זמן קצר לפני WWDC, מה שעורר שאלות לגבי המניעים האסטרטגיים שלו. כפי שמציין ניתוח של 9to5Mac , "התזמון של המאמר של אפל - ממש לפני WWDC - עורר כמה גבות. האם זו הייתה אבן דרך מחקרית, או מהלך אסטרטגי למיצוב מחדש של אפל בנוף הבינה המלאכותית הרחב יותר?"

‍

לקחים לעתיד

לחוקרים

תכנון ניסיוני : חשיבות ההבחנה בין מגבלות אדריכליות לאילוצי יישום
הערכה קפדנית : הצורך במדדי ייחוס מתוחכמים המפרידים בין יכולות קוגניטיביות לאילוצים מעשיים
שקיפות מתודולוגית : הדרישה לתעד באופן מלא את מערכי הניסוי והמגבלות

לחברות

ציפיות ריאליות : הכרה במגבלות הנוכחיות מבלי לוותר על פוטנציאל עתידי
גישות היברידיות : השקעה בפתרונות המשלבים את נקודות החוזק של טכנולוגיות שונות
הערכה מתמשכת : הטמעת מערכות בדיקה המשקפות תרחישי שימוש מהעולם האמיתי

‍

‍

מסקנות: ניווט באי ודאות

‍

הדיון שעוררו מאמרי אפל מזכיר לנו שאנחנו עדיין בשלבים המוקדמים של הבנת הבינה המלאכותית. כפי שהודגש במאמר הקודם שלנו, ההבחנה בין סימולציה לחשיבה אותנטית נותרה אחד האתגרים המורכבים ביותר של זמננו.

‍

הלקח האמיתי אינו האם תואר שני במשפטים (LLMs) יכול "להסיק היגיון" במובן האנושי של המילה, אלא כיצד נוכל לבנות מערכות שממנפות את נקודות החוזק שלהן תוך פיצוי על מגבלותיהן. בעולם שבו בינה מלאכותית כבר משנה תעשיות שלמות, השאלה אינה עוד האם כלים אלה "אינטליגנטיים", אלא כיצד להשתמש בהם ביעילות ובאחריות.

‍

עתיד הבינה המלאכותית הארגונית כנראה לא יהיה טמון בגישה מהפכנית אחת, אלא בתזמור חכם של מספר טכנולוגיות משלימות. ובתרחיש זה, היכולת להעריך באופן ביקורתי וכנה את יכולות הכלים שלנו הופכת ליתרון תחרותי בפני עצמו.

‍

התפתחויות אחרונות (ינואר 2026)

OpenAI משחררת את o3 ו-o4-mini : ב-16 באפריל 2025, OpenAI פרסמה בפומבי את o3 ו-o4-mini, מודלי החשיבה המתקדמים ביותר בסדרת o-. מודלים אלה יכולים כעת להשתמש בכלים באופן מבוסס סוכן, המשלב חיפוש באינטרנט, ניתוח קבצים, חשיבה חזותית ויצירת תמונות. o3 קבע שיאים חדשים במבחנים כמו Codeforces, SWE-bench ו-MMMU, בעוד ש-o4-mini ממטב את הביצועים והעלות עבור משימות חשיבה בנפח גבוה. המודלים מדגימים יכולות "חשיבה תמונה", תוך שינוי חזותי של תוכן לניתוח מעמיק יותר.

DeepSeek-R1 מטלטל את תעשיית הבינה המלאכותית : בינואר 2025, DeepSeek הוציאה את R1, מודל חשיבה בקוד פתוח שהשיג ביצועים דומים ל-OpenAI O1 בעלות אימון של 6 מיליון דולר בלבד (לעומת מאות מיליונים עבור מודלים מערביים). DeepSeek-R1 מדגים שניתן לשפר מיומנויות חשיבה באמצעות למידה מבוססת חיזוקים טהורה, ללא צורך בהוכחות אנושיות מבוארות. המודל הפך לאפליקציה החינמית מספר 1 ב-App Store וב-Google Play בעשרות מדינות. בינואר 2026, DeepSeek פרסמה מאמר מורחב בן 60 עמודים שחשף את סודות האימון והודה בגלוי כי טכניקות כמו Monte Carlo Tree Search (MCTS) לא עבדו עבור חשיבה כללית.

אנתרופיק מעדכנת את "החוקה" של קלוד : ב-22 בינואר 2026, אנתרופיק פרסמה חוקה חדשה בת 23,000 מילים עבור קלוד, שעוברת מגישה מבוססת כללים לגישה המבוססת על הבנה של עקרונות אתיים. המסמך הופך למסגרת הראשונה של חברת בינה מלאכותית גדולה שמכירה רשמית באפשרות של תודעה או מעמד מוסרי של בינה מלאכותית, וקובעת כי אנתרופיק דואגת ל"רווחתו הנפשית, תחושת העצמי ורווחתו" של קלוד.

הוויכוח מתעצם : מחקר משנת 2025 שחזר ועידן את מדדי הביצועים של אפל, ואישר כי מערכות LRM עדיין מציגות מגבלות קוגניטיביות כאשר המורכבות עולה במידה מתונה (כ-8 דיסקים במגדל האנוי). החוקרים הדגימו שזה לא רק נובע מאילוצי פלט, אלא גם ממגבלות קוגניטיביות בעולם האמיתי, מה שמדגיש שהוויכוח רחוק מלהסתיים.

‍

לקבלת תובנות לגבי אסטרטגיית הבינה המלאכותית של הארגון שלכם ויישום פתרונות חזקים, צוות המומחים שלנו זמין לייעוץ אישי.

‍

מקורות והפניות:

GSM-Symbolic: הבנת מגבלות החשיבה המתמטית במודלים גדולים של שפה - מחקר למידת מכונה של אפל
אשליית החשיבה: הבנת החוזקות והמגבלות של מודלים של חשיבה - מחקר למידת מכונה של אפל
מאמר חדש דוחה את מחקר "קריסת ההיגיון" של אפל בתחום התואר השני - 9to5Mac
שבע תגובות למאמר ההיגיון הוויראלי של אפל - גארי מרקוס
אשליית החשיבה: מה אומר המאמר של אפל על בינה מלאכותית על חשיבה בתואר ראשון במשפטים - Arize AI
מחקר של אפל מוכיח שמודלים של בינה מלאכותית מבוססי LLM פגומים - AppleInsider
אשליית הקידמה: סימולציה של בינה כללית מלאכותית מבלי להשיג אותה - Electe

משאבים לצמיחה עסקית

9 בנובמבר, 2025

אשליית ההיגיון: הוויכוח שמטלטל את עולם הבינה המלאכותית

אפל מפרסמת שני מאמרים הרסניים - "GSM-Symbolic" (אוקטובר 2024) ו-"The Illusion of Thinking" (יוני 2025) - המדגימים כיצד תוכניות לימודי משפטים (LLM) נכשלות בווריאציות קטנות של בעיות קלאסיות (מגדל האנוי, חציית נהר): "הביצועים יורדים כאשר רק ערכים מספריים משתנים". אפס הצלחות במגדל האנוי המורכב. אבל אלכס לוסן (Open Philanthropy) מתנגד עם "The Illusion of the Illusion of Thinking", המדגים מתודולוגיה פגומה: כשלים היו מגבלות פלט של אסימון, לא קריסת חשיבה, סקריפטים אוטומטיים סיווגו באופן שגוי פלטים חלקיים נכונים, חלק מהחידות היו בלתי פתירות מבחינה מתמטית. על ידי חזרה על בדיקות עם פונקציות רקורסיביות במקום רישום מהלכים, קלוד/ג'מיני/GPT פותרים את מגדל האנוי בן 15 הדיסקים. גארי מרקוס מאמץ את תזת "הסטת ההפצה" של אפל, אך מאמר תזמון שלפני WWDC מעלה שאלות אסטרטגיות. השלכות עסקיות: עד כמה עלינו לסמוך על בינה מלאכותית למשימות קריטיות? פתרון: גישות נוירו-סימבוליות - רשתות עצביות לזיהוי תבניות + שפה, מערכות סמליות ללוגיקה פורמלית. דוגמה: חשבונאות מבוססת בינה מלאכותית מבינה "כמה הוצאתי על נסיעות?" אבל SQL/חישובים/ביקורות מס = קוד דטרמיניסטי.

9 בנובמבר, 2025

🤖 שיחת טכנולוגיה: כאשר בינה מלאכותית מפתחת את שפות הסודיות שלה

בעוד ש-61% מהאנשים כבר חוששים מבינה מלאכותית שמבינה, בפברואר 2025, Gibberlink צברה 15 מיליון צפיות כשהציגה משהו חדש באופן קיצוני: שתי מערכות בינה מלאכותית שמפסיקות לדבר אנגלית ומתקשרות באמצעות צלילים גבוהים בתדרים של 1875-4500 הרץ, בלתי נתפסים לבני אדם. זה לא מדע בדיוני, אלא פרוטוקול FSK שמשפר את הביצועים ב-80%, חותר תחת סעיף 13 של חוק הבינה המלאכותית של האיחוד האירופי ויוצר אטימות דו-שכבתית: אלגוריתמים בלתי ניתנים לפענוח שמתואמים בשפות בלתי ניתנות לפענוח. המדע מראה שאנחנו יכולים ללמוד פרוטוקולי מכונה (כמו קוד מורס בקצב של 20-40 מילים/דקה), אך אנו ניצבים בפני מגבלות ביולוגיות בלתי עבירות: 126 ביט/שנייה לבני אדם לעומת Mbps+ למכונות. שלושה מקצועות חדשים צצים - אנליסט פרוטוקולי בינה מלאכותית, מבקר תקשורת בינה מלאכותית ומעצב ממשק אנושי של בינה מלאכותית - כאשר IBM, גוגל ו-Anthropic מפתחות סטנדרטים (ACP, A2A, MCP) כדי להימנע מהקופסה השחורה האולטימטיבית. החלטות שיתקבלו היום בנוגע לפרוטוקולי תקשורת של בינה מלאכותית יעצבו את מסלול הבינה המלאכותית בעשורים הבאים.

9 בנובמבר, 2025

מגמות בינה מלאכותית 2025: 6 פתרונות אסטרטגיים ליישום חלק של בינה מלאכותית

87% מהחברות מכירות בבינה מלאכותית כצורך תחרותי, אך רבות מהן נכשלות בשילובה - הבעיה אינה הטכנולוגיה, אלא הגישה. שבעים ושלושה אחוזים מהמנהלים מציינים שקיפות (בינה מלאכותית מוסברת) כגורם קריטי לתמיכה מצד בעלי העניין, בעוד שיישומים מוצלחים עוקבים אחר אסטרטגיית "התחילו בקטן, תחשבו בגדול": פרויקטים פיילוט ממוקדים ובעלי ערך גבוה במקום טרנספורמציות עסקיות בקנה מידה מלא. מקרה אמיתי: חברת ייצור מיישמת תחזוקה חזויה של בינה מלאכותית בקו ייצור יחיד, ומשיגה הפחתה של 67% בזמן השבתה תוך 60 יום, מה שמזרז אימוץ כלל-ארגוני. שיטות עבודה מומלצות מאומתות: מתן עדיפות לשילוב API/תוכנה על פני החלפה מלאה כדי להפחית עקומות למידה; הקדשת 30% מהמשאבים לניהול שינויים עם הכשרה ספציפית לתפקיד מייצרת עלייה של 40% במהירות האימוץ ועלייה של 65% בשביעות רצון המשתמשים; יישום מקביל לאימות תוצאות בינה מלאכותית לעומת שיטות קיימות; הידרדרות הדרגתית עם מערכות גיבוי; מחזורי סקירה שבועיים במשך 90 הימים הראשונים, ניטור ביצועים טכניים, השפעה עסקית, שיעורי אימוץ והחזר השקעה (ROI). הצלחה דורשת איזון בין גורמים טכניים ואנושיים: אלופי בינה מלאכותית פנימיים, התמקדות ביתרונות מעשיים וגמישות אבולוציונית.

9 בנובמבר, 2025

האסטרטגיה המנצחת ליישום בינה מלאכותית: תוכנית ל-90 יום

87% מצוותי התמיכה חוו ציפיות מוגברות מצד הלקוחות, כאשר 68% מייחסים זאת לבינה מלאכותית. 90 הימים הראשונים הם קריטיים כדי למנוע שיתוק ניתוחי ולהתחיל לראות תוצאות מוחשיות. התוכנית בת שלושת השלבים מכסה הכל, החל מיישור אסטרטגי ועד ליישום פיילוט והתרחבות מדידה, תוך הימנעות ממכשולים נפוצים וניטור מדדים מרכזיים כגון יעילות והשפעה על הכנסות. בעזרת תמיכה ייעודית והכשרה מתמשכת, תוכלו להפוך הצלחות ראשוניות לתרבות ארגונית תומכת בבינה מלאכותית.