Newsletter

למה מתמטיקה קשה (גם אם אתה בינה מלאכותית)

מודלים של שפה לא יכולים להכפיל - הם משננים תוצאות כמו שאנחנו משננים פאי, אבל זה לא הופך אותם לבעלי יכולת מתמטית. הבעיה היא מבנית: הם לומדים דרך דמיון סטטיסטי, לא הבנה אלגוריתמית. אפילו "מודלים של חשיבה" חדשים כמו o1 נכשלים במשימות טריוויאליות: הוא סופר נכון את ה-'r' ב"תות" לאחר שניות של עיבוד, אבל נכשל כשהוא צריך לכתוב פסקה שבה האות השנייה של כל משפט מאייתת מילה. גרסת הפרימיום, שעולה 200 דולר לחודש, לוקחת ארבע דקות לפתור את מה שילד יכול לעשות באופן מיידי. DeepSeek ו-Mistral עדיין סופרים אותיות באופן שגוי בשנת 2025. הפתרון המתפתח? גישה היברידית - המודלים החכמים ביותר הבינו מתי לקרוא למחשבון אמיתי במקום לנסות את החישוב בעצמם. שינוי פרדיגמה: בינה מלאכותית לא צריכה לדעת איך לעשות הכל, אלא לתזמר את הכלים הנכונים. פרדוקס סופי: GPT-4 יכול להסביר בצורה מבריקה את תורת הגבולות, אבל הוא נכשל בבעיות כפל שמחשבון כיס תמיד פותר נכון. הם מצוינים לחינוך מתמטי - הם מסבירים בסבלנות אינסופית, מתאימים דוגמאות ומפרקים חשיבה מורכבת. לחישובים מדויקים? תסמכו על מחשבון, לא על בינה מלאכותית.

רבים מסתמכים על תואר שני במשפטים (LLM) גם לביצוע פעולות מתמטיות. גישה זו אינה עובדת.

הנקודה היא פשוטה: מודלים לשוניים גדולים (LLMs) לא באמת יודעים איך להכפיל. לפעמים הם יכולים לקבל את התוצאה הנכונה, בדיוק כמו שאני אולי יודע את הערך של פאי בעל פה. אבל זה לא אומר שאני מתמטיקאי, וגם לא ש-LLMs באמת יודעים איך לעשות מתמטיקה.

דוגמה מעשית

דוגמה: 49858 *5994949 = 298896167242 תוצאה זו תמיד זהה; אין דרך אמצע. זה נכון או לא נכון.

אפילו עם הכשרה מקיפה המתמקדת במתמטיקה, המודלים הטובים ביותר יכולים לפתור נכון רק חלק קטן מהחישובים. מחשבון כיס פשוט, לעומת זאת, משיג 100% מהתוצאות נכונות, בכל פעם. וככל שהמספרים גדולים יותר, כך הביצועים של המודלים לתואר שני (LLM) גרועים יותר.

האם ניתן לפתור את הבעיה הזו?

הבעיה הבסיסית היא שמודלים אלה לומדים על ידי דמיון, לא על ידי הבנה. הם מתפקדים בצורה הטובה ביותר בבעיות דומות לאלה שעליהן אומנו, אך הם לעולם לא מפתחים הבנה אמיתית של מה שהם אומרים.

למי שרוצה ללמוד עוד, אני ממליץ על המאמר הזה בנושא " איך עובד תואר שני במשפטים ".

מחשבון, לעומת זאת, משתמש באלגוריתם מדויק שתוכנת לביצוע הפעולה המתמטית.

זו הסיבה שלעולם אסור לנו להסתמך לחלוטין על תוכניות לימודי משפטים (LLM) לחישובים מתמטיים: אפילו בתנאים הטובים ביותר, עם כמויות עצומות של נתוני אימון מיוחדים, הן לא מצליחות להבטיח אמינות אפילו בפעולות הבסיסיות ביותר. גישה היברידית עשויה לעבוד, אך תוכניות לימודי משפטים לבדן אינן מספיקות. אולי גישה זו תשמש לפתרון מה שנקרא "בעיית התות ".

יישומים של תואר ראשון במשפטים (LLM) בלימודי מתמטיקה

בהקשר החינוכי, סטודנטים לתואר שני במשפטים יכולים לשמש כמדריכים מותאמים אישית, המסוגלים להתאים הסברים לרמת ההבנה של הסטודנט. לדוגמה, כאשר סטודנט מתמודד עם בעיית חשבון דיפרנציאלי, התואר השני יכול לפרק את ההיגיון לשלבים פשוטים יותר, ולספק הסברים מפורטים לכל שלב בתהליך הפתרון. גישה זו מסייעת לבנות הבנה מוצקה של מושגים בסיסיים.

היבט מעניין במיוחד הוא יכולתו של התואר השני במשפטים (LLM) לייצר דוגמאות רלוונטיות ומגוונות. אם סטודנט מנסה להבין את מושג הגבולות, התואר השני יכול להציג תרחישים מתמטיים שונים, החל ממקרים פשוטים ועובר למצבים מורכבים יותר, ובכך לאפשר הבנה הדרגתית של המושג.

יישום מבטיח אחד הוא השימוש בתואר ראשון במשפטים (LLM) כדי לתרגם מושגים מתמטיים מורכבים לשפה טבעית נגישה יותר. זה מקל על תקשורת המתמטיקה לקהל רחב יותר ועשוי לסייע להתגבר על המכשול המסורתי לכניסה לתחום זה.

תואר שני במשפטים (LLMs) יכול גם לסייע בהכנת חומרי הוראה, יצירת תרגילים ברמת קושי משתנה ומתן משוב מפורט על הפתרונות המוצעים על ידי התלמידים. זה מאפשר למורים להתאים אישית טוב יותר את מסע הלמידה של תלמידיהם.

היתרון האמיתי

באופן כללי יותר, חשוב גם לקחת בחשבון את ה"סבלנות" הקיצונית הנדרשת כדי לעזור אפילו לתלמיד הכי פחות מוכשר ללמוד: במקרה זה, היעדר רגש עוזר. למרות זאת, אפילו בינה מלאכותית לפעמים "מאבדת סבלנות". ראו דוגמה "משעשעת" זו.

עדכון 2025: מודלים של חשיבה והגישה ההיברידית

2024-2025 הביאו התפתחויות משמעותיות עם הגעתם של מה שנקרא "מודלים של חשיבה" כמו OpenAI o1 ו- deepseek R1. מודלים אלה השיגו תוצאות מרשימות במבחנים מתמטיים: o1 פתר 83% מבעיות האולימפיאדה המתמטית הבינלאומית בצורה נכונה, בהשוואה ל-13% עבור GPT-4o. אך היזהרו: הם לא פתרו את הבעיה הבסיסית שתוארה לעיל.

בעיית התות - ספירת ה-'ר' במילה "תות" - ממחישה בצורה מושלמת את המגבלה המתמשכת. o1 פותר אותה נכון לאחר מספר שניות של "הנמקה", אבל אם מבקשים ממנו לכתוב פסקה שבה האות השנייה של כל משפט מאייתת את המילה "CODE", הוא נכשל. o1-pro, הגרסה שעולה 200 דולר לחודש, פותר אותה... לאחר 4 דקות של עיבוד. DeepSeek R1 ודגמים עדכניים אחרים עדיין טועים בספירה הבסיסית. נכון לפברואר 2025, Mistral עדיין אמרה לכם שיש רק שתי 'ר' במילה "תות".

הטריק המתפתח הוא גישה היברידית: כאשר הם צריכים להכפיל 49858 ב-5994949, המודלים המתקדמים ביותר כבר לא מנסים "לנחש" את התוצאה על סמך קווי דמיון לחישובים שנצפו במהלך האימון. במקום זאת, הם קוראים למחשבון או מפעילים קוד פייתון - בדיוק כמו אדם אינטליגנטי שמכיר את מגבלותיו.

"שימוש בכלים" זה מייצג שינוי פרדיגמה: בינה מלאכותית לא חייבת להיות מסוגלת לעשות הכל בעצמה, אלא חייבת להיות מסוגלת לתזמר את הכלים הנכונים. מודלים של חשיבה משלבים יכולות לשוניות להבנת הבעיה, חשיבה שלב אחר שלב לתכנון הפתרון, והאצלת סמכויות לכלים ייעודיים (מחשבונים, מפרשי פייתון, מסדי נתונים) לביצוע מדויק.

הלקח? סטודנטים לתואר ראשון במשפטים (LLM) של 2025 שימושיים יותר במתמטיקה לא משום שהם "למדו" להכפיל - הם עדיין לא באמת עשו זאת - אלא משום שחלקם החלו להבין מתי להאציל את סמכויות הכפל לאלו שבאמת יודעים איך לעשות זאת. הבעיה הבסיסית נותרה: הם פועלים על סמך דמיון סטטיסטי, לא על סמך הבנה אלגוריתמית. מחשבון של חמישה יורו נותר אמין לאין שיעור לחישובים מדויקים.

משאבים לצמיחה עסקית

9 בנובמבר, 2025

ויסות מה שלא נוצר: האם אירופה נמצאת בסיכון של חוסר רלוונטיות טכנולוגית?

אירופה מושכת רק עשירית מההשקעות העולמיות בבינה מלאכותית, אך טוענת שהיא מכתיבה כללים גלובליים. זהו "אפקט בריסל" - הטלת תקנות גלובליות באמצעות כוח שוק מבלי לעודד חדשנות. חוק הבינה המלאכותית נכנס לתוקף בלוח זמנים מדורג עד 2027, אך חברות טכנולוגיה רב-לאומיות מגיבות באסטרטגיות התחמקות יצירתיות: הפעלת סודות מסחריים כדי להימנע מחשיפת נתוני הדרכה, הפקת סיכומים תואמים טכנית אך בלתי מובנים, שימוש בהערכה עצמית כדי להוריד את דירוג המערכות מ"סיכון גבוה" ל"סיכון מינימלי", ועיסוק ב"קניית פורומים" על ידי בחירת מדינות חברות עם בקרות פחות מחמירות. הפרדוקס של זכויות יוצרים חוץ-טריטוריאליות: האיחוד האירופי דורש ש-OpenAI יעמוד בחוקים האירופיים גם עבור הדרכה מחוץ לאירופה - עיקרון שמעולם לא נראה במשפט הבינלאומי. "המודל הכפול" צץ: גרסאות אירופאיות מוגבלות לעומת גרסאות גלובליות מתקדמות של אותם מוצרי בינה מלאכותית. הסיכון האמיתי: אירופה הופכת ל"מבצר דיגיטלי" מבודד מחדשנות עולמית, כאשר אזרחים אירופאים ניגשים לטכנולוגיות נחותות. בית המשפט לצדק כבר דחה את הגנת "סודות מסחריים" בתיק ניקוד האשראי, אך אי הוודאות הפרשנית נותרה עצומה - מה בדיוק המשמעות של "סיכום מפורט מספיק"? איש אינו יודע. השאלה האחרונה שנותרה ללא מענה: האם האיחוד האירופי יוצר דרך שלישית אתית בין הקפיטליזם האמריקאי לשליטת המדינה הסינית, או פשוט מייצא בירוקרטיה למגזר שבו הוא אינו מתחרה? לעת עתה: מובילה עולמית ברגולציה של בינה מלאכותית, שולית בפיתוחה. תוכנית עצומה.
9 בנובמבר, 2025

חריגים: המקום שבו מדע הנתונים פוגש סיפורי הצלחה

מדע הנתונים הפך את הפרדיגמה: חריגים אינם עוד "טעויות שיש לבטל" אלא מידע בעל ערך שיש להבין. חריג בודד יכול לעוות לחלוטין מודל רגרסיה לינארית - שינוי השיפוע מ-2 ל-10 - אך ביטולו עלול לגרום לאובדן האות החשוב ביותר במערך הנתונים. למידת מכונה מציגה כלים מתוחכמים: Isolation Forest מבודד חריגים על ידי בניית עצי החלטה אקראיים, Local Outlier Factor מנתח צפיפות מקומית, ואוטואנקודרים משחזרים נתונים רגילים ומסמנים את מה שהם לא מצליחים לשחזר. ישנם חריגים גלובליים (טמפרטורה -10°C באזורים הטרופיים), חריגים הקשריים (הוצאה של 1,000 אירו בשכונה ענייה) וחריגים קולקטיביים (שיאים מסונכרנים בתעבורת הרשת המצביעים על התקפה). הקבלה עם גלדוול: "כלל 10,000 השעות" שנוי במחלוקת - פול מקרטני אמר, "קבוצות רבות עשו 10,000 שעות בהמבורג ללא הצלחה; התיאוריה אינה חסינת תקלות". הצלחה מתמטית אסייתית אינה גנטית אלא תרבותית: מערכת המספרים האינטואיטיבית יותר של סין, גידול אורז דורש שיפור מתמיד לעומת התרחבות טריטוריאלית של החקלאות המערבית. יישומים בעולם האמיתי: בנקים בבריטניה מפצים 18% מההפסדים הפוטנציאליים באמצעות זיהוי אנומליות בזמן אמת, ייצור מזהה פגמים מיקרוסקופיים שבדיקה אנושית הייתה מפספסת, שירותי בריאות מאמתים נתוני ניסויים קליניים עם רגישות של 85%+ לזיהוי אנומליות. לקח אחרון: ככל שמדע הנתונים עובר מסילוק חריגים להבנתם, עלינו לראות קריירות לא קונבנציונליות לא כאנומליות שיש לתקן אלא כמסלולים בעלי ערך שיש לחקור.