Newsletter

למה מתמטיקה קשה (גם אם אתה בינה מלאכותית)

מודלים של שפה לא יכולים להכפיל - הם משננים תוצאות כמו שאנחנו משננים פאי, אבל זה לא הופך אותם לבעלי יכולת מתמטית. הבעיה היא מבנית: הם לומדים דרך דמיון סטטיסטי, לא הבנה אלגוריתמית. אפילו "מודלים של חשיבה" חדשים כמו o1 נכשלים במשימות טריוויאליות: הוא סופר נכון את ה-'r' ב"תות" לאחר שניות של עיבוד, אבל נכשל כשהוא צריך לכתוב פסקה שבה האות השנייה של כל משפט מאייתת מילה. גרסת הפרימיום, שעולה 200 דולר לחודש, לוקחת ארבע דקות לפתור את מה שילד יכול לעשות באופן מיידי. DeepSeek ו-Mistral עדיין סופרים אותיות באופן שגוי בשנת 2025. הפתרון המתפתח? גישה היברידית - המודלים החכמים ביותר הבינו מתי לקרוא למחשבון אמיתי במקום לנסות את החישוב בעצמם. שינוי פרדיגמה: בינה מלאכותית לא צריכה לדעת איך לעשות הכל, אלא לתזמר את הכלים הנכונים. פרדוקס סופי: GPT-4 יכול להסביר בצורה מבריקה את תורת הגבולות, אבל הוא נכשל בבעיות כפל שמחשבון כיס תמיד פותר נכון. הם מצוינים לחינוך מתמטי - הם מסבירים בסבלנות אינסופית, מתאימים דוגמאות ומפרקים חשיבה מורכבת. לחישובים מדויקים? תסמכו על מחשבון, לא על בינה מלאכותית.

רבים מסתמכים על תואר שני במשפטים (LLM) גם לביצוע פעולות מתמטיות. גישה זו אינה עובדת.

הנקודה היא פשוטה: מודלים לשוניים גדולים (LLMs) לא באמת יודעים איך להכפיל. לפעמים הם יכולים לקבל את התוצאה הנכונה, בדיוק כמו שאני אולי יודע את הערך של פאי בעל פה. אבל זה לא אומר שאני מתמטיקאי, וגם לא ש-LLMs באמת יודעים איך לעשות מתמטיקה.

דוגמה מעשית

דוגמה: 49858 *5994949 = 298896167242 תוצאה זו תמיד זהה; אין דרך אמצע. זה נכון או לא נכון.

אפילו עם הכשרה מקיפה המתמקדת במתמטיקה, המודלים הטובים ביותר יכולים לפתור נכון רק חלק קטן מהחישובים. מחשבון כיס פשוט, לעומת זאת, משיג 100% מהתוצאות נכונות, בכל פעם. וככל שהמספרים גדולים יותר, כך הביצועים של המודלים לתואר שני (LLM) גרועים יותר.

האם ניתן לפתור את הבעיה הזו?

הבעיה הבסיסית היא שמודלים אלה לומדים על ידי דמיון, לא על ידי הבנה. הם מתפקדים בצורה הטובה ביותר בבעיות דומות לאלה שעליהן אומנו, אך הם לעולם לא מפתחים הבנה אמיתית של מה שהם אומרים.

למי שרוצה ללמוד עוד, אני ממליץ על המאמר הזה בנושא " איך עובד תואר שני במשפטים ".

מחשבון, לעומת זאת, משתמש באלגוריתם מדויק שתוכנת לביצוע הפעולה המתמטית.

זו הסיבה שלעולם אסור לנו להסתמך לחלוטין על תוכניות לימודי משפטים (LLM) לחישובים מתמטיים: אפילו בתנאים הטובים ביותר, עם כמויות עצומות של נתוני אימון מיוחדים, הן לא מצליחות להבטיח אמינות אפילו בפעולות הבסיסיות ביותר. גישה היברידית עשויה לעבוד, אך תוכניות לימודי משפטים לבדן אינן מספיקות. אולי גישה זו תשמש לפתרון מה שנקרא "בעיית התות ".

יישומים של תואר ראשון במשפטים (LLM) בלימודי מתמטיקה

בהקשר החינוכי, סטודנטים לתואר שני במשפטים יכולים לשמש כמדריכים מותאמים אישית, המסוגלים להתאים הסברים לרמת ההבנה של הסטודנט. לדוגמה, כאשר סטודנט מתמודד עם בעיית חשבון דיפרנציאלי, התואר השני יכול לפרק את ההיגיון לשלבים פשוטים יותר, ולספק הסברים מפורטים לכל שלב בתהליך הפתרון. גישה זו מסייעת לבנות הבנה מוצקה של מושגים בסיסיים.

היבט מעניין במיוחד הוא יכולתו של התואר השני במשפטים (LLM) לייצר דוגמאות רלוונטיות ומגוונות. אם סטודנט מנסה להבין את מושג הגבולות, התואר השני יכול להציג תרחישים מתמטיים שונים, החל ממקרים פשוטים ועובר למצבים מורכבים יותר, ובכך לאפשר הבנה הדרגתית של המושג.

יישום מבטיח אחד הוא השימוש בתואר ראשון במשפטים (LLM) כדי לתרגם מושגים מתמטיים מורכבים לשפה טבעית נגישה יותר. זה מקל על תקשורת המתמטיקה לקהל רחב יותר ועשוי לסייע להתגבר על המכשול המסורתי לכניסה לתחום זה.

תואר שני במשפטים (LLMs) יכול גם לסייע בהכנת חומרי הוראה, יצירת תרגילים ברמת קושי משתנה ומתן משוב מפורט על הפתרונות המוצעים על ידי התלמידים. זה מאפשר למורים להתאים אישית טוב יותר את מסע הלמידה של תלמידיהם.

היתרון האמיתי

באופן כללי יותר, חשוב גם לקחת בחשבון את ה"סבלנות" הקיצונית הנדרשת כדי לעזור אפילו לתלמיד הכי פחות מוכשר ללמוד: במקרה זה, היעדר רגש עוזר. למרות זאת, אפילו בינה מלאכותית לפעמים "מאבדת סבלנות". ראו דוגמה "משעשעת" זו.

עדכון 2025: מודלים של חשיבה והגישה ההיברידית

2024-2025 הביאו התפתחויות משמעותיות עם הגעתם של מה שנקרא "מודלים של חשיבה" כמו OpenAI o1 ו- deepseek R1. מודלים אלה השיגו תוצאות מרשימות במבחנים מתמטיים: o1 פתר 83% מבעיות האולימפיאדה המתמטית הבינלאומית בצורה נכונה, בהשוואה ל-13% עבור GPT-4o. אך היזהרו: הם לא פתרו את הבעיה הבסיסית שתוארה לעיל.

בעיית התות - ספירת ה-'ר' במילה "תות" - ממחישה בצורה מושלמת את המגבלה המתמשכת. o1 פותר אותה נכון לאחר מספר שניות של "הנמקה", אבל אם מבקשים ממנו לכתוב פסקה שבה האות השנייה של כל משפט מאייתת את המילה "CODE", הוא נכשל. o1-pro, הגרסה שעולה 200 דולר לחודש, פותר אותה... לאחר 4 דקות של עיבוד. DeepSeek R1 ודגמים עדכניים אחרים עדיין טועים בספירה הבסיסית. נכון לפברואר 2025, Mistral עדיין אמרה לכם שיש רק שתי 'ר' במילה "תות".

הטריק המתפתח הוא גישה היברידית: כאשר הם צריכים להכפיל 49858 ב-5994949, המודלים המתקדמים ביותר כבר לא מנסים "לנחש" את התוצאה על סמך קווי דמיון לחישובים שנצפו במהלך האימון. במקום זאת, הם קוראים למחשבון או מפעילים קוד פייתון - בדיוק כמו אדם אינטליגנטי שמכיר את מגבלותיו.

"שימוש בכלים" זה מייצג שינוי פרדיגמה: בינה מלאכותית לא חייבת להיות מסוגלת לעשות הכל בעצמה, אלא חייבת להיות מסוגלת לתזמר את הכלים הנכונים. מודלים של חשיבה משלבים יכולות לשוניות להבנת הבעיה, חשיבה שלב אחר שלב לתכנון הפתרון, והאצלת סמכויות לכלים ייעודיים (מחשבונים, מפרשי פייתון, מסדי נתונים) לביצוע מדויק.

הלקח? סטודנטים לתואר ראשון במשפטים (LLM) של 2025 שימושיים יותר במתמטיקה לא משום שהם "למדו" להכפיל - הם עדיין לא באמת עשו זאת - אלא משום שחלקם החלו להבין מתי להאציל את סמכויות הכפל לאלו שבאמת יודעים איך לעשות זאת. הבעיה הבסיסית נותרה: הם פועלים על סמך דמיון סטטיסטי, לא על סמך הבנה אלגוריתמית. מחשבון של חמישה יורו נותר אמין לאין שיעור לחישובים מדויקים.

משאבים לצמיחה עסקית

9 בנובמבר, 2025

מהפכת הבינה המלאכותית: טרנספורמציה מהותית של הפרסום

71% מהצרכנים מצפים להתאמה אישית, אך 76% מתוסכלים כשהיא שגויה - ברוכים הבאים לפרדוקס של פרסום מבוסס בינה מלאכותית שמייצר 740 מיליארד דולר בשנה (2025). אופטימיזציה דינמית של קריאייטיב (DCO) מספקת תוצאות ניתנות לאימות: שיעור קליקים של 35% +, שיעור המרה של 50% +, יחס המרה של 30% - על ידי בדיקה אוטומטית של אלפי וריאציות קריאייטיב. מקרה בוחן: קמעונאית אופנה: 2,500 שילובים (50 תמונות x 10 כותרות x 5 קריאות לפעולה) שהוצגו לכל מיקרו-פלח = החזר על הוצאות פרסום של 127% + תוך 3 חודשים. אבל אילוצים מבניים הרסניים: בעיית התחלה קרה דורשת 2-4 שבועות + אלפי חשיפות לאופטימיזציה, 68% מהמשווקים לא מבינים החלטות הצעות מחיר מבוססות בינה מלאכותית, הוצאת עוגיות משימוש (ספארי כבר קיים, כרום 2024-2025) מאלצת חשיבה מחדש על מיקוד. מפת דרכים ל-6 חודשים: בסיס עם ביקורות נתונים + מדדי KPI ספציפיים ("הפחתת CAC ב-25% עבור פלח X" ולא "הגדלת מכירות"), פיילוט של 10-20% מתקציב ה-A/B, בינה מלאכותית לעומת ידנית, הרחבה של 60-80% עם DCO חוצה ערוצים. מתח קריטי בפרטיות: 79% מהמשתמשים מודאגים מאיסוף נתונים, עייפות פרסומות -60% מעורבות לאחר 5+ חשיפות. עתיד ללא קובצי Cookie: מיקוד הקשרי 2.0, ניתוח סמנטי בזמן אמת, נתונים מגורם חיצוני באמצעות CDP, למידה מאוחדת להתאמה אישית ללא מעקב אינדיבידואלי.
9 בנובמבר, 2025

מהפכת הבינה המלאכותית של חברות בינוניות: מדוע הן מניעות חדשנות מעשית

74% מחברות Fortune 500 מתקשות לייצר ערך בתחום הבינה המלאכותית, ורק ל-1% יש יישומים "בוגרים" - בעוד שחברות בינוניות (הכנסות של 100 מיליון אירו עד מיליארד אירו) משיגות תוצאות קונקרטיות: 91% מהעסקים הקטנים והקטנים עם בינה מלאכותית מדווחים על עלייה מדידה בהכנסות, החזר השקעה ממוצע של פי 3.7, כאשר בעלי הביצועים המובילים עומדים על פי 10.3. פרדוקס המשאבים: חברות גדולות מבלות 12-18 חודשים תקועות ב"פרפקציוניזם של פיילוט" (פרויקטים מצוינים מבחינה טכנית אך ללא קנה מידה), בעוד שחברות בינוניות מיישמות תוך 3-6 חודשים לאחר בעיה ספציפית → פתרון ממוקד → תוצאות → קנה מידה. שרה צ'ן (Meridian Manufacturing $350 מיליון): "כל יישום היה צריך להדגים ערך תוך שני רבעונים - אילוץ שדחף אותנו ליישומים מעשיים ועובדים." מפקד אוכלוסין בארה"ב: רק 5.4% מהחברות משתמשות בבינה מלאכותית בייצור למרות ש-78% דיווחו על "אימוץ". חברות בינוניות מעדיפות פתרונות אנכיים מלאים על פני פלטפורמות הניתנות להתאמה אישית, שותפויות עם ספקים מיוחדים על פני פיתוח פנימי מסיבי. מגזרים מובילים: פינטק/תוכנה/בנקאות, ייצור, 93% פרויקטים חדשים בשנה שעברה. תקציב שנתי טיפוסי: 50,000-500,000 אירו, התמקד בפתרונות ספציפיים בעלי החזר השקעה גבוה. לקח אוניברסלי: ביצוע מעולה גובר על גודל, גמישות גוברת על מורכבות ארגונית.