Newsletter

בעיית התותים

"כמה 'r' יש בתות?" - GPT-4o עונה "שתיים", ילד בן שש יודע שלוש. הבעיה היא טוקניזציה: המודל רואה [str][aw][berry], לא אותיות. OpenAI לא פתר זאת עם o1 - הוא עקף זאת על ידי לימוד המודל "לחשוב לפני דיבור". תוצאה: 83% לעומת 13% באולימפיאדת המתמטיקה, אבל 30 שניות במקום 3 ועלויות משולשות. מודלים של שפה הם כלים הסתברותיים מדהימים - אבל ספירה עדיין דורשת אדם.

מבעיית התות למודל o1: כיצד OpenAI פתר (חלקית) את מגבלת האסימון

בקיץ 2024, מם ויראלי באינטרנט הטריד את מודלי השפה המתקדמים ביותר בעולם: "כמה 'ר' יש במילה 'תות'?" התשובה הנכונה היא שלוש, אבל GPT-4o ענה בעקשנות "שתיים". טעות לכאורה טריוויאלית שחשפה מגבלה מהותית של מודלי שפה: חוסר היכולת שלהם לנתח אותיות בודדות בתוך מילים.

ב-12 בספטמבר 2024, OpenAI פרסמה את o1 - תחת שם הקוד הפנימי "Strawberry" - המודל הראשון בסדרה חדשה של "מודלי חשיבה" שתוכננו במיוחד כדי להתגבר על מגבלות אלו. וכן, השם אינו מקרי: כפי שאישר חוקר OpenAI, o1 סוף סוף סופר נכון את ה-'r' במילה "strawberry".

אבל הפתרון אינו מה שחזה המאמר המקורי. OpenAI לא "לימדה" את המודל לנתח מילים אות אחר אות. במקום זאת, היא פיתחה גישה שונה לחלוטין: לימוד המודל "לחשוב" לפני שהוא מגיב.

בעיית הספירה: למה מודלים טועים

הבעיה נותרה מושרשת באסימוניזציה - התהליך הבסיסי שבו מודלים של שפה מעבדים טקסט. כפי שהוסבר במאמר טכני שפורסם ב-arXiv במאי 2025 ("בעיית התות: הופעתה של הבנה ברמת תווים במודלי שפה אסימוניזציה"), המודלים רואים מילים לא כרצפי אותיות אלא כ"אסימונים" - יחידות משמעות שהומרו למספרים.

כאשר GPT-4 מעבד את המילה "תות", כלי הטוקניזציה שלו מחלק אותה לשלושה חלקים: [str][aw][berry], לכל אחד מזהה מספרי ייחודי (496, 675, 15717). עבור המודל, "תות" אינו רצף של 10 אותיות אלא רצף של 3 אסימונים מספריים. זה כאילו הוא קורא ספר שבו כל מילה מוחלפת בקוד - ואז מישהו ביקש ממנו לספור את האותיות בקוד שמעולם לא נראה כתוב.

הבעיה מחמירה עם מילים מורכבות. "שומר זמן" מחולק לאסימונים נפרדים, מה שמקשה על המודל לקבוע את המיקום המדויק של האותיות ללא נימוק מפורש. הפיצול משפיע לא רק על ספירת האותיות אלא גם על הבנת המבנה הפנימי של המילים.

פתרון 1: חשוב לפני שאתה עונה

OpenAI o1 פתר את הבעיה בצורה בלתי צפויה: במקום לשנות את הטוקניזציה - שהיא קשה מבחינה טכנית ותפגע ביעילות המודל - היא לימדה את המערכת "לחשוב לפני שהיא מדברת" באמצעות טכניקה הנקראת "הנמקת שרשרת מחשבה".

כששואלים את o1 כמה 'r' יש ב"תות", המודל לא מגיב מיד. הוא מבלה מספר שניות - לפעמים אפילו דקות עבור שאלות מורכבות - בפיתוח פנימי של "שרשרת חשיבה" מוסתרת מהמשתמש. תהליך זה מאפשר לו:

  1. הכרה בכך שהשאלה דורשת ניתוח ברמת הדמות
  2. לפתח אסטרטגיה לפירוק המילה
  3. אימות התשובה באמצעות גישות שונות
  4. אנא תקנו כל שגיאה לפני מתן תשובתכם הסופית.

כפי שהסביר חוקר OpenAI, נועם בראון, בסדרת פוסטים ב-X: "o1 מאומן באמצעות למידת חיזוקים 'לחשוב' לפני שהוא מגיב באמצעות שרשרת מחשבה פרטית." המודל מקבל תגמולים במהלך האימון עבור כל שלב נכון בתהליך החשיבה, לא רק עבור התשובה הנכונה הסופית.

התוצאות מרשימות אך יקרות. בבחינה לקראת האולימפיאדה הבינלאומית במתמטיקה, o1 פתר 83% מהבעיות בצורה נכונה, בהשוואה ל-13% עבור GPT-4o. בשאלות מדעים ברמת דוקטורט, הוא השיג דיוק של 78%, בהשוואה ל-56% עבור GPT-4o. אבל לכוח הזה יש מחיר: o1 לוקח 30+ שניות לענות על שאלות ש-GPT-4o פותר תוך 3 שניות, ועולה 15 דולר למיליון טוקנים של קלט, בהשוואה ל-5 דולר עבור GPT-4o.

שרשרת מחשבה: איך זה באמת עובד

הטכניקה אינה קסומה, אלא שיטתית. כאשר הוא מקבל הנחיה, o1 מייצר באופן פנימי רצף ארוך של "מחשבות" שאינן מוצגות למשתמש. עבור בעיית ה-'r' ב-"strawberry", התהליך הפנימי עשוי להיות:

"ראשית אני צריך להבין את מבנה המילה. ניתן למיין את תות שדה כ-[str][aw][berry]. כדי לספור את ה-'r', אני צריך לשחזר את המילה המלאה ברמת התו. Str מכיל: str (1 'r'). Aw מכיל: aw (0 'r'). Berry מכיל: berry (2 'r'). סה"כ: 1+0+2 = 3 'r'. אני מאמת: תות = תות שדה. אני סופר את ה-'r': מיקום 3, מיקום 8, מיקום 9. אושר: 3 'r'."

הנמקה פנימית זו מוסתרת מכוח התכנון. OpenAI אוסרת במפורש על משתמשים לנסות לחשוף את קו המחשבה של o1 על ידי ניטור הנחיות וייתכן שלילת גישה לאלו המפרים כלל זה. החברה מציינת אבטחה של בינה מלאכותית ויתרון תחרותי, אך ההחלטה ספגה ביקורת כאובדן שקיפות מצד מפתחים העובדים עם מודלי שפה.

מגבלות מתמשכות: o1 אינו מושלם

למרות ההתקדמות, o1 לא פתר את הבעיה לחלוטין. מחקר שפורסם ב-Language Log בינואר 2025 בחן מודלים שונים על אתגר מורכב יותר: "כתבו פסקה שבה האות השנייה של כל משפט מאייתת את המילה 'CODE'".

o1 standard (20 דולר לחודש) נכשל בכך שספירה שגויה את האות הראשונה של כל מילה ראשונה כ"אות השנייה". o1-pro (200 דולר לחודש) תיקן את הבעיה... לאחר 4 דקות ו-10 שניות של "חשיבה". DeepSeek R1, הדגם הסיני שטלטל את השוק בינואר 2025, עשה את אותה טעות כמו o1 standard.

הבעיה הבסיסית נותרה: המודלים עדיין רואים טקסט דרך אסימונים, לא אותיות. o1 למד "לעקוף" את המגבלה הזו באמצעות חשיבה, אך לא ביטל אותה. כפי שציין חוקר אחד ב-Language Log: "אסימוניזציה היא חלק ממהותם של מודלי שפה; עבור כל תשובה שגויה, ההסבר הוא בדיוק 'ובכן, אסימוניזציה'."

מחקר אקדמי: הופעתה של הבנה ברמת האופי

מאמר משמעותי שפורסם ב-arXiv במאי 2025 ("בעיית התות: הופעתה של הבנה ברמת הדמות במודלי שפה אסימונית") מנתח תופעה זו מנקודת מבט תיאורטית. החוקרים יצרו 19 משימות סינתטיות המבודדות חשיבה ברמת הדמות בהקשרים מבוקרים, ומדגים כי יכולות אלו צצות פתאום ורק בשלב מאוחר של האימון.

המחקר מציע כי לימוד הרכב דמויות אינו שונה באופן מהותי מלימוד ידע של שכל ישר - הוא צץ דרך תהליכים של "חלחול מושגי" כאשר המודל מגיע למסה קריטית של דוגמאות וקשרים.

החוקרים מציעים שינוי ארכיטקטוני קל משקל אשר משפר משמעותית את החשיבה ברמת התווים תוך שמירה על היתרונות האינדוקטיביים של מודלים מבוססי תת-מילות. עם זאת, שינויים אלה נותרו ניסיוניים ולא יושמו במודלים מסחריים.

השלכות מעשיות: מתי לסמוך ומתי לא

מקרה ה"תות" מלמד לקח חשוב על אמינותם של מודלים של שפה: הם כלים הסתברותיים, לא מחשבונים דטרמיניסטיים. כפי שציין מארק ליברמן בספר Language Log, "יש להיזהר לגבי אמון בתגובתה של כל מערכת בינה מלאכותית נוכחית במשימות הכרוכות בספירת דברים."

זה לא אומר שמודלים הם חסרי תועלת. כפי שציין אחד המגיבים, "רק בגלל שחתול עושה את הטעות הטיפשית של לפחד ממלפפון, זה לא אומר שאנחנו לא צריכים לסמוך על חתולים עם המשימה הקשה הרבה יותר של הרחקת מכרסמים מהבניין." מודלים של שפה אינם הכלי הנכון אם רוצים לספור אותיות באופן שיטתי, אבל הם מצוינים לעיבוד אוטומטי של אלפי תמלילי פודקאסטים ולחילוץ שמות של אורחים ומנחים.

עבור משימות הדורשות דיוק מוחלט - הנחתת חללית על מאדים, חישוב מינונים של תרופות, אימות תאימות לתקנות - מודלי שפה קיימים נותרים בלתי מספקים ללא פיקוח אנושי או אימות חיצוני. אופיים ההסתברותי הופך אותם לחזקים להתאמת תבניות וליצירת יצירה, אך בלתי אמינים עבור משימות בהן שגיאות אינן מקובלות.

העתיד: לקראת מודלים שחושבים שעות

OpenAI הצהירה כי בכוונתה להתנסות במודלים של o1 ש"מחשבים במשך שעות, ימים או אפילו שבועות" כדי לשפר עוד יותר את יכולות החשיבה שלהם. o3 הוכרז בדצמבר 2024 (השם o2 הוסר כדי למנוע סכסוכים בין סימנים מסחריים לבין מפעילת הסלולר O2), ובמרץ 2025 שוחרר ה-API עבור o1-pro, מודל הבינה המלאכותית היקר ביותר של OpenAI עד כה, במחיר של 150 דולר למיליון טוקנים של קלט ו-600 דולר למיליון טוקנים של פלט.

הכיוון ברור: במקום להפוך מודלים לגדולים עוד יותר (scaling), OpenAI משקיעה בלגרום להם "לחשוב" למשך זמן ארוך יותר (test-time computing). גישה זו יכולה להיות בת קיימא יותר מבחינה אנרגטית וחישובית מאשר אימון מודלים גדולים יותר ויותר.

אבל נותרת שאלה פתוחה: האם מודלים אלה באמת "מחשבות" או פשוט מדמים חשיבה באמצעות דפוסים סטטיסטיים מתוחכמים יותר? מחקר של אפל שפורסם באוקטובר 2024 דיווח כי מודלים כמו o1 יכולים לשכפל שלבי חשיבה מנתוני האימון שלהם. שינוי מספרים ושמות בבעיות מתמטיות, או פשוט הפעלה מחדש של אותה בעיה, החמירו משמעותית את ביצועי המודלים. הוספת מידע מיותר אך לא רלוונטי מבחינה לוגית הביאה לירידות ביצועים של עד 65% עבור מודלים מסוימים.

סיכום: כלים רבי עוצמה עם מגבלות מרכזיות

בעיית ה"תות" ופתרון o1 חושפים הן את הפוטנציאל והן את המגבלות הטבועות במודלי שפה קיימים. OpenAI הוכיחה שעם אימון ממוקד וזמן עיבוד נוסף, מודלים יכולים להתגבר על חלק מהמגבלות המבניות של טוקניזציה. אבל הם לא ביטלו אותה - הם עקפו אותה.

עבור משתמשים ומפתחים, הלקח המעשי ברור: הבנת אופן פעולתן של מערכות אלו - מה הן עושות היטב והיכן הן נכשלות - היא קריטית לשימוש יעיל בהן. מודלים של שפה הם כלים יוצאי דופן למשימות הסתברותיות, התאמת תבניות, יצירת יצירה וסינתזת מידע. אבל עבור משימות הדורשות דיוק דטרמיניסטי - ספירה, חישוב, אימות עובדות ספציפיות - הן נותרות בלתי אמינות ללא פיקוח חיצוני או כלים משלימים.

השם "תות" יישאר כתזכורת אירונית למגבלה הבסיסית הזו: אפילו מערכות הבינה המלאכותית המתקדמות ביותר בעולם יכולות להיתקל בשאלות שילד בן שש היה פותר אותן באופן מיידי. לא בגלל שהם טיפשים, אלא בגלל שהם "חושבים" בדרכים שונות לחלוטין מאיתנו - ואולי כדאי שנפסיק לצפות מהם לחשוב כמו בני אדם.

מקורות:

  • OpenAI - "ללמוד להסיק מסקנות עם תואר שני במשפטים" (פוסט רשמי בבלוג, ספטמבר 2024)
  • ויקיפדיה - "OpenAI o1" (ערך עודכן ינואר 2025)
  • קוסמה, אדריאן ואחרים - "בעיית התות: הופעתה של הבנה ברמת התווים במודלים של שפה מסומנת", arXiv:2505.14172 (מאי 2025)
  • ליברמן, מארק - "מערכות בינה מלאכותית עדיין לא יכולות לספור", יומן שפה (ינואר 2025)
  • יאנג, יו - "מדוע מודלים גדולים של שפה מתקשים לספור אותיות במילה?", Medium (פברואר 2025)
  • אורלנד, קייל - "איך באמת DeepSeek R1 עומד מול מודלי ההיגיון הטובים ביותר של OpenAI?", Ars Technica
  • בראון, נועם (OpenAI) - סדרת פוסטים בטוויטר/X (ספטמבר 2024)
  • TechCrunch - "OpenAI חושפת את o1, מודל שיכול לבדוק עובדות בעצמו" (ספטמבר 2024)
  • 16x הנחיה - "מדוע ChatGPT לא יכול לספור כמה רופי יש ב-Strawberry" (עודכן ביוני 2025)

משאבים לצמיחה עסקית

9 בנובמבר, 2025

מערכת הקירור של גוגל דיפמיינד בבינה מלאכותית: כיצד בינה מלאכותית מחוללת מהפכה ביעילות אנרגטית של מרכזי נתונים

Google DeepMind משיגה חיסכון של -40% באנרגיה בקירור מרכז נתונים (אך רק -4% מהצריכה הכוללת, מכיוון שהקירור מהווה 10% מהסך הכל) - דיוק של 99.6% עם שגיאה של 0.4% ב-PUE 1.1 באמצעות למידה עמוקה בת 5 שכבות, 50 צמתים, 19 משתני קלט על 184,435 דגימות אימון (שנתיים של נתונים). אושר ב-3 מתקנים: סינגפור (פריסה ראשונה 2016), אימסהייבן, קאונסיל בלאפס (השקעה של 5 מיליארד דולר). PUE כלל-ציית מערכות של גוגל 1.09 לעומת ממוצע בתעשייה 1.56-1.58. Model Predictive Control מנבאת טמפרטורה/לחץ לשעה הקרובה תוך ניהול בו זמנית של עומסי IT, מזג אוויר ומצב ציוד. אבטחה מובטחת: אימות דו-שלבי, מפעילים תמיד יכולים להשבית בינה מלאכותית. מגבלות קריטיות: אפס אימות עצמאי מחברות ביקורת/מעבדות לאומיות, כל מרכז נתונים דורש מודל מותאם אישית (8 שנים, מעולם לא מסחרי). יישום: 6-18 חודשים, דורש צוות רב-תחומי (מדעי נתונים, HVAC, ניהול מתקנים). ניתן ליישם מעבר למרכזי נתונים: מפעלים תעשייתיים, בתי חולים, קניונים, משרדי תאגידים. 2024-2025: גוגל עוברת לקירור נוזלי ישיר עבור TPU v5p, דבר המצביע על מגבלות מעשיות של אופטימיזציה של בינה מלאכותית.
9 בנובמבר, 2025

למה מתמטיקה קשה (גם אם אתה בינה מלאכותית)

מודלים של שפה לא יכולים להכפיל - הם משננים תוצאות כמו שאנחנו משננים פאי, אבל זה לא הופך אותם לבעלי יכולת מתמטית. הבעיה היא מבנית: הם לומדים דרך דמיון סטטיסטי, לא הבנה אלגוריתמית. אפילו "מודלים של חשיבה" חדשים כמו o1 נכשלים במשימות טריוויאליות: הוא סופר נכון את ה-'r' ב"תות" לאחר שניות של עיבוד, אבל נכשל כשהוא צריך לכתוב פסקה שבה האות השנייה של כל משפט מאייתת מילה. גרסת הפרימיום, שעולה 200 דולר לחודש, לוקחת ארבע דקות לפתור את מה שילד יכול לעשות באופן מיידי. DeepSeek ו-Mistral עדיין סופרים אותיות באופן שגוי בשנת 2025. הפתרון המתפתח? גישה היברידית - המודלים החכמים ביותר הבינו מתי לקרוא למחשבון אמיתי במקום לנסות את החישוב בעצמם. שינוי פרדיגמה: בינה מלאכותית לא צריכה לדעת איך לעשות הכל, אלא לתזמר את הכלים הנכונים. פרדוקס סופי: GPT-4 יכול להסביר בצורה מבריקה את תורת הגבולות, אבל הוא נכשל בבעיות כפל שמחשבון כיס תמיד פותר נכון. הם מצוינים לחינוך מתמטי - הם מסבירים בסבלנות אינסופית, מתאימים דוגמאות ומפרקים חשיבה מורכבת. לחישובים מדויקים? תסמכו על מחשבון, לא על בינה מלאכותית.
9 בנובמבר, 2025

רגולציה של בינה מלאכותית עבור יישומי צרכנים: כיצד להתכונן לתקנות החדשות של 2025

2025 מסמנת את סוף עידן "המערב הפרוע" של הבינה המלאכותית: חוק הבינה המלאכותית של האיחוד האירופי נכנס לתוקף באוגוסט 2024, עם דרישות אוריינות בתחום הבינה המלאכותית החל מ-2 בפברואר 2025, וממשל ו-GPAI החל מ-2 באוגוסט. קליפורניה מובילה את הדרך עם SB 243 (שנולד לאחר התאבדותו של סוול סצר, ילד בן 14 שפיתח קשר רגשי עם צ'אטבוטים), אשר מטיל איסור על מערכות תגמול כפייתיות, גילוי מחשבות אובדניות, תזכורת "אני לא אנושי" כל שלוש שעות, ביקורות ציבוריות עצמאיות וקנסות של 1,000 דולר לכל הפרה. SB 420 דורש הערכת השפעה עבור "החלטות אוטומטיות בסיכון גבוה" עם הזכות לערער לבדיקה אנושית. אכיפה אמיתית: נום תבע בשנת 2022 על בוטים שהתחזו למאמנים אנושיים, הסדר של 56 מיליון דולר. מגמות לאומיות: אלבמה, הוואי, אילינוי, מיין ומסצ'וסטס מסווגות אי הודעה על צ'אטבוטים של בינה מלאכותית כהפרות UDAP. גישת סיכון תלת-שלבית - מערכות קריטיות (בריאות/תחבורה/אנרגיה), אישור טרום פריסה, גילויים שקופים מול הצרכן, רישום כללי ובדיקות אבטחה. טלאים רגולטוריים ללא הסכמה פדרלית: חברות רב-מדינתיות חייבות להתמודד עם דרישות משתנות. האיחוד האירופי מאוגוסט 2026: ליידע את המשתמשים על אינטראקציה עם בינה מלאכותית אלא אם כן תוכן ברור מאליו, שנוצר על ידי בינה מלאכותית מתויג כקריא מכונה.