Newsletter

בעיית התותים

"כמה 'r' יש בתות?" - GPT-4o עונה "שתיים", ילד בן שש יודע שלוש. הבעיה היא טוקניזציה: המודל רואה [str][aw][berry], לא אותיות. OpenAI לא פתר זאת עם o1 - הוא עקף זאת על ידי לימוד המודל "לחשוב לפני דיבור". תוצאה: 83% לעומת 13% באולימפיאדת המתמטיקה, אבל 30 שניות במקום 3 ועלויות משולשות. מודלים של שפה הם כלים הסתברותיים מדהימים - אבל ספירה עדיין דורשת אדם.

מבעיית התות למודל o1: כיצד OpenAI פתר (חלקית) את מגבלת האסימון

בקיץ 2024, מם ויראלי באינטרנט הטריד את מודלי השפה המתקדמים ביותר בעולם: "כמה 'ר' יש במילה 'תות'?" התשובה הנכונה היא שלוש, אבל GPT-4o ענה בעקשנות "שתיים". טעות לכאורה טריוויאלית שחשפה מגבלה מהותית של מודלי שפה: חוסר היכולת שלהם לנתח אותיות בודדות בתוך מילים.

ב-12 בספטמבר 2024, OpenAI פרסמה את o1 - תחת שם הקוד הפנימי "Strawberry" - המודל הראשון בסדרה חדשה של "מודלי חשיבה" שתוכננו במיוחד כדי להתגבר על מגבלות אלו. וכן, השם אינו מקרי: כפי שאישר חוקר OpenAI, o1 סוף סוף סופר נכון את ה-'r' במילה "strawberry".

אבל הפתרון אינו מה שחזה המאמר המקורי. OpenAI לא "לימדה" את המודל לנתח מילים אות אחר אות. במקום זאת, היא פיתחה גישה שונה לחלוטין: לימוד המודל "לחשוב" לפני שהוא מגיב.

בעיית הספירה: למה מודלים טועים

הבעיה נותרה מושרשת באסימוניזציה - התהליך הבסיסי שבו מודלים של שפה מעבדים טקסט. כפי שהוסבר במאמר טכני שפורסם ב-arXiv במאי 2025 ("בעיית התות: הופעתה של הבנה ברמת תווים במודלי שפה אסימוניזציה"), המודלים רואים מילים לא כרצפי אותיות אלא כ"אסימונים" - יחידות משמעות שהומרו למספרים.

כאשר GPT-4 מעבד את המילה "תות", כלי הטוקניזציה שלו מחלק אותה לשלושה חלקים: [str][aw][berry], לכל אחד מזהה מספרי ייחודי (496, 675, 15717). עבור המודל, "תות" אינו רצף של 10 אותיות אלא רצף של 3 אסימונים מספריים. זה כאילו הוא קורא ספר שבו כל מילה מוחלפת בקוד - ואז מישהו ביקש ממנו לספור את האותיות בקוד שמעולם לא נראה כתוב.

הבעיה מחמירה עם מילים מורכבות. "שומר זמן" מחולק לאסימונים נפרדים, מה שמקשה על המודל לקבוע את המיקום המדויק של האותיות ללא נימוק מפורש. הפיצול משפיע לא רק על ספירת האותיות אלא גם על הבנת המבנה הפנימי של המילים.

פתרון 1: חשוב לפני שאתה עונה

OpenAI o1 פתר את הבעיה בצורה בלתי צפויה: במקום לשנות את הטוקניזציה - שהיא קשה מבחינה טכנית ותפגע ביעילות המודל - היא לימדה את המערכת "לחשוב לפני שהיא מדברת" באמצעות טכניקה הנקראת "הנמקת שרשרת מחשבה".

כששואלים את o1 כמה 'r' יש ב"תות", המודל לא מגיב מיד. הוא מבלה מספר שניות - לפעמים אפילו דקות עבור שאלות מורכבות - בפיתוח פנימי של "שרשרת חשיבה" מוסתרת מהמשתמש. תהליך זה מאפשר לו:

  1. הכרה בכך שהשאלה דורשת ניתוח ברמת הדמות
  2. לפתח אסטרטגיה לפירוק המילה
  3. אימות התשובה באמצעות גישות שונות
  4. אנא תקנו כל שגיאה לפני מתן תשובתכם הסופית.

כפי שהסביר חוקר OpenAI, נועם בראון, בסדרת פוסטים ב-X: "o1 מאומן באמצעות למידת חיזוקים 'לחשוב' לפני שהוא מגיב באמצעות שרשרת מחשבה פרטית." המודל מקבל תגמולים במהלך האימון עבור כל שלב נכון בתהליך החשיבה, לא רק עבור התשובה הנכונה הסופית.

התוצאות מרשימות אך יקרות. בבחינה לקראת האולימפיאדה הבינלאומית במתמטיקה, o1 פתר 83% מהבעיות בצורה נכונה, בהשוואה ל-13% עבור GPT-4o. בשאלות מדעים ברמת דוקטורט, הוא השיג דיוק של 78%, בהשוואה ל-56% עבור GPT-4o. אבל לכוח הזה יש מחיר: o1 לוקח 30+ שניות לענות על שאלות ש-GPT-4o פותר תוך 3 שניות, ועולה 15 דולר למיליון טוקנים של קלט, בהשוואה ל-5 דולר עבור GPT-4o.

שרשרת מחשבה: איך זה באמת עובד

הטכניקה אינה קסומה, אלא שיטתית. כאשר הוא מקבל הנחיה, o1 מייצר באופן פנימי רצף ארוך של "מחשבות" שאינן מוצגות למשתמש. עבור בעיית ה-'r' ב-"strawberry", התהליך הפנימי עשוי להיות:

"ראשית אני צריך להבין את מבנה המילה. ניתן למיין את תות שדה כ-[str][aw][berry]. כדי לספור את ה-'r', אני צריך לשחזר את המילה המלאה ברמת התו. Str מכיל: str (1 'r'). Aw מכיל: aw (0 'r'). Berry מכיל: berry (2 'r'). סה"כ: 1+0+2 = 3 'r'. אני מאמת: תות = תות שדה. אני סופר את ה-'r': מיקום 3, מיקום 8, מיקום 9. אושר: 3 'r'."

הנמקה פנימית זו מוסתרת מכוח התכנון. OpenAI אוסרת במפורש על משתמשים לנסות לחשוף את קו המחשבה של o1 על ידי ניטור הנחיות וייתכן שלילת גישה לאלו המפרים כלל זה. החברה מציינת אבטחה של בינה מלאכותית ויתרון תחרותי, אך ההחלטה ספגה ביקורת כאובדן שקיפות מצד מפתחים העובדים עם מודלי שפה.

מגבלות מתמשכות: o1 אינו מושלם

למרות ההתקדמות, o1 לא פתר את הבעיה לחלוטין. מחקר שפורסם ב-Language Log בינואר 2025 בחן מודלים שונים על אתגר מורכב יותר: "כתבו פסקה שבה האות השנייה של כל משפט מאייתת את המילה 'CODE'".

o1 standard (20 דולר לחודש) נכשל בכך שספירה שגויה את האות הראשונה של כל מילה ראשונה כ"אות השנייה". o1-pro (200 דולר לחודש) תיקן את הבעיה... לאחר 4 דקות ו-10 שניות של "חשיבה". DeepSeek R1, הדגם הסיני שטלטל את השוק בינואר 2025, עשה את אותה טעות כמו o1 standard.

הבעיה הבסיסית נותרה: המודלים עדיין רואים טקסט דרך אסימונים, לא אותיות. o1 למד "לעקוף" את המגבלה הזו באמצעות חשיבה, אך לא ביטל אותה. כפי שציין חוקר אחד ב-Language Log: "אסימוניזציה היא חלק ממהותם של מודלי שפה; עבור כל תשובה שגויה, ההסבר הוא בדיוק 'ובכן, אסימוניזציה'."

מחקר אקדמי: הופעתה של הבנה ברמת האופי

מאמר משמעותי שפורסם ב-arXiv במאי 2025 ("בעיית התות: הופעתה של הבנה ברמת הדמות במודלי שפה אסימונית") מנתח תופעה זו מנקודת מבט תיאורטית. החוקרים יצרו 19 משימות סינתטיות המבודדות חשיבה ברמת הדמות בהקשרים מבוקרים, ומדגים כי יכולות אלו צצות פתאום ורק בשלב מאוחר של האימון.

המחקר מציע כי לימוד הרכב דמויות אינו שונה באופן מהותי מלימוד ידע של שכל ישר - הוא צץ דרך תהליכים של "חלחול מושגי" כאשר המודל מגיע למסה קריטית של דוגמאות וקשרים.

החוקרים מציעים שינוי ארכיטקטוני קל משקל אשר משפר משמעותית את החשיבה ברמת התווים תוך שמירה על היתרונות האינדוקטיביים של מודלים מבוססי תת-מילות. עם זאת, שינויים אלה נותרו ניסיוניים ולא יושמו במודלים מסחריים.

השלכות מעשיות: מתי לסמוך ומתי לא

מקרה ה"תות" מלמד לקח חשוב על אמינותם של מודלים של שפה: הם כלים הסתברותיים, לא מחשבונים דטרמיניסטיים. כפי שציין מארק ליברמן בספר Language Log, "יש להיזהר לגבי אמון בתגובתה של כל מערכת בינה מלאכותית נוכחית במשימות הכרוכות בספירת דברים."

זה לא אומר שמודלים הם חסרי תועלת. כפי שציין אחד המגיבים, "רק בגלל שחתול עושה את הטעות הטיפשית של לפחד ממלפפון, זה לא אומר שאנחנו לא צריכים לסמוך על חתולים עם המשימה הקשה הרבה יותר של הרחקת מכרסמים מהבניין." מודלים של שפה אינם הכלי הנכון אם רוצים לספור אותיות באופן שיטתי, אבל הם מצוינים לעיבוד אוטומטי של אלפי תמלילי פודקאסטים ולחילוץ שמות של אורחים ומנחים.

עבור משימות הדורשות דיוק מוחלט - הנחתת חללית על מאדים, חישוב מינונים של תרופות, אימות תאימות לתקנות - מודלי שפה קיימים נותרים בלתי מספקים ללא פיקוח אנושי או אימות חיצוני. אופיים ההסתברותי הופך אותם לחזקים להתאמת תבניות וליצירת יצירה, אך בלתי אמינים עבור משימות בהן שגיאות אינן מקובלות.

העתיד: לקראת מודלים שחושבים שעות

OpenAI הצהירה כי בכוונתה להתנסות במודלים של o1 ש"מחשבים במשך שעות, ימים או אפילו שבועות" כדי לשפר עוד יותר את יכולות החשיבה שלהם. o3 הוכרז בדצמבר 2024 (השם o2 הוסר כדי למנוע סכסוכים בין סימנים מסחריים לבין מפעילת הסלולר O2), ובמרץ 2025 שוחרר ה-API עבור o1-pro, מודל הבינה המלאכותית היקר ביותר של OpenAI עד כה, במחיר של 150 דולר למיליון טוקנים של קלט ו-600 דולר למיליון טוקנים של פלט.

הכיוון ברור: במקום להפוך מודלים לגדולים עוד יותר (scaling), OpenAI משקיעה בלגרום להם "לחשוב" למשך זמן ארוך יותר (test-time computing). גישה זו יכולה להיות בת קיימא יותר מבחינה אנרגטית וחישובית מאשר אימון מודלים גדולים יותר ויותר.

אבל נותרת שאלה פתוחה: האם מודלים אלה באמת "מחשבות" או פשוט מדמים חשיבה באמצעות דפוסים סטטיסטיים מתוחכמים יותר? מחקר של אפל שפורסם באוקטובר 2024 דיווח כי מודלים כמו o1 יכולים לשכפל שלבי חשיבה מנתוני האימון שלהם. שינוי מספרים ושמות בבעיות מתמטיות, או פשוט הפעלה מחדש של אותה בעיה, החמירו משמעותית את ביצועי המודלים. הוספת מידע מיותר אך לא רלוונטי מבחינה לוגית הביאה לירידות ביצועים של עד 65% עבור מודלים מסוימים.

סיכום: כלים רבי עוצמה עם מגבלות מרכזיות

בעיית ה"תות" ופתרון o1 חושפים הן את הפוטנציאל והן את המגבלות הטבועות במודלי שפה קיימים. OpenAI הוכיחה שעם אימון ממוקד וזמן עיבוד נוסף, מודלים יכולים להתגבר על חלק מהמגבלות המבניות של טוקניזציה. אבל הם לא ביטלו אותה - הם עקפו אותה.

עבור משתמשים ומפתחים, הלקח המעשי ברור: הבנת אופן פעולתן של מערכות אלו - מה הן עושות היטב והיכן הן נכשלות - היא קריטית לשימוש יעיל בהן. מודלים של שפה הם כלים יוצאי דופן למשימות הסתברותיות, התאמת תבניות, יצירת יצירה וסינתזת מידע. אבל עבור משימות הדורשות דיוק דטרמיניסטי - ספירה, חישוב, אימות עובדות ספציפיות - הן נותרות בלתי אמינות ללא פיקוח חיצוני או כלים משלימים.

השם "תות" יישאר כתזכורת אירונית למגבלה הבסיסית הזו: אפילו מערכות הבינה המלאכותית המתקדמות ביותר בעולם יכולות להיתקל בשאלות שילד בן שש היה פותר אותן באופן מיידי. לא בגלל שהם טיפשים, אלא בגלל שהם "חושבים" בדרכים שונות לחלוטין מאיתנו - ואולי כדאי שנפסיק לצפות מהם לחשוב כמו בני אדם.

מקורות:

  • OpenAI - "ללמוד להסיק מסקנות עם תואר שני במשפטים" (פוסט רשמי בבלוג, ספטמבר 2024)
  • ויקיפדיה - "OpenAI o1" (ערך עודכן ינואר 2025)
  • קוסמה, אדריאן ואחרים - "בעיית התות: הופעתה של הבנה ברמת התווים במודלים של שפה מסומנת", arXiv:2505.14172 (מאי 2025)
  • ליברמן, מארק - "מערכות בינה מלאכותית עדיין לא יכולות לספור", יומן שפה (ינואר 2025)
  • יאנג, יו - "מדוע מודלים גדולים של שפה מתקשים לספור אותיות במילה?", Medium (פברואר 2025)
  • אורלנד, קייל - "איך באמת DeepSeek R1 עומד מול מודלי ההיגיון הטובים ביותר של OpenAI?", Ars Technica
  • בראון, נועם (OpenAI) - סדרת פוסטים בטוויטר/X (ספטמבר 2024)
  • TechCrunch - "OpenAI חושפת את o1, מודל שיכול לבדוק עובדות בעצמו" (ספטמבר 2024)
  • 16x הנחיה - "מדוע ChatGPT לא יכול לספור כמה רופי יש ב-Strawberry" (עודכן ביוני 2025)

משאבים לצמיחה עסקית