ההכרזה של OpenAI על " Strawberry " הדגישה מגבלה מהותית של מודלי שפה: חוסר היכולת שלהם לנתח אותיות בודדות בתוך מילים. חולשה זו חושפת היבטים עמוקים של אופן פעולתם.
בעיית הספירה
כאשר ChatGPT מתבקש לספור את ה-'r' במילה 'strawberry', המודל לעיתים קרובות נכשל. שגיאה זו אינה נובעת מחוסר אינטליגנציה, אלא מהאופן שבו מודלי שפה מנתחים טקסט. כדי להבין מדוע, עליכם להבין את מושג הטוקניזציה .
העולם נראה דרך אסימונים
מודלים של שפה אינם רואים מילים כרצפי אותיות, אלא כאסימונים - יחידות משמעות שהומרו למספרים. זה כאילו הם קוראים ספר שבו כל מילה מוחלפת בקוד מספרי. המילה "ספרי לימוד", לדוגמה, מחולקת לשני אסימונים נפרדים: "בית ספר" ו"ספרים". זה מסביר מדוע המודל מתקשה לספור נכון את האותיות "o" במילה זו - הוא לא באמת רואה אותה כמילה.
דוגמה מאירת עיניים
דמיינו שאתם לומדים שפה שבה המילה "בית ספר" תמיד מיוצגת על ידי המספר "412". אם מישהו ישאל אתכם כמה O יש ב-"412", לא הייתם יכולים לענות נכון בלי לראות את המילה כתובה. מודלים של שפה נמצאים במצב דומה: הם מעבדים משמעות באמצעות מספרים, ללא גישה להרכב המילולי של מילים.
האתגר של מילים מורכבות
הבעיה מחמירה עוד יותר עם מילים מורכבות. 'Timekeeper' מחולק לאסימונים נפרדים, מה שמקשה על המודל לקבוע את המיקום המדויק של האותיות 'e'. פיצול זה משפיע לא רק על ספירת האותיות אלא גם על הבנת המבנה הפנימי של המילים.
הפתרון לבעיית התותים (אולי)
המודל הקרוב של OpenAI, Strawberry, צפוי להתגבר על מגבלה זו על ידי הצגת גישה חדשנית לעיבוד טקסט. במקום להסתמך אך ורק על טוקניזציה מסורתית, המודל אמור להיות מסוגל לנתח מילים עד לרמת האות הבודדת, מה שיאפשר ספירה וניתוח מדויקים יותר.
השלכות עתידיות
חשיבותה של בעיה זו חורגת מעבר לספירת אותיות בלבד. יכולת ניתוח מפורטת זו עשויה לשפר משמעותית את ההבנה הלשונית של מודלים של בינה מלאכותית, ולאפשר להם להתמודד עם בעיות הדורשות ניתוח טקסט מפורט ברמת התווים.
השילוב המתוכנן של טכנולוגיה זו יהווה התקדמות משמעותית לעבר מודלים של שפה המסוגלים יותר "להסיק" מסקנות לגבי הפרטים הבסיסיים של השפה, ולא רק לגבי דפוסים סטטיסטיים.


