פאביו לאוריה

בעיית התותים

17 במרץ, 2025
שתף ברשתות החברתיות

ההכרזה של OpenAI על " Strawberry " הדגישה מגבלה מהותית של מודלי שפה: חוסר היכולת שלהם לנתח אותיות בודדות בתוך מילים. חולשה זו חושפת היבטים עמוקים של אופן פעולתם.

בעיית הספירה

כאשר ChatGPT מתבקש לספור את ה-'r' במילה 'strawberry', המודל לעיתים קרובות נכשל. שגיאה זו אינה נובעת מחוסר אינטליגנציה, אלא מהאופן שבו מודלי שפה מנתחים טקסט. כדי להבין מדוע, עליכם להבין את מושג הטוקניזציה .

העולם נראה דרך אסימונים

מודלים של שפה אינם רואים מילים כרצפי אותיות, אלא כאסימונים - יחידות משמעות שהומרו למספרים. זה כאילו הם קוראים ספר שבו כל מילה מוחלפת בקוד מספרי. המילה "ספרי לימוד", לדוגמה, מחולקת לשני אסימונים נפרדים: "בית ספר" ו"ספרים". זה מסביר מדוע המודל מתקשה לספור נכון את האותיות "o" במילה זו - הוא לא באמת רואה אותה כמילה.

דוגמה מאירת עיניים

דמיינו שאתם לומדים שפה שבה המילה "בית ספר" תמיד מיוצגת על ידי המספר "412". אם מישהו ישאל אתכם כמה O יש ב-"412", לא הייתם יכולים לענות נכון בלי לראות את המילה כתובה. מודלים של שפה נמצאים במצב דומה: הם מעבדים משמעות באמצעות מספרים, ללא גישה להרכב המילולי של מילים.

האתגר של מילים מורכבות

הבעיה מחמירה עוד יותר עם מילים מורכבות. 'Timekeeper' מחולק לאסימונים נפרדים, מה שמקשה על המודל לקבוע את המיקום המדויק של האותיות 'e'. פיצול זה משפיע לא רק על ספירת האותיות אלא גם על הבנת המבנה הפנימי של המילים.

הפתרון לבעיית התותים (אולי)

המודל הקרוב של OpenAI, Strawberry, צפוי להתגבר על מגבלה זו על ידי הצגת גישה חדשנית לעיבוד טקסט. במקום להסתמך אך ורק על טוקניזציה מסורתית, המודל אמור להיות מסוגל לנתח מילים עד לרמת האות הבודדת, מה שיאפשר ספירה וניתוח מדויקים יותר.

השלכות עתידיות

חשיבותה של בעיה זו חורגת מעבר לספירת אותיות בלבד. יכולת ניתוח מפורטת זו עשויה לשפר משמעותית את ההבנה הלשונית של מודלים של בינה מלאכותית, ולאפשר להם להתמודד עם בעיות הדורשות ניתוח טקסט מפורט ברמת התווים.

השילוב המתוכנן של טכנולוגיה זו יהווה התקדמות משמעותית לעבר מודלים של שפה המסוגלים יותר "להסיק" מסקנות לגבי הפרטים הבסיסיים של השפה, ולא רק לגבי דפוסים סטטיסטיים.

פאביו לאוריה

מנכ"ל ומייסד | Electe

מנכ"ל של Electe אני עוזר לעסקים קטנים ובינוניים לקבל החלטות מבוססות נתונים. אני כותב על בינה מלאכותית בעסקים.

הכי פופולרי
הירשמו כדי לשמוע את החדשות האחרונות

קבלו חדשות ותובנות לתיבת הדואר הנכנס שלכם בכל שבוע
תיבת דואר נכנס. אל תפספסו!

תודה! פנייתך התקבלה!
אופס! משהו השתבש בעת שליחת הטופס.