אימון מודלים של בינה מלאכותית מייצג את אחד האתגרים המורכבים ביותר בפיתוח הטכנולוגי העכשווי. הרבה יותר מאשר בעיה אלגוריתמית פשוטה, אימון יעיל של מודל דורש גישה שיטתית ורב-תחומית המשלבת נתונים , מדעי נתונים, ידע בתחום והנדסת תוכנה. כפי שג'יימס לוק מדגיש בטקסטו המכוון " מעבר לאלגוריתמים: אספקת בינה מלאכותית לעסקים ", הצלחת יישום בינה מלאכותית תלויה הרבה יותר בניהול נתונים ובתכנון מערכות מאשר באלגוריתמים עצמם. הנוף מתפתח במהירות, עם חידושים כמו מודל DeepSeek-R1 שמגדירים מחדש עלויות ונגישות.
בניגוד לאמונה הרווחת, כמות הנתונים אינה תמיד המפתח להצלחה. איכות הנתונים וייצוגיותם חשובים משמעותית יותר. בהקשר זה, שילוב מקורות שונים הוא חיוני:
שילוב זה יוצר בסיס הכשרה מקיף אשר לוכד תרחישים מהעולם האמיתי תוך שמירה על סטנדרטים אתיים ופרטיות.
תהליך "אילוף נתונים" (מילולית "אילוף נתונים") מהווה עד 80% מהמאמץ הנדרש בפרויקטים של בינה מלאכותית. שלב זה כולל:
בחירת ארכיטקטורת המודל צריכה להיות מונחה על ידי האופי הספציפי של הבעיה הנפתרת, ולא על ידי הטיות או העדפות אישיות. סוגים שונים של בעיות דורשים גישות שונות:
אופטימיזציה ארכיטקטונית דורשת הערכה שיטתית על פני תצורות שונות, תוך תשומת לב מיוחדת לפשרה בין ביצועים לדרישות חישוביות, היבט שהפך רלוונטי עוד יותר עם הופעתם של מודלים כמו DeepSeek-R1 המציעים יכולות חשיבה מתקדמות בעלויות נמוכות משמעותית.
זיקוק התגלה ככלי רב עוצמה במיוחד במערכת האקולוגית הנוכחית של בינה מלאכותית. תהליך זה מאפשר יצירת מודלים קטנים ומתמחים יותר, אשר יורשים את יכולות החשיבה של מודלים גדולים ומורכבים יותר, כמו DeepSeek-R1.
כפי שמעיד DeepSeek, החברה זיקקה את יכולות החשיבה שלה למספר מודלים קטנים יותר, כולל מודלים בקוד פתוח ממשפחת Llama של Meta ומשפחת Qwen של Alibaba. לאחר מכן ניתן למטב את המודלים הקטנים יותר הללו למשימות ספציפיות, ובכך להאיץ את המגמה לעבר מודלים מהירים ומתמחים.
מפתח למידת המכונה, סם ויטבין, מציין: "אנחנו מתחילים לעבור לעולם שבו אנשים משתמשים במודלים מרובים. הם לא משתמשים רק במודל אחד כל הזמן." זה כולל מודלים זולים בלולאה סגורה כמו Gemini Flash ו-GPT-4o Mini, ש"עובדים מצוין עבור 80% ממקרי השימוש."
במקום לאמן מודלים נפרדים עבור יכולות קשורות, למידה מרובת משימות מאפשרת למודלים לשתף ידע בין פונקציות שונות:
עבור חברות הפועלות בתחומים ספציפיים מאוד, שבהם מידע אינו זמין באופן נרחב באינטרנט או בספרים המשמשים בדרך כלל לאימון מודלים של שפה, כוונון עדין בפיקוח (SFT) מייצג אפשרות יעילה.
DeepSeek הוכיחה שניתן להשיג תוצאות טובות עם "אלפי" מערכי נתונים של שאלות ותשובות. לדוגמה, מהנדס IBM, כריס היי, הראה כיצד אימן מודל קטן באמצעות מערכי הנתונים הספציפיים למתמטיקה שלו, והשיג תשובות מהירות במיוחד שעלו על מודל o1 של OpenAI באותן משימות.
חברות המעוניינות לאמן מודל עם התאמה נוספת להעדפות ספציפיות - לדוגמה, להפוך צ'אטבוט תמיכת לקוחות לאמפתי אך תמציתי - ירצו ליישם טכניקות למידה מחזקת (RL). גישה זו שימושית במיוחד אם חברה רוצה שהצ'אטבוט שלה יתאים את הטון וההמלצות שלו בהתבסס על משוב משתמשים.
עבור רוב החברות, RAG (Retrieval-Augmented Generation) מייצג את הנתיב הפשוט והבטוח ביותר. זהו תהליך פשוט יחסית המאפשר לארגונים לעגן את המודלים שלהם עם נתונים קנייניים ממאגרי המידע שלהם, ובכך להבטיח שהפלטים מדויקים וספציפיים לתחום.
גישה זו מסייעת גם להתמודד עם חלק מבעיות ההזיות הקשורות למודלים כמו DeepSeek, אשר כיום מזיזים ב-14 אחוז מהזמן לעומת 8 אחוזים עבור מודל o3 של OpenAI, על פי מחקר של Vectara.
השילוב של זיקוק מודלים ו-RAG הוא המקום שבו טמון הקסם עבור רוב החברות, לאחר שהפך לקל להפליא ליישום, אפילו עבור אלו עם כישורי מדעי נתונים או תכנות מוגבלים.
בינה מלאכותית יעילה אינה נמדדת רק במונחים של דיוק גולמי, אלא דורשת מסגרת הערכה מקיפה אשר לוקחת בחשבון:
ההשפעה המיידית ביותר של השקת DeepSeek היא הפחתת המחירים האגרסיבית. תעשיית הטכנולוגיה ציפתה שהעלויות יירדו עם הזמן, אך מעטים ניבאו כמה מהר זה יקרה. DeepSeek הוכיחה שמודלים פתוחים וחזקים יכולים להיות גם חסכוניים וגם יעילים, וליצור הזדמנויות לניסויים נרחבים ויישום חסכוני.
עמר עוואדאללה, מנכ"ל Vectara, הדגיש נקודה זו, וציין כי מה שמשנה את כללי המשחק אינו רק עלות האימון, אלא עלות ההסקה, אשר עבור DeepSeek היא כ-1/30 מזו של מודלי o1 או o3 של OpenAI מבחינת עלות ההסקה לכל טוקן. "הרווחים ש-OpenAI, Anthropic ו-Google Gemini הצליחו להשיג יצטרכו כעת להיות מופחתים בלפחות 90% מכיוון שהם לא יכולים להישאר תחרותיים עם מחירים כה גבוהים", אמר עוואדאללה.
לא רק זאת, עלויות אלו ימשיכו לרדת. מנכ"ל אנתרופיק, דריו אמודי, הצהיר לאחרונה כי עלות פיתוח המודל ממשיכה לרדת בקצב של כארבע פעמים בשנה. כתוצאה מכך, גם התעריף שגובים ספקי תואר ראשון במשפטים עבור השימוש בהם ימשיך לרדת.
"אני מצפה לחלוטין שהעלות תרד לאפס ", אמר אשוק סריווסטאבה, מנהל ראשי ב-Intuit, חברה שדוחפת רבות את הבינה המלאכותית לתוכנות המס והחשבונאות שלה כמו TurboTax ו-Quickbooks. "...וההשהיה עד שתרד לאפס. אלה פשוט יהפכו ליכולות בסיסיות שנוכל להשתמש בהן."
מערכות DeepSeek ו-Deep Research של OpenAI הן יותר מסתם כלים חדשים במאגר הבינה המלאכותית - הן מאותתות על שינוי עמוק שבו חברות יפרסו המוני מודלים ייעודיים, שהם חסכוניים ביותר, מוכשרים ומושרשים בנתונים ובגישה של החברה עצמה.
עבור חברות, המסר ברור: הכלים לבניית יישומי בינה מלאכותית חזקים וספציפיים לתחום נמצאים בהישג יד. אתם מסתכנים להישאר מאחור אם לא תמנפו את הכלים האלה. אבל הצלחה אמיתית תגיע מהאופן שבו תאספו את הנתונים שלכם, תמנפו טכניקות כמו RAG וזיקוק, ותחדשו מעבר לשלב טרום ההכשרה.
כפי שאמר פאקר מ-AmEx, חברות שמנהלות את הנתונים שלהן היטב יהיו אלה שיובילו את הגל הבא של חדשנות בתחום הבינה המלאכותית.