התעשייה הבלתי נראית שמאפשרת את ChatGPT, Stable Diffusion וכל מערכת בינה מלאכותית מודרנית אחרת
כשמשתמשים ב-ChatGPT כדי לחבר אימייל או ליצור תמונה עם Midjourney, לעתים רחוקות חושבים על ה"קסם" שמאחורי הבינה המלאכותית. עם זאת, מאחורי כל תגובה חכמה וכל תמונה שנוצרת מסתתרת תעשייה של מיליארדי דולרים שמעטים מדברים עליה: שוק נתוני הדרכת הבינה המלאכותית .
מגזר זה, אשר על פי MarketsandMarkets יגיע ל -9.58 מיליארד דולר עד 2029 עם צמיחה שנתית של 27.7%, הוא המנוע האמיתי של הבינה המלאכותית המודרנית. אבל איך בדיוק עובד העסק הנסתר הזה?
עולם נתוני ההדרכה של בינה מלאכותית נשלט על ידי כמה חברות שרוב האנשים מעולם לא שמעו עליהן:
Scale AI , החברה הגדולה ביותר בתעשייה עם נתח שוק של 28% , הוערכה לאחרונה ב -29 מיליארד דולר לאחר ההשקעה של Meta. לקוחותיה הארגוניים משלמים בין 100,000 דולר לכמה מיליוני דולרים בשנה עבור נתונים באיכות גבוהה.
אפן , שבסיסה באוסטרליה, מפעילה רשת עולמית של למעלה ממיליון מומחים ב-170 מדינות, אשר מתייגים ואוספים באופן ידני נתונים עבור בינה מלאכותית. חברות כמו Airbnb, John Deere ו-Procter & Gamble משתמשות בשירותיהן כדי "לאמן" את מודלי הבינה המלאכותית שלהן.
במקביל, קיימת מערכת אקולוגית בקוד פתוח המובלת על ידי ארגונים כמו LAION (רשת פתוחה לבינה מלאכותית בקנה מידה גדול), עמותה גרמנית ללא מטרות רווח שיצרה את LAION-5B , מערך הנתונים של 5.85 מיליארד זוגות תמונה-טקסט שאפשר את הפיזור היציב.
Common Crawl משחררת מדי חודש טרה-בייטים של נתוני אינטרנט גולמיים , המשמשים לאימון GPT-3, LLaMA ומודלים רבים אחרים של שפות.
מה שהציבור לא יודע הוא כמה יקר הפך לאמן מודל בינה מלאכותית מודרני. לפי Epoch AI , העלויות עלו פי 2-3 בשנה בשמונה השנים האחרונות .
העובדה המפתיעה ביותר? לפי AltIndex.com , עלויות הכשרת בינה מלאכותית עלו ב-4,300% מאז 2020 .
אחת הסוגיות השנויות ביותר במחלוקת נוגעת לשימוש בחומר המוגן בזכויות יוצרים. בפברואר 2025, בית משפט בדלאוור פסק בתיק Thomson Reuters נגד ROSS Intelligence כי אימון בבינה מלאכותית יכול להוות הפרה ישירה של זכויות יוצרים, ודחה את טענת "שימוש הוגן".
משרד זכויות היוצרים האמריקאי פרסם דו"ח בן 108 עמודים, בו מסיקים כי לא ניתן להגן על שימושים מסוימים כשימוש הוגן, מה שפותח את הדלת לעלויות רישוי עצומות שעלולות להיות עבור חברות בינה מלאכותית.
חקירה של MIT Technology Review חשפה כי DataComp CommonPool, אחד ממערכי הנתונים הנפוצים ביותר, מכיל מיליוני תמונות של דרכונים, כרטיסי אשראי ותעודות לידה. עם למעלה מ-2 מיליון הורדות בשנתיים האחרונות, הדבר מעלה חששות משמעותיים בנוגע לפרטיות.
מומחים צופים שעד שנת 2028, רוב הטקסט הציבורי שנוצר על ידי בני אדם הזמין באינטרנט יהיה בשימוש . תרחיש "שיא נתוני" זה דוחף חברות לעבר פתרונות חדשניים:
חוק השקיפות בבינה מלאכותית של קליפורניה ידרוש מחברות לחשוף את מערכי הנתונים שהן משתמשות בהם להכשרה, בעוד שהאיחוד האירופי מיישם דרישות דומות בחוק הבינה המלאכותית שלו.
עבור חברות המעוניינות לפתח פתרונות בינה מלאכותית, הבנת המערכת האקולוגית הזו היא קריטית:
שוק נתוני ההדרכה בתחום הבינה המלאכותית שווה 9.58 מיליארד דולר וצומח בקצב שנתי של 27.7%. תעשייה בלתי נראית זו אינה רק המנוע של הבינה המלאכותית המודרנית, אלא גם מייצגת את אחד האתגרים האתיים והמשפטיים הגדולים ביותר של זמננו.
במאמר הבא נחקור כיצד חברות יכולות להיכנס לעולם הזה בפועל, עם מדריך מעשי לתחילת פיתוח פתרונות בינה מלאכותית באמצעות מערכי הנתונים והכלים הזמינים כיום.
עבור אלו המעוניינים להעמיק מיד, ריכזנו מדריך מפורט עם מפת דרכים ליישום, עלויות ספציפיות ומערך כלים מלא - להורדה בחינם על ידי הרשמה ל... newsletter .
קישורים מועילים להתחלה מיידית:
מקורות טכניים:
אל תחכו ל"מהפכת הבינה המלאכותית". צרו אותה. בעוד חודש, ייתכן שיהיה לכם את המודל הראשון שעובד, בזמן שאחרים עדיין מתכננים.