יצירתיות אנושית לעומת יצירתיות מלאכותית: היכן באמת טמון ההבדל (ומדוע סגנון ג'יבלי מלמד אותנו משהו)
הדיון סביב בינה מלאכותית וזכויות יוצרים התעצם באופן דרמטי בשנים 2024-2025. אלה כבר אינם דיונים תיאורטיים: הניו יורק טיימס תבע את OpenAI בגין הפרת זכויות יוצרים (דצמבר 2023), Getty Images תבעה את Stability AI, ואלפי אמנים הגישו תביעות ייצוגיות. חברות בינה מלאכותית משיבות כי המערכות שלהן "לומדות" בדיוק כמו בני אדם - אבל האם זה באמת המצב?
יצירתיות אנושית תמיד התפתחה דרך קשרים: שייקספיר שאב השראה מכרוניקות היסטוריות ומסיפורי עם, ואן גוך למד הדפסים יפניים, הביטלס החלו לנגן רוק אמריקאי. אמנים תמיד מפרשים מחדש יצירות קודמות. בינה מלאכותית, אומרות חברות טכנולוגיה, עושה את אותו הדבר. אבל המקרה של "סגנון גיבלי" מגלה עד כמה נרטיב זה פשטני.
הקלד "סגנון גיבלי" ב-Midjourney או DALL-E ותקבל תמונות דומות להפליא ליצירות המופת של היאו מיאזאקי: צבעי פסטל, עננים רכים, נופים חלומיים, דמויות עם עיניים גדולות. זה מרשים מבחינה טכנית. זה גם בעייתי מאוד.
סטודיו ג'יבלי בילה עשרות שנים בפיתוח האסתטיקה הייחודית הזו: בחירות פלטת צבעים מדויקות, טכניקות אנימציה מסורתיות ופילוסופיה אמנותית המושרשת בתרבות היפנית ובחזונו האישי של מיאזאקי. כאשר מודל בינה מלאכותית משכפל את ה"סגנון" הזה תוך שניות, האם הוא באמת "לומד" כמו שמיאזאקי למד מאנימציה של דיסני וממנגה יפנית? או שמא מדובר פשוט בשילוב מחדש של דפוסים חזותיים שחולצו מאלפי תמונות סטילס של ג'יבלי ללא רשות?
ההבדל אינו פילוסופי - הוא משפטי וכלכלי. לפי ניתוח של סטנפורד שפורסם ב-arXiv (Carlini et al., 2023), מודלים של דיפוזיה כמו דיפוזיה יציבה יכולים ליצור תמונות כמעט זהות מקבוצת האימון כ-3% מהמקרים כאשר ניתנות להם הנחיות ספציפיות. זו לא "השראה", זו שינון ושכפול.
גרג רוטקובסקי, אמן דיגיטלי פולני, גילה ששמו מופיע ב-1.2 מיליון הודעות ב-Stable Diffusion - ובלי משים הפך לאחד ה"סגנונות" המבוקשים ביותר, מבלי לתת הסכמה או לקבל פיצוי. כפי שאמר ל-MIT Technology Review: "אני לא מרגיש מוחמא. אני מרגיש כאילו גנבו משהו שבזבזתי שנים בבנייתו."
אימון בינה מלאכותית הגיע להיקפים חסרי תקדים. LAION-5B, אחד ממערכי הנתונים הנפוצים ביותר עבור מודלים של תמונות, מכיל 5.85 מיליארד זוגות תמונה-טקסט שנאספו מהאינטרנט - כולל יצירות המוגנות בזכויות יוצרים. GPT-4 אומן על חלקים נרחבים מהאינטרנט, כולל מאמרים בתשלום, ספרים וקוד תוכנה קנייני.
הליכים משפטיים גדולים המתנהלים:
חברות בינה מלאכותית מגנות על הפרקטיקה הזו על ידי שימוש ב"שימוש הוגן" במסגרת החוק האמריקאי: הן טוענות שההכשרה היא "טרנספורמטיבית" ואינה מחליפה את השוק המקורי. אך מספר בתי משפט מערערים על פרשנות זו.
השופטת קתרין פורסט, בתיק גטי נגד סטביליטי בינה מלאכותית, דחתה את הבקשה לדחיית התיק בינואר 2024, ואפשרה לתיק להמשיך: "השאלה האם אימון מודלים של בינה מלאכותית מהווה שימוש הוגן היא מורכבת ודורשת בחינה מדוקדקת של העובדות." תרגום: חברות בינה מלאכותית אינן יכולות פשוט להסתמך על שימוש הוגן ולסיים את היום.
חברות בינה מלאכותית, אשר נוכחות לחץ משפטי, החלו לנהל משא ומתן על רישיונות. OpenAI הגיעה להסכמים עם:
גוגל חתמה על הסכמים דומים עם Reddit, Stack Overflow ועם הוצאות לאור שונות. Anthropic ניהלה משא ומתן עם הוצאות לאור על השימוש בספרים.
אבל הסכמים אלה מכסים רק מו"לים גדולים בעלי כוח משא ומתן. מיליוני יוצרים בודדים - אמנים, צלמים, כותבים עצמאיים - נותרים ללא פיצוי על עבודה ששימשה בהכשרה שכבר השלימו.
הנרטיב של "בינה מלאכותית לומדת כמו בני אדם" מטעה מבחינה טכנית. בואו נבחן את ההבדלים העיקריים:
קנה מידה ומהירות: אמן אנושי לומד אולי מאות או אלפי יצירות במהלך חייו. GPT-4 אומן על טריליוני מילים. דיפוזיה יציבה על מיליארדי תמונות. קנה המידה הוא חסר תקדים ועולה על כל הגדרה סבירה של "השראה".
הבנה סמנטית: כאשר ואן גוך חקר הדפסים יפניים, הוא לא העתיק מכנית את הדפוסים החזותיים - הוא הבין את העקרונות האסתטיים הבסיסיים (שימוש במרחב שלילי, קומפוזיציה אסימטרית, דגש על הטבע) ופירש אותם מחדש באמצעות חזונו הפוסט-אימפרסיוניסטי האירופי. עבודותיו הן סינתזות תרבותיות מודעות.
מודלים של בינה מלאכותית אינם "מבינים" במובן האנושי. כפי שמלני מיטשל, פרופסור במכון סנטה פה, מסבירה בספרה "בינה מלאכותית: מדריך לבני אדם חושבים": "מערכות למידה עמוקה מצטיינות בזיהוי תבניות אך חסרות הבנה סיבתית, חשיבה מופשטת או מודלים מנטליים של העולם." דיפוזיה יציבה אינה "מבינה" מה מייחד את גיבלי - היא מחלצת קורלציות סטטיסטיות בין מיליוני פיקסלים המסומנים "בסגנון גיבלי".
כוונה יצירתית: אמנים אנושיים מבצעים בחירות יצירתיות מכוונות המבוססות על חזון אישי, המסר שהם רוצים להעביר והרגשות שהם רוצים לעורר. מיאזאקי משלב בסרטיו נושאים סביבתיים, פציפיסטיים ופמיניסטיים - בחירות מוסריות ואמנותיות מודעות.
בינה מלאכותית מייצרת על סמך הסתברויות סטטיסטיות: "בהינתן הפקודה X וקבוצת אימונים Y, איזו תצורת פיקסל היא הסבירה ביותר?" אין כוונה, אין מסר, אין חזון. כפי שכתב טד צ'יאנג ב"ניו יורקר": "ChatGPT הוא JPEG מטושטש של האינטרנט" - דחיסה אובדנית שמאבדת בדיוק את התכונות שהופכות את התוכן המקורי בעל ערך.
טרנספורמציה לעומת רקומבינציה: פבלו פיקאסו חקר מסכות אפריקאיות אך יצר את הקוביזם - תנועה אמנותית חדשה לחלוטין שהמציאה מחדש את הייצוג המרחבי בציור. הטרנספורמציה הייתה רדיקלית ומקורית.
מודלים גנרטיביים של בינה מלאכותית פועלים באמצעות אינטרפולציה במרחב סמוי: הם משלבים מחדש אלמנטים של מערך האימון לתצורות חדשות, אך נשארים קשורים להתפלגות הסטטיסטית של הנתונים עליהם אומנו. הם אינם יכולים להמציא אסתטיקות חדשות באמת שמפרות סדירות סטטיסטית נלמדת. כפי שהודגם על ידי מחקר MIT (Shumailov et al., 2023), מודלים שאומנו שוב ושוב על פלטי בינה מלאכותית קודמים מתנוונים בהדרגה - תופעה המכונה "קריסת מודל".
הנה הפרדוקס המרכזי: בינה מלאכותית יכולה לייצר פלט שנראה מקורי (אף אדם מעולם לא ראה את התמונה הספציפית הזו בסגנון גיבלי) אך הוא נגזר סטטיסטית (אלה אינטרפולציות של דפוסים קיימים). זוהי צורה של מקוריות שטחית ללא חדשנות מהותית.
יש לכך השלכות עמוקות. כפי שטען הפילוסוף ג'ון סירל בספרו המפורסם "טיעון החדר הסיני", סימולציה של תהליך קוגניטיבי אינה זהה להחזקתו. בינה מלאכותית יכולה לדמות יצירתיות מבלי להיות יצירתית במובן האנושי של המילה.
לנוכח המחלוקת, מפותחים פתרונות שונים:
כלי הגנה לאמנים:
יומני ביטול הסכמה:
מסגרת תגמול:
תקנות ממשלתיות:
חוק הבינה המלאכותית של האיחוד האירופי (שנכנס לתוקף באוגוסט 2024) מחייב ספקי מודלים של בינה מלאכותית גנרטיבית לפרסם סיכומים מפורטים של נתוני ההדרכה המוגנים בזכויות יוצרים שהם משתמשים בהם. זהו הניסיון הרגולטורי הראשון לאכוף שקיפות.
חוק ELVIS של טנסי (מרץ 2024) מגן במיוחד על קולם ודמותם של אמנים מפני שימוש לא מורשה בבינה מלאכותית - המדינה הראשונה בארה"ב עם חקיקה ספציפית לזיופים קוליים ויזואליים עמוקים.
הצעות בקונגרס האמריקאי כוללות דרישה של הסכמה מפורשת ליצירות המוגנות בזכויות יוצרים (ולא הסכמה לביטול) ויצירת מאגרי מידע ציבוריים של מערכי נתונים של הכשרה.
שני חזונות עתידיים מתנגשים זה בזה:
נקודת מבט אופטימית (חברות בינה מלאכותית): בינה מלאכותית היא כלי שמעצים את היצירתיות האנושית, כמו פוטושופ או סינתיסייזרים מוזיקליים. אמנים ישתמשו בבינה מלאכותית כדי להאיץ זרימות עבודה, לחקור וריאציות ולהתגבר על מחסומים יצירתיים. צורות אמנות היברידיות יופיעו בהן בני אדם מכוונים את החזון ובינה מלאכותית מבצעת את החלקים הטכניים.
דוגמאות קונקרטיות כבר קיימות: הסרט "הכפור" (2023) השתמש בבינה מלאכותית כדי ליצור רקעים ומרקמים, כאשר אמנים אנושיים מנחים את הכיוון האמנותי. מוזיקאים משתמשים ב-Suno וב-Udio כדי ליצור רצועות רקע לאלתור. כותבים משתמשים ב-GPT כ"ברווזים גומי" כדי לדון ברעיונות נרטיביים.
השקפה פסימית (יוצרים רבים): בינה מלאכותית תהפוך את היצירתיות לסחורה, ותשחק את הערך הכלכלי של עבודה יצירתית עד שרק אליטות בעלות כישורים יוצאי דופן ישרדו. "יצירתיות ממוצעת" תוחלף בגנרטורים בעלות נמוכה, שיהרסו את מעמד הביניים היצירתי - בדיוק כפי שאוטומציה תעשייתית חיסלה את בעלי המלאכה במאה ה-19.
ראיות ראשוניות תומכות בדאגה זו: בפלטפורמות פרילנסרים כמו Fiverr, בקשות למאיירים וקופירייטרים ירדו ב-21% בשנת 2023 (נתוני Fiverr לרבעון הרביעי של 2023), בעוד שהצעות ליצירת אמנות באמצעות בינה מלאכותית התפוצצו. גרג רטקובסקי ראה ירידה של 40% בהזמנות ישירות מאז שסגנון העבודה שלו הפך פופולרי ב-Stable Diffusion.
האמת כנראה נמצאת איפשהו באמצע: צורות מסוימות של עבודה יצירתית יהיו אוטומטיות (איורים גנריים של סטוק, תוכן שיווקי בסיסי), בעוד שיצירתיות מקורית מאוד, קונספטואלית ומבוססת תרבות תישאר נחלת האדם.
ההבחנה בין תוכן אנושי לבין תוכן מבוסס בינה מלאכותית תהפוך לקשה יותר ויותר. כבר כיום, ללא סימני מים או גילוי נאות, לעתים קרובות בלתי אפשרי להבחין בין טקסט GPT-4 לטקסט אנושי, או בין תמונות Midjourney לתמונות. כאשר Sora (מחולל הסרטונים של OpenAI) יהפוך לציבורי, ההבחנה תתרחב גם לסרטונים.
זה מעלה שאלות עמוקות לגבי אותנטיות. אם תמונה בסגנון גיבלי שנוצרה על ידי בינה מלאכותית מעוררת את אותם רגשות כמו המקור, האם יש לה את אותו ערך? הפילוסוף וולטר בנימין, בספרו "יצירת האמנות בעידן השכפול המכני" (1935), טען כי שחזור מכני פוגע ב"הילה" של היצירה המקורית - ייחודיותה המרחבית-זמנית והאותנטיות שלה.
בינה מלאכותית גנרטיבית לוקחת את הטיעון הזה לקיצוניות: היא לא משחזרת יצירות קיימות אלא מייצרת אינספור וריאציות המדמות את המקור מבלי להיות הוא עצמו. זהו הסימולאקרום של בודריארדיאן - ההעתק ללא המקור.
ובכל זאת, יש משהו אנושי בלתי ניתן לצמצום במעשה היצירתיות המודעת: האמן שבוחר כל משיכת מכחול בידיעה מה הוא רוצה להעביר, הכותב שיוצר כל משפט כדי לעורר רגשות ספציפיים, המלחין שבונה מתח ופתרון מתוך כוונה. בינה מלאכותית יכולה לדמות את התוצאה אך לא את התהליך - ואולי דווקא בתהליך טמון הערך האמיתי של היצירתיות.
כפי שכתבו סטודיו גיבלי בהצהרה (נובמבר 2023): "נשמת הסרטים שלנו אינה טמונה בסגנון הוויזואלי שניתן להעתיק, אלא בהחלטות היצירתיות שאנו מקבלים פריים אחר פריים כדי לשרת את הסיפור שאנו רוצים לספר. את זה אי אפשר להפוך לאוטומטי."
ערכה של האמנות, בסופו של דבר, נובע מיכולתה להתחבר עמוק לחוויה האנושית - לגרום לנו להרגיש מובנים, מאותגרים, משתנים. האם ניתן להשיג זאת באמצעות בינה מלאכותית נותרת שאלה פתוחה. אבל כל עוד אמנות נוצרת על ידי בני אדם עבור בני אדם, ומתייחסת למצב האנושי, היא תשמור על משהו שאף אלגוריתם לא יוכל לשכפל: האותנטיות של החוויה החיים המתורגמת לצורה אסתטית.
מקורות: