תמונות אלגוריתמיות

בינה מלאכותית ותרבות חזותית

שיתוף PDF

מאז תחילת העשור השני של המאה העשרים ואחת, שדה התמונות הדיגיטליות העצום מושפע יותר ויותר מסוגים שונים של אלגוריתמים של למידה עמוקה – אחת מן הצורות של מה שמכונה "בינה מלאכותית" (Artificial Intelligence, ובקיצור AI) – שמשנים מן היסוד את הדרכים המשמשות לצילום תמונה, ליצירתה, לשינויה ולצפייה בה. הראייה הממוחשבת והיישומים שלה בטכנולוגיות של ראיית מכונה מסוגלים היום לאתר ולזהות אובייקטים, מקומות, גופים ופנים מתוך מיליארדי התמונות המסתובבות ברשת גם כאשר הן אינן מוצגות על מסכים ואינן גלויות לעין האנושית. הטלפונים החכמים של היום מצוידים בכלי AI שונים שמשנים ומתקנים בעצמם תמונות מצולמות על בסיס דפוסים חוזרים והעדפות ברורות שזוהו בסקירה סטטיסטית של הרשתות החברתיות. מודלים של למידה עמוקה יכולים לייצר בעצמם תמונות מטקסט או להפך. מערכי נתונים (datasets) עצומים שמורכבים ממיליארדי תמונות, טקסטים וצמדים של תמונה־טקסט שנאספו מן הרשת משמשים לאימון המודלים הללו ועל כן משפיעים על הפלט החזותי והטקסטואלי שלהם. כך הם הופכים בהדרגה את התרבות שלנו ללולאת משוב ענקית, שבה מה שכבר הועלה לרשת מכתיב את התוכן העתידי שייווצר על ידי בינה מלאכותית.

לכל אחת מן התופעות הללו השלכות עמוקות על תחום התרבות החזותית העכשווית. ראיית המכונה מציגה צורה חדשה של תפיסה חזותית ממוכנת שמסלקת את המבט האנושי מן המרכז, מארגנת מחדש את שדה הנראה ומותחת קווים חדשים בין מה שאפשר ואי אפשר לראות. כלי בינה מלאכותית שמשובצים בטלפונים החכמים מטשטשים את ההבדל בין צילום תמונה לעיבוד תמונה וקובעים סטנדרטים חדשים. מודלים של למידה עמוקה מציגים דרכים חדשות לקישור של תמונות אל תמונות אחרות, של תמונות אל טקסטים, של טקסטים אל תמונות, ובסופו של דבר – של אנשים אל אנשים בתיווכם של תמונות וטקסטים. טכניקות של יצירת תמונה, עיבוד תמונה ועריכת תמונה בתחומים כגון איור, עיצוב גרפי, צילום, וידאו וקולנוע עוברות תמורות מהירות ובמקרים מסוימים אף מוחלפות לחלוטין בצורות חדשות של מה שמכונה "הנדסת פְּרוֹמְפְּטִים". כל תחומי המחקר העוסקים מזוויות שונות בלימוד של תמונות ושל מדיה חזותית נאלצים לפתע פתאום להתמודד עם האפשרויות שמזמנים אלגוריתמים שמסוגלים לנתח ולמיין תמונות במסדי נתונים (databases) עצומים אך גם עם השאלות העולות מתוך המגבלות וההטיות של האלגוריתמים האלה וממערך חדש לגמרי של תמונות ושל תהליכי עיבוד תמונה שיצרה בינה מלאכותית.

  • 1. ספרות נרחבת עוסקת בהיסטוריה של הרעיון "בינה מלאכותית". לסקירה סינתטית של האופן שבו המושג "בינה מלאכותית" עצמו הובן מאז הופעתו הראשונה באמצע שנות החמישים של המאה העשרים ראו:Stephanie Dick, "Artificial Intelligence", Harvard Data Science Review 1:1 (summer 2019), https://hdsr.mitpress.mit.edu/pub/0aytgrau/release/3. דיק מדגישה במאמר כי "אין סיפור ישיר על קורותיה של הבינה המלאכותית משנות החמישים ועד היום" וכי "מה שנחשב 'בינה' [או 'אינטליגנצייה'] הוא מטרה נעה בהיסטוריה של הבינה המלאכותית [או האינטיליגנצייה המלאכותית]".

כל זה קורה בקצב שכמעט לא היה אפשר להעלות על הדעת לפני שנים אחדות בלבד. אולם תחושת ההפתעה ואף התדהמה שלנו לא תימשך זמן רב. טכנולוגיות של למידה עמוקה שפועלות על תמונות יהיו בקרוב "הנורמלי החדש", ויהיה קשה יותר להבחין בקווי הרציפות וברגעי השבר המגדירים את מקומן בתוך ההיסטוריה הארוכה יותר של התמונות ושל הראייה. במקרים מסוימים הן ייהפכו לכלים דיגיטליים סטנדרטיים (כפי שכבר קרה למשל לטכנולוגיות כגון קריאת קוד QR) ואולי אף יפסיקו להיחשב "בינה מלאכותית", שכן משמעות המונח משתנה ללא הרף.1

אנו ניצבים כעת על סף, ויש בידינו הזדמנות לעמוד על פשר ההתפתחויות הללו. לפני ששינויים אלה ייעשו בלתי נראים, לפני שישקעו לתוך השכבות העמוקות יותר של התשתית הדיגיטלית שלנו, לפני שיוחלפו בשינויים נוספים, אנו יכולים לעצור לרגע ולנסות להבין מה קורה.

  • 2. על הארכאולוגיה של המדיה ראו: Thomas Elsaesser, "Film History as Media Archaeology", in Film History as Media Archaeology: Tracking Digital Cinema (Amsterdam University Press, 2016), 71-100; Erkki Huhtamo and Jussi Parikka, eds., Media Archaeology: Approaches, Applications, and Implications (University of California Press, 2011); Jussi Parikka, What Is Media Archaeology? (Polity, 2012).

במאמר זה אני מתאר את הסוגים העיקריים של אלגוריתמים של למידה עמוקה העומדים מאחורי השינויים הנוכחיים ומסביר במילים פשוטות איך הם פועלים ואיך הם מיושמים בתרבות החזותית ככלל ובסדרה של פרקטיקות של אמנות עכשווית שעשויות לעזור לנו להתנהל בתוך הנוף החדש הזה. השפעתם של האלגוריתמים האלה על תמונות היא כה עמוקה, עד שהיא מעלה סדרה של שאלות יסוד אסתטיות, אפיסטמולוגיות, אונטולוגיות ופוליטיות, שיש להתמודד איתן הן מן הזווית התאורטית הן מן הזווית של הארכאולוגיה של המדיה.2

עלינו לא רק להבין אילו תכונות נדרשות מתמונה כדי שאלגוריתמים של למידה עמוקה יוכלו לנתח אותה, לחולל אותה או לשנות אותה אלא גם למפות ולחקור את מגוון הפעולות הנעשות בתמונות שאלגוריתמים כאלה מעבדים.

  • 3. על ממשליות אלגוריתמית ראו:Antoinette Rouvroy and Thomas Berns, "Algorithmic Governmentality and Prospects of Emancipation", Réseaux 177:1 (2013): 163-196.

עלינו גם לנתח את האלגוריתמים העיקריים של למידה עמוקה העוסקים בתמונות ואת מערכי הנתונים המשמשים לאימונם. מצד אחד חשוב להבין את המבנה של האלגוריתמים האלה ואת ההצטלבויות השונות של פעלנות (agency) אנושית ופעלנות לא אנושית המסדירות את פעולתם ומקנות להם רמות שונות של אוטונומיה. מן הצד האחר עלינו לחקור את המקורות, את התוכן ואת הקריטריונים המנחים של מערכי הנתונים המשמשים לאימון אלגוריתמים כאלה: הן אלה המיועדים ליישומים של ראיית מכונה (כדי להבין טוב יותר מה הם יכולים ולא יכולים "לראות", את ההטיות שלהם ואת תרומתם לצורות שונות של ממשליוּת אלגוריתמית ואפליה), הן אלה המשמשים ליצירת תמונות או לשינוין (כדי להבין כיצד התמונות והצמדים תמונה־טקסט הכלולים במערכי הנתונים האלה מכתיבים את הפלטים שלהם).3

  • 4. המונח "תמונות אלגוריתמיות" [או "דימויים אלגוריתמיים", ובאנגלית "algorithmic images"] המתייחס כאן במיוחד לאלגוריתמים של למידה עמוקה יכול לשמש גם במובן רחב יותר להוראה על ההיסטוריה הארוכה יותר של תמונות שאלגוריתמים מסוגים שונים יצרו או עיבדו (כלומר רצפים סופיים של הנחיות שנועדו לפתור סוג מסוים של בעיות או לבצע חישוב כלשהו). מנקודת מבט זו, כל התמונות הדיגיטליות (לרבות תמונות לא דיגיטליות רבות) הן "אלגוריתמיות" במובן כזה או אחר. ויליאם אוריקיו מנתח במאמרו "המפנה האלגוריתמי" (William Uricchio, "The Algorithmic Turn: Photosynth, Augmented Reality and the Changing Implications of the Image", Visual Studies 26:1 [2011]: 25-35) את מה שבעיניו הוא "קונסטרוקצייה אלגוריתמית חדשה של התמונה", שמקדמת אותה התפשטותן של "טכנולוגיות אשר עֵרוֹת למיקום" ו"יישומים של מציאות רבודה שמבוססים על זיהוי תמונה" שמציגים "יחסים [חדשים] בין הסובייקט הצופה ובין העולם הנצפה שמוגדרים בידי אלגוריתם" (25). ראו גם:Ruggero Eugeni, Capitale algoritmico: Cinque dispositivi postmediali (più uno) (Scholé, 2021), שם "תמונות חישוביות" נדונות כ"אלגוריתמים".
  • 5. על המושג "אובייקטים דיגיטליים" ראו: Yuk Hui, On the Existence of Digital Objects (University of Minnesota Press, 2016).

הבחירה במונח "תמונות אלגוריתמיות", המשתקפת בכותרת המאמר, נועדה למטרה מסוימת: היא מדגישה שבתוך נוף המדיה הנוכחי, מעמדן, פעלנותן ומזמינוּתן (affordance) של תמונות בתרבות החזותית העכשווית – הדרכים שבהן הן מצולמות, משתנות, מופצות ונצפות בהקשרים חברתיים ותרבותיים שונים – קשורים בטבורם לעובדה שאלגוריתמים של למידה עמוקה שמאומנים באמצעות מערכי נתונים גדולים מעבדים אותן.4

בעקבות החקירה של "תמונות אלגוריתמיות" כאלה אני מבקש להכניס לתאוריה של התמונות ושל התרבות החזותית מושגים שמקורם בתחום של למידת מכונה וגם לבחון מחדש מנקודת המבט של השינויים הנוכחיים סדרה של מושגי מפתח וסוגיות מתחומים כגון תולדות האמנות, לימודי התרבות החזותית, הצילום, הקולנוע ותאוריית המדיה.

מושגים מן התחום של למידת מכונה שיש לשלב בתאוריה של תמונות ושל תרבות חזותית הם מושגים כגון "מערך נתונים" (dataset), "ערכת אימון" (training set), "שיבוץ" (embedding), "התניה" (conditioning), "יישור" (alignment), "הזיה" (hallucination) ו"בִּיּוּן" או "אִינְטֶרְפּוֹלַצְיָה" (interpolation). מושג חשוב במיוחד הוא "המרחב הלטנטי" ("latent space", קרי המרחב הסמוי, החבוי או הנסתר) – מושג המתאר את המרחב המופשט, הרב־ממדי, שבו אלגוריתמים של למידה עמוקה הופכים אובייקטים דיגיטליים (כגון תמונות וטקסטים שהועלו לרשת בכמויות אדירות) לייצוגים לטנטיים, כך שיהיה אפשר לעבד אותם ולהשתמש בהם ליצירת אובייקטים דיגיטליים חדשים (כגון תמונות וטקסטים חדשים).5 ייצוגים לטנטיים מורכבים מווקטורים, כלומר מרשימות ארוכות של מספרים שמגדירות את הקואורדינטות של האובייקטים הדיגיטליים המקודדים והמשובצים במרחב הלטנטי ואת יחסי המרחק והקרבה שלהם בתוכו, בדיוק כשם ששלושת הצירים x,‏ y ו־z מגדירים את מיקומו של אובייקט פיזי במרחב תלת־ממדי ואת יחסיו עם אובייקטים פיזיים אחרים. בשנים הקרובות לא יהיה עוד אפשר להבין את הדינמיקה של תרבות שמעוצבֶּבֶת יותר ויותר בידי אלגוריתמים של למידה עמוקה ולבחון את הדרכים שבהן היא מעבדת כמויות אדירות של עקבות חזותיות וטקסטואליות שהעבר הותיר באינטרנט ללא ההכרה בתפקיד המרכזי של המרחב המופשט, הלא אינטואיטיבי והרב־ממדי הזה, שתמונות וטקסטים קיימים משובצים, ממוקמים ומעובדים בתוכו ושקשת רחבה של תמונות וטקסטים חדשים עשויים לצוץ מתוכו.

עם המושגים והסוגיות הנובעים מתחומי ידע כגון תולדות האמנות, לימודי התרבות החזותית, הצילום, הקולנוע ותאוריית המדיה שאפשר לבחון אותם מחדש מנקודת המבט של השפעת אלגוריתמים של למידה עמוקה על תמונות נמנים לא רק המושגים "תמונה" )או "דימוי", image) ו"ראייה" אלא גם מושגים כגון "דמיון" (resemblance), "חיקוי", "מקור" לעומת "העתק", "אינדקס" (index) לעומת "אִינדוּקס" או "מִפתוּח" (indexing), "מושא הוראה" ("רפרנט"), "אובייקטיביות", "סגנון", "הפשטה" מול "פיגורציה", "ריאליזם" ו"פוטו־ריאליזם", וכן שאלת טבען של הפעלנות, הכוונה והיצירתיות של האמן בהקשר של אינטראקציות מורכבות עם אלגוריתמים בעלי דרגות שונות של אוטונומיה.

אלגוריתמים של למידה עמוקה גם מכיילים מחדש את היחסים בין תמונות למילים, בין הנראה לנקרא, שכן פעולתם תלויה בדרך זו או אחרת בזמינותן של כמויות אדירות של תמונות שמקוטלגות, מתויגות ומתומללות בשיטתיות ואז נאספות במערכי נתונים גדולים. על הכף מונחת אפוא תרבות חזותית עתידית שבה תמונות ומילים מחוברות זו לזו יותר ויותר – עד לבלי התר – מבחינה אלגוריתמית.

לבסוף, המחשבה על השפעתן של טכנולוגיות הלמידה העמוקה על תמונות יכולה גם לסייע לנו להבין איזה תפקיד ממלאות תמונות שיצרה בינה מלאכותית בהפיכת "הבינה המלאכותית" עצמה לגלויה לעין: אם כדי להפוך אותה לשקופה ומובנת יותר ואם כדי לבחון את פוטנציאל יצירת התמונות שלה או את הכוח שלה ללכוד את תשומת ליבנו ולהסיח את דעתנו באמצעות משטחים חזותיים מפתים וצורות שונות של "הלבנת אמנות" ("art washing") שעשויות לסייע בהסוואת השלכותיה הבעייתיות ביותר כטכנולוגיה של מעקב, חיזוי, אפליה והחלפת עובדים.

בינה מלאכותית, תמונות וראייה

  • 6. John McCarthy et al., "A Proposal for the Dartmouth Summer Research Project on Artificial Intelligence", 31 August 1955, in AI Magazine 27:4 (2006): 12-14

המונח "artificial intelligence", שנטבע לראשונה ב־1955 בהצעה ל"פרויקט מחקר הקיץ בדארטמות בנושא בינה מלאכותית" (1956), מורה היום על שדה שהתפתח מאז במשך כמה עשורים כרשת מורכבת של תאוריות, טכנולוגיות ויישומים שמוקפת בקשת של שיחים, נרטיבים ועולמות מדומיינים.6

  • 7. לניתוח הסיבות המוסדיות והפוליטיות מאחורי הפיצול בין הגישה הסמלית לגישה התת־סמלית ראו: Chris Wiggins and Matthew L. Jones, How Data Happened: A History from the Age of Reason to the Age of Algorithms (Columbia University, 2023).

כשחוקרים עבדו במחצית השנייה של שנות החמישים על פיתוח בינה שהיא "מלאכותית" (כלומר לא ביולוגית אלא תוצר של הפקה טכנית), הופיעו שתי גישות מרכזיות: הגישה ה"סמלית" והגישה ה"תת־סמלית" או ה"קשרנית" ("connectionist"). הגישות נבדלו לא רק באופן שבו כל אחת פירשה את עצם הרעיון בדבר "בינה מלאכותית" אלא גם מסיבות טכניות, מוסדיות, כלכליות ופוליטיות שעתידות בשנים שלאחר מכן להתנות במידה רבה מאוד את הקצאות המימון.7

  • 8. ראו: Ronald Kline, "Cybernetics, Automata Studies, and the Dartmouth Conference on Artificial Intelligence", IEEE Annals of the History of Computing 33:4 (2010): 5-16.

הגישה ה"סמלית" הייתה מעוגנת במסורות הלוגיקה המתמטית, הנדסת המערכות והקיברנטיקה והתבססה על הרעיון שמחשבים יכולים לשחזר היבטים רציונליים מסוימים של החשיבה האנושית (כגון פתרון בעיות, הפעלת שיקול דעת וקבלת החלטות) באמצעות תוכנות לעיבוד סמלים (כלומר תוכנות שמבוססות על כללים ושמבצעות פעולות על סמלים ועל צירופי סמלים).8 גישה זו, שקידמו אותה מארגני סדנת דארטמות (ג'ון מקארתי, מרווין ל' מינסקי, נתניאל רוצ'סטר וקלוד א' שאנון), הייתה הגישה השלטת במחקר ובמימון מסוף שנות החמישים ועד אמצע שנות התשעים.

לעומת זאת הגישה ה"תת־סמלית או ה"קשרנית" הייתה מעוגנת במסורת ששילבה מתמטיקה, סטטיסטיקה, פסיכולוגיה קוגניטיבית ומדעי המוח והתבססה על הרעיון ש"בינה מלאכותית" יכולה להיתפס כסוג של "למידת מכונה", כלומר שימוש באלגוריתמים ממוחשבים שמסוגלים ללמוד באמצעות רצפים אינדוקטיביים של ניסוי וטעייה כיצד לזהות תבניות בתוך מערכי נתונים כדי להפיק תחזיות על נתונים חדשים. המבנה של האלגוריתמים הללו מחקה במעין זיקוק סכמטי את הקשרים בין תאי עָצָב (נֵירונים) ביולוגיים, ומשום כך הם מכונים "רשתות עֲצַבִּיּוֹת מלאכותיות".

  • 9. לניתוח ההשלכות החברתיות, הפוליטיות והסביבתיות של הפיתוחים האחרונים בטכנולוגיות של בינה מלאכותית ראו: Kate Crawford, Atlas of AI: Power, Politics, and the Planetary Costs of Artificial Intelligence (Yale University Press, 2021). על היחסים בין בינה מלאכותית, סטטיסטיקה וקפיטליזם ראו: Justin Joque, Revolutionary Mathematics: Artificial Intelligence, Statistics, and the Logic of Capitalism (Verso, 2022). על למידת מכונה כצורה של ייצור ידע וכאסטרטגיה של כוח ראו: Adrian Mackenzie, Machine Learners: Archaeology of a Data Practice (MIT Press, 2017).

כיום, בין הגישות המרובות שטכנולוגיות שמתויגות כ"בינה מלאכותית" אימצו, הגישות הקשרניות הן לרוב הדומיננטיות. האלגוריתמים המשמשים אותן הם רשתות עצביות מלאכותיות "עמוקות" ורב־שכבתיות, ועל כן סוג "למידת המכונה" שהן מפעילות נקרא "למידה עמוקה". האלגוריתמים של הלמידה העמוקה, אשר ניזונים מטכנולוגיות שצורכות כמויות אדירות של משאבים מכדור הארץ ומאומנים באמצעות סוגים שונים של עבודה אנושית ובאמצעות מערכי נתונים שהמבנה, התוכן והעקרונות המנחים שלהם מעוררים שורה שלמה של שאלות אתיות ופוליטיות, מגויסים להכנסת צורות שונות של אוטומציה ושל חיזוי לתחומים שנדרש בהם עיבוד של כמויות גדולות של נתונים.9

  • 10. על עיבוד שפה טבעית ועל מודלי שפה גדולים בנוגע ל־ChatGPT ראו: Alexandre Gefen, Vivre avec ChatGPT (L'Observatoire, 2023).

תחומי היישום של אלגוריתמים של למידה עמוקה הם כיום רחבים, מגוונים ומורכבים ממש כמו מרקם התרבות שלנו. הם כוללים תפיסת שמע באמצעות צורות של "האזנת מכונה" שמזהות בעצמן קולות, צלילים ורעשים; עיבוד של שפה "טבעית" (כלומר אנושית, להבדיל משפה שמבוססת על קוד מכונה) באמצעות מה שמכונה "מוֹדֶלֵי שפה גדולים" (Large Language Models, ובקיצור LLM) שמסוגלים לא רק לשלב ולתרגם טקסטים קיימים אלא גם לחולל טקסטים חדשים מתוך פרומפטים (הנחיות) טקסטואליים; הלחנה מוזיקלית באמצעות מערכות שמסוגלות להשלים יצירות לא גמורות או לחולל יצירות חדשות "בסגנון" של מוזיקאי או מסורת מסוימים; מערכות משחק אסטרטגיות כגון אלה שפותחו כדי לשחק שחמט, גוֹ או משחקי וידאו של אטארי; מנועי חיפוש מתקדמים ברשת; מערכות המלצה; פרסום ממוקד ברשת; מסנני דואר זבל; מה שמכונה "עוזרות וירטואליות" (כגון סירי ואלקסה); רובוטיקה וניווט רכב אוטונומי (למכוניות, למשאיות ולרחפנים); ניהול האחסון והצריכה של אנרגייה; כלי אוטומציה לניתוח, חיזוי וקבלת החלטות בתחומים כגון ייצור תעשייתי, לוגיסטיקה של שרשרת אספקה, פיננסים, דירוג אשראי, אבחון רפואי, מחקר תרופתי, מטאורולוגיה, פוליטיקה, וכמובן – מבצעים צבאיים.10

  • 11. למחקר של תולדותיו והשלכותיו של המושג "תרבות חזותית", שהיקרויות ראשונות שלו אפשר למצוא בשנות העשרים והשלושים של המאה העשרים בכתביהן של דמויות כגון בלה באלאז', לאסלו מוהולי־נאג' וז'אן אפשטיין, ראו: Andrea Pinotti and Antonio Somaini, Culture visuelle: Images, regards, médias, dispositifs (Les Presses du Réel, 2022).

אחד התחומים המושפעים ביותר היום מן השימוש בטכנולוגיות המתויגות כ"בינה מלאכותית" הוא תחום התרבות החזותית – מונח שאני משתמש בו כאן כדי להצביע בהכללה על התפקידים שהדימויים החזותיים, המדיה החזותית והניסיון החזותי ממלאים בתוך מגוון של הקשרים טכניים, תרבותיים, חברתיים ופוליטיים.11

שלוש תופעות מרכזיות ראויות לתשומת לב מיוחדת. אפשר למנות אותן על פי סדר הופעתן הכרונולוגי בעשר השנים האחרונות:

אלגוריתמים של למידה עמוקה כגון רשתות עצביות מתקפלות (Convolutional Neural Networks, ובקיצור CNN) החלו בערך מ־2010 (אף שהתבססו על מחקר שהחל במחצית השנייה של שנות החמישים) לשמש בשיטתיות ליישום מערכות של "ראיית מכונה" שמסוגלות לאתר, לנתח ולסווג ישויות (כגון חפצים, מקומות, גופים, פנים, מחוות, הבעות ופעולות) שמיוצגות בתמונות. טכנולוגיות של ראיית מכונה מופעלות כיום על מיליארדי התמונות הדיגיטליות הנגישות דרך האינטרנט ועל מספר גדול אף יותר של תמונות שמאוחסנות במכשירים הדיגיטליים שלנו או בארכיונים לא מקוונים, גם כאשר התמונות הללו אינן מופיעות על מסכים ועל כן אינן נראות לעין האנושית.

באמצע העשור הקודם הופיעו אלגוריתמים אחרים של למידה עמוקה כגון DeepDream ורשתות יְרִיבָנִיּוֹת גנרטיביות (Generative Adversarial Networks, ובקיצור GAN). תפקידם העיקרי אינו לנתח תמונות ולסווג אותן אלא לשנות תמונות קיימות באמצעות סדרה של פעולות או לחולל תמונות חדשות לחלוטין שיכולות להיות פוטו־ריאליסטיות, היברידיות או מופשטות לגמרי.

בראשית 2022 נעשו מודלים חדשים של למידה עמוקה, שהם חלק מן התחום הרחב יותר המכונה "בינה מלאכותית גנרטיבית" (Generative AI), נגישים לכול. מודלים אלה מסוגלים לא רק לחולל תמונות סטילס ותמונות נעות מתוך טקסטים (כלומר מתוך מה שמכונה "פרומפטים", כפי שקורה במודלים של טקסט־לתמונה דוגמת DALL-E 2,‏ Stable Diffusion ו־Midjourney ובמגוון של יישומי טקסט־לווידאו) אלא גם לחולל טקסטים מתוך תמונות (למשל במודלים שמרחיבים את משימת הסיווג של תמונות ליצירת כיתוב תמונה, לתיאור של תמונה נתונה ואפילו לכתיבת סיפור קצר שמתחיל ממנה, למענה על שאלות על אודותיה או לביצוע משימות שמפתחות אותה עוד).

שלוש התופעות הללו משפיעות היום לא רק על התרבות החזותית בכללותה אלא גם על קשת רחבה של פרקטיקות אמנותיות, שחלקן רלוונטיות במיוחד מפני שהן מתמודדות בעזרת מגוון של אסטרטגיות עם השאלות האפיסטמולוגיות והפוליטיות המכריעות שטכנולוגיות אלה מעוררות.

  • 12. בתמונה מרושתת בשחור־לבן (גוני אפור, greyscale), לכל פיקסל יש ערך שנע בין 0 (שחור) ל־255 (לבן), והמספרים בין 1 ל־254 הם דרגות שונות של אפור. בתמונה מרושתת בצבע, לכל פיקסל יש לצד הקואורדינטות שלו שלושה ערכים, שכל אחד מהם תואם את העוצמה של כל אחד משלושת צבעי היסוד (אדום, ירוק, כחול). הערכים נעים מ־0 (הגוון הכהה ביותר של אדום, ירוק או כחול) ל־255 (הגוון הבהיר ביותר) למסכי 8־ביט, מ־0 ל־1,028 למסכי 10־ביט, ואף גבוה מכך למסכי 12־ביט או 16־ביט שמשמשים לעיבודי צבע מקצועיים.
  • 13. על הגריד כ"טכניקה תרבותית" (Kulturtechnik) ראו: Bernhard Siegert, "(Not) in Place: The Grid, or, Cultural Techniques of Ruling Spaces", in Cultural Techniques: Grids, Filters, Doors, and Other Articulations of the Real, trans. Geoffrey Winthrop-Young (Fordham University Press, 2015), 97-120. על גרידים ראו גם: Rosalind A. Krauss, "Grids", in The Originality of the Avant-Garde and Other Modernist Myths (MIT Press, 1985), 9-22. על המושג "יכולת מעינה" ("addressability") ראו: Friedrich A. Kittler, "Computer Graphics: A Semi-Technical Introduction", Grey Room 2 (2001): 30-45.

כדי שאלגוריתמים של למידה עמוקה יוכלו לעבד את התמונות, עליהן לקיים שתי תכונות מהותיות. התכונה הראשונה (הקשורה לדיגיטציה של תמונות ככלל) היא שעל התמונות לעבור רישות (rasterization), כלומר יש להעמידן על גריד שתי וערב של פיקסלים, שלכל אחד מהם קואורדינטות משלו (שורה פלוס עמודה) וערכי צבע.12 ההעמדה של תמונה על גריד שכל פיקסל בו מקושר לשתי קואורדינטות ולסדרה של ערכים מספריים היא תנאי האפשרות הבסיסי לכך שאלגוריתמים של למידה עמוקה יעבּדו תמונה (הדבר נכון גם ליישומים רבים אחרים של עיבוד של דימויים דיגיטליים). הגריד פועל כאן, פעם נוספת, כ"טכניקה תרבותית" שמאפשרת את המיקום (localization), המְעִינָה (addressing) והשִׁפְעוּל (activation) של אלמנטים יחידים בתוך התמונה.13 על כל התמונות – ללא קשר למצע החומרי המקורי שלהן, לגודלן, לפורמט שלהן ולהקשרי ההפקה והקבלה המקוריים שלהן – להתכנס לתוך הגריד כיסוד טכני אפריורי כדי שיוכלו להיות לנתונים שאפשר לעבד אותם.

התכונה המהותית השנייה שעל התמונות לקיים כדי שאלגוריתמים של למידה עמוקה יוכלו לעבד אותן היא שעליהן לעבור "אינדוּקס" או מִפתוּח, כלומר יש לקשור את התמונות בשיטתיות למילים (למשל לתווית או לכיתוב) שמאפשרות לארגן אותן בקטגוריות. קיומן של טקסונומיות רחבות היקף שמחברות בין תמונות למילים הוא אפוא יסוד אפריורי נוסף שחיוני לתפקודם של כל האלגוריתמים הללו – יהיו אלה הרשתות העצביות המתקפלות המשמשות ליישומים של ראיית מכונה, הרשתות היריבניות הגנרטיביות המשמשות לשינוי תמונות קיימות או ליצירת תמונות חדשות או המודלים האחרונים של טקסט־לתמונה ותמונה־לטקסט.

איתור, זיהוי, סיווג: ראיית מכונה ודימויים פעולניים

טכנולוגיות של "בינה מלאכותית" עוסקות מראשיתן במשימות שקשורות לתמונות ולראייה.

  • 14. Frank Rosenblatt, The Perceptron, a Perceiving and Recognizing Automaton, Report 85-460-1 (Cornell Aeronautical Laboratory, 1957). כעבור שנה מפרסום הדוח הזה פרסם רוזנבלט מאמר, ובו הסביר שהפרספטרון היה חלק מניסיונו "להבין את יכולת ההכרה החושית, ההכללה, ההיזכרות והחשיבה של אורגניזמים מפותחים יותר".Frank Rosenblatt, "The Perceptron: A Probabilistic Model for Information Storage and Organization in the Brain", Psychological Review 65:6 (1958): 386-408.
  • 15. על מחקריהם של מקאלק ופיטס בנירונים מלאכותיים ראו: Warren McCulloch and Walter Pitts, "A Logical Calculus of the Ideas Immanent in Nervous Activity", Bulletin of Mathematical Biophysics 5 (1943): 115-133.
  • 16. שני "חורפי AI" עיקריים נמשכו מ־1974 עד 1980 ומ־1987 עד 1993.

ב־1957, שנה לאחר סדנת דארטמות שבה השתמשו לראשונה במונח "בינה מלאכותית", פיתח הפסיכולוג פרנק רוזנבלט שעבד במעבדה האווירונאוטית של קורנל את הפֶּרְסֶפְּטְרוֹן (Perceptron) – מכונה לזיהוי אוטומטי של תמונות.14 הפרספטרון, שהיה דוגמה ראשונה לתוכנית בינה מלאכותית קשרנית, "תת־סמלית", ונבנה בהשראת מחקריהם של וורן מקאלוק וסטנלי פיטס ב"נירונים מלאכותיים" (פונקציות מתמטיות שנתפסו כמודל של נירונים ביולוגיים), היה רשת עצבית מלאכותית בת שכבה אחת שתפקידה ללמוד איך לזהות תווים אלפביתיים דו־ממדיים אחרי שנקלטו בגריד שתי וערב של חיישנים ובו ארבע מאות תאים פוטואלקטריים.15

חמישים שנה אחרי פיתוח הפרספטרון, ובעקבות כמה מחזורים של התלהבות ואכזבה, קדחת השקעות וקיצוצי תקציב ("חורפי AI") ממקורות תאגידיים, ציבוריים וצבאיים (כגון הסוכנות הביטחונית לפרויקטי מחקר מתקדמים, DARPA), זינקה ההשקעה הכספית בבינה מלאכותית בתחילת העשור השני של המאה העשרים ואחת.16 "אביב AI" חדש זה – שהניעה אותו כמו את קודמיו סדרה מורכבת של התפתחויות טכנולוגיות, מוסדיות וכלכליות – אִפשר ליישומי ראיית מכונה לעבור לשלב חדש בזכות הצטלבותם של ארבעה גורמים שונים.

פרנק רוזנבלט עובד על מערכת המצלמה של Mark 1 Perceptron, 1960.
  • 17. ראו: Frank Rosenblatt, Principles of Neurodynamics: Perceptrons and the Theory of Brain Mechanisms (Spartan Books, 1962). את הקוגניטרון (1975) והנאוקוגניטרון (1980) פיתח קוניהיקו פוקושימה ששאב השראה מספרו זה של רוזנבלט וממחקריהם של דייוויד ה' הובל (Hubel) וטורסטן נ' ויזל (Wiesel) על אודות השדות הקולטים (receptive fields) בנירונים ביולוגיים. ראו: Kunihiko Fukushima, "Cognitron: A Self-Organizing Multilayered Neural Network", Biological Cybernetics 20:3 (1975): 121-136; Kunihiko Fukushima, "Neocognitron: A Self-Organizing Neural Network Model for a Mechanism of Pattern Recognition Unaffected by Shift in Position", Biological Cybernetics 36:4 (1980): 193-202. את הביטוי "תיקון שגיאה בהפצה אחורה" ("back-propagating error correction") הציג לראשונה ב־1962 פרנק רוזנבלט. ב־1986 פרסמו דייוויד רומלהארט, ג'פרי הינטון ורונלד ויליאמס מאמר שהציג ניתוח ניסיוני של הטכניקה הזאת, שאת מקורותיה אפשר למצוא ב"כלל השרשרת" של לייבניץ (Leibniz). ב־1989 פיתחו יאן לקון ועמיתיו רשת עצבית שהשתמשה באלגוריתם של ההפצה אחורה כדי לאמן רשת עצבית באמצעות מערך נתונים שמנה 9,298 ספרות שנכתבו בכתב יד ונדחסו עד שהיו לתמונות בגוני אפור בגודל של שישה עשר על שישה עשר פיקסלים. ראו: David Rumelhart, Geoffrey Hinton and Ronald Williams, "Learning Representations by Back-Propagating Errors", Nature 323:6088 (1986): 533-536; Yann LeCun et al., "Backpropagation Applied to Handwritten Zip Code Recognition", Neural Computation 1:4 (1989): 541-551.
  • 18. על CAPTCHA למיניו ראו: Jimena Canales, "Art in the Age of Captcha", in Philippe Decrauzat: DELAY, ed. Mathieu Copeland (Walther und König, 2022), 139-143.
  • 19. ראו: Antonio Casilli, En attendant les robots (Seuil, 2019).

הגורם הראשון היה פיתוחן של רשתות עצביות מלאכותיות "עמוקות" (כלומר רב־שכבתיות) – פיתוח שרוזנבלט דמיין כבר ב־1962 אך התממש רק בשנות השבעים והשמונים עם ה"קוֹגְנִיטְרוֹן" (Cognitron) וה"נֵאוֹקוֹגְנִיטְרוֹן" (Neocognitron) – שביצועיהן השתפרו פלאים בזכות תכונת מפתח של למידת מכונה: אלגוריתם ל"הפצה אחורה של שגיאה" (back-propagation of error).17 אלגוריתם זה מאפשר, מרגע שזוהתה שגיאה בפלט של רשת עצבית עמוקה (כגון זיהוי שגוי של סִפרה), להתחקות על גורמי השגיאה, שכבה אחר שכבה וקשר אחר קשר, כדי לתקן אותה באמצעות שינוי הפרמטרים (ה"משקלות") המסדירים את תנועת הקלטים והפלטים על פני הקשרים השונים.

הגורם המרכזי השני היה האפשרות לאמן רשתות עצביות כאלה על כמויות עצומות של תמונות שהורדו מן האינטרנט, מופתחו בשיטתיות ואורגנו במערכי נתונים גדולים של תמונות. כמה ממערכי הנתונים הללו, כגון ImageNet, שימשו במחצית הראשונה של העשור הקודם כסטנדרט למחקר בלמידת מכונה שמיושמת על תמונות בטרם הוחלפו במערכי נתונים גדולים עוד יותר כגון LAION-5B.

הגורם המרכזי השלישי היה זמינותן של צורות חדשות של מיקרו־עבודה (microlabor) מבוזרת, בין שהיא בוצעה באמצעות CAPTCHA ("מבחן טיורינג ציבורי ממוחשב לחלוטין להבחנה בין מחשבים לבני אדם") ובין שבוצעה בידי אנשים שמתייגים תמונות שמופצות ברשתות החברתיות או שאפשר לגשת אליהן דרך פלטפורמות עבודה מקוונות כגון שוק מיקור ההמונים Amazon Mechanical Turk ומעירים עליהן.18 "עבודת ההקלקה" הזאת, המוכרת היום היטב, מעוררת סוגיות אתיות ופוליטיות כבדות משקל מכיוון שיש בה כמויות גדולות של עבודה בתת־שכר, בתת־תנאים ואף ללא כל תגמול. החל מאמצע העשור הראשון של המאה העשרים ואחת היא ביצעה את אחד השלבים המהותיים באימון טכנולוגיות של ראיית מכונה: תיוג התמונות שנאספו במערכי הנתונים.19

הגורם המרכזי האחרון שאִפשר לטכנולוגיות של ראיית מכונה לעבור לשלב חדש היה הופעתו של דור חדש של מעבדים גרפיים (GPU) חזקים בראשית שנות התשעים: אלה הם מעגלים אלקטרוניים ייעודיים שתוכננו במקור להאצת פעולות של גרפיקה ממוחשבת ועיבוד תמונה בתחום האנימציה הדיגיטלית בזמן אמת במשחקי וידאו אך היו בסופו של דבר לאחד המרכיבים המרכזיים בעיבוד האלגוריתמי של תמונות בכלל.

  • 20. על ראיית מכונה והשלכותיה האסתטיות, האפיסטמולוגיות והפוליטיות ראו: Mitra Azar, Geoff Cox and Leonardo Impett, eds., "Ways of Machine Seeing", special issue, AI and Society 36:4 (2021): 1093–1312. על ההיסטוריה של ראיית מכונה ראו: James E. Dobson, The Birth of Computer Vision (University of Minnesota Press, 2023).

בין האלגוריתמים של הלמידה העמוקה שתרמו להתפתחותן המהירה של טכנולוגיות ראיית המכונה בראשית העשור הקודם מילאו תפקיד מרכזי הרשתות העצביות המתקפלות (CNN). ההבנה – גם אם זו הבנה סכמטית בלבד – של אופן פעולתן באיתור, בזיהוי ובסיווג הישויות המיוצגות בתמונות היא חיונית לכל מי שמבקש לעמוד על האפשרויות והמגבלות של ראיית מכונה.20

מטרתה הרשמית של רשת עצבית מתקפלת שמשמשת במשימה של ראיית מכונה היא לזהות קבוצה מסוימת של פיקסלים בדימוי דיגיטלי כמייצגת של קטגוריה מסוימת של אובייקטים כגון "פני אדם", "חתול", "עץ", "שולחן", "כנסייה" וכן הלאה. לקטגוריות של אובייקטים יכולות להיות רמות שונות של הכללה ("חתול", "חתול סיאמי", "חתולה סיאמית"), והן יכולות גם להתייחס לאובייקטים מסוימים ולאנשים מסוימים ("קתדרלת נוטרדאם", "ברק אובמה").

פעולתה של רשת עצבית מתקפלת שאומנה במלואה ושהוקצתה לה משימה של ראיית מכונה מתחלקת לשני חלקים: חילוץ מאפיינים (feature extraction) וסיווג (classification).

בראשיתו של החלק הראשון, חילוץ מאפיינים, קלט ראשוני – דימוי דיגיטלי (למשל תמונה של חתול) – מאורגן כגריד של פיקסלים, שלכל אחד מהם קואורדינטות וערכים מספריים משלו. גודל הדימוי (כלומר מספר הפיקסלים בגריד) מוכרח להיות שווה לגודלה של השכבה הראשונה ברשת העצבית המלאכותית (מספר הקלטים שהיא מסוגלת לקבל).

ברגע שסופק דימוי, שכבותיה השונות של הרשת העצבית המתקפלת מתחילות לנתח אותו. כל מאפיין בדימוי הנתון משמש מטרה לנירון מלאכותי מסוים בתוך כל אחת משכבות הרשת. על הנירונים בשכבות הראשוניות (הנמוכות) מוטלת המשימה לאתר מאפיינים פשוטים (כגון קווים, קימורים, פינות או קצוות – כלומר הגבולות בין שני אזורים מנוגדים בדימוי). אם המאפיינים הפשוטים הללו מאותרים, ואם מגיעים ל"ערך שִׁפְעוּל" ("activation value") מסוים (שמבוטא במספרים ומתקבל מהכפלת הערך של כל נירון בשכבה נתונה במשקלו), הנירונים מופעלים ומוסרים את הקלט שלהם לשכבות הבאות (הגבוהות יותר). שכבות אלה מופקדות, כל אחת בתורה, על איתור מאפיינים מורכבים יותר ויותר (כגון צורות, משטחים, נפחים, מרקמים, ואחר כך אובייקטים שלמים, פנים ספציפיות וכן הלאה). שטף ה"שפעולים" או ה"אקטיבציות" בין השכבות השונות של רשת מסוימת – תוצר רצפים של פעולות מתמטיות שנקראות "קיפולים" או "קונבולוציות" – מתקדם הן באמצעות שפעולים של הזנה קדימה (feed-forward) משכבות נמוכות לשכבות גבוהות יותר הן באמצעות שפעולים של הזנה אחורה (feed-backward) משכבות גבוהות לשכבות נמוכות יותר.

את החלק השני של התהליך, סיווג, מבצעת רשת עצבית מסוג אחר שמכונה "מוֹדוּל סיווג" (או "פִּרְקַן סיווג"). מודול זה מסתמך על הקלטים המתקבלים מן השכבות הגבוהות של הרשת העצבית המתקפלת ומפיק כפלט סיווג שמבוסס על דרגת הביטחון המבוטאת באחוזים.

  • 21. בלמידה מונחית, העבודה האנושית מעורבת הן בבחירת הדימויים בערכת האימון הן בתיוגם. על בסיס דימויים מתויגים אלה, האלגוריתם לומד כיצד לאתר, לזהות ולסווג ישויות שמופיעות בדימויים חדשים לא מתויגים שלא נכללו בערכת האימון. לעומת זאת, למידה בלתי מונחית פועלת ישירות על דימויים שאינם מתויגים. היא עשויה לסייע בזיהוי דמיון חוזר בין דימויים כך שיהיה אפשר לקבץ אותם בקבוצות נפרדות.

כדי לבצע את שתי הפעולות (חילוץ מאפיינים וסיווג) יש לאמן את הרשתות העצביות המתקפלות לזהות קטגוריה יחידה של אובייקטים או קטגוריות מרובות של אובייקטים, לרבות בסופו של דבר טקסטים, קוד ונוסחאות מתמטיות שעשויים להופיע בדימוי. אם הקטגוריות שהרשת אומנה לזהות כוללות "חתול", "סוס" ו"כלב", הפלט (ההסתברותי) הנובע מניתוח תמונה של חתול עשוי להיות "חתול 70%, סוס 20%, כלב 10%". ביישומי ראיית מכונה, אימון כזה – שעובר שלבים או "תרגולים שלמים" ("epochs") רבים – נחשב אימון מונחה (supervised) או בלתי מונחה (unsupervised) על פי התפקיד שהעבודה האנושית ממלאת בשלבים השונים של התהליך.21

רשת עצבית מתקפלת (CNN).
  • 22. על סתימותן של רשתות עצביות מתקפלות כצורה של "אי־מובנות" ו"חוסר אינטואיטיביות" ראו: Andrew D. Selbst and Solon Barocas, "The Intuitive Appeal of Explainable Machines", Fordham Law Review 87:3 (2018): 1085-1139.

הבנת המנגנון הפנימי של רשתות עצביות מתקפלות היא משימה קשה ביותר אם לא בלתי אפשרית, שכן רשתות עצביות עמוקות ורב־שכבתיות אלה עשויות לכלול מיליוני "נירונים" וכמות רבה אף יותר של קישורים ביניהם. זרימת המידע קדימה ואחורה בין השכבות עשויה להתפרשׂ על פני אלפי אִיטֶרַצְיוֹת (או "חִזְרוּרִים"), ובכך לעשותן סתומות ובלתי נגישות עוד יותר. רשתות עצביות מתקפלות הן אפוא דוגמה טיפוסית למודלים של למידה עמוקה מסוג "קופסה שחורה", שאי אפשר לפרש אותם פירוש מלא.22

תחת זאת, אפשר לנתח את המבנה ואת התוכן של מערכי הנתונים המשמשים לאימונם, אף שהדבר אפשרי רק באמצעות דגימות, שכן מספר הדימויים הכלולים במערכי הנתונים עשוי להיות בסדר גודל של מיליונים, ובמערכי הנתונים העדכניים ביותר – אפילו מיליארדים.

ערכות אימון ממלאות תפקיד חיוני בהגדרת "המרחב האפיסטמי" של רשתות עצביות מתקפלות: סדרת הישויות שהן מסוגלות לאתר ולסווג בתוך תמונות, והמילים שבהן הרשת משתמשת לשם הסיווג הזה. לברירה, לתיוג ולקיבוץ הטקסונומי של כמויות עצומות של דימויים בדידים שכלולים בערכות האימון יש תפקיד נורמטיבי מכריע בהבחנה בין מה שרשת עצבית מתקפלת יכולה לראות ולשיים ובין מה שנותר בלתי נראה וחסר שם. במקרים רבים, מה שנותר בלתי נראה וחסר שם עשוי להימצא בתוך הדימוי עצמו. למשל אפשר שרשת עצבית תצליח לזהות בדימוי מסוים תפוח אך לא את הצלחת שהוא מונח עליה וגם לא את השולחן שהצלחת נחה עליו.

  • 23. מערכי הנתונים ששימשו מ־2005 עד 2010 בתחרות PASCAL Visual Object Classes התבססו על עשרים קטגוריות. ב־2012 ניצחה רשת עצבית מתקפלת בשם "AlexNet" בתחרות ImageNet Large Scale – רגע שנחשב בעיני רבים לנקודת מפנה בפיתוח מערכות של ראיית מכונה. ראו: Alex Krizhevsky, Ilya Sutskever and Geoffrey E. Hinton, "ImageNet Classification with Deep Convolutional Neural Networks", in Advances in Neural Information Processing Systems 25, ed. F. Pereira et al. (Curran Associates, 2012), 1097-1105.
  • 24. Jia Deng et al., "ImageNet: A Large-Scale Hierarchical Image Database", in 2009 IEEE Conference on Computer Vision and Pattern Recognition (IEEE, 2009), 248-255
  • 25. ציטוט של פיי־פיי לי שמופיע אצל: Dave Gershgorn, "The Data That Transformed AI Research – and Possibly the World", Quartz, 26 July 2017, https://qz.com/1034972/the-data-that-changed-the-direction-of-ai-research-and-possibly-the-world.
  • 26. קייט קרופורד וטרבור פגלן, "ארכיאולוגיה של ראיית מכונה", תרגום: יניב פרקש, הזמן הזה (2020), https://hazmanhazeh.org.il/ai.
  • 27. בראש הטקסונומיה של ImageNet ניצבות תשע קטגוריות ראשיות: "צמח", "תצורה גאולוגית", "אובייקט טבעי", "ספורט", "חפץ", "פטרייה", "אדם", "בעל חיים" ו"שונות". תחתיהן מופיעה סדרה שלמה של תת־קטגוריות שמאורגנות על פי טקסונומיה מלאה תוויות ביזריות, הנחות מפוקפקות ביותר והטיות אלגוריתמיות שונות ומשונות – בייחוד בקטגוריה "אדם" (שהושבתה לזמן מה ב־2019). לצפייה בדימוי של ממשק המשתמש הבסיסי של Amazon Mechanical Turk ראו קרופורד ופגלן, "ארכיאולוגיה של ראיית מכונה".
  • 28. את רעיון המיפוי הכולל והאובייקטיבי של "עולם האובייקטים כולו" העומד בבסיס ImageNet אפשר לנתח נוכח התפיסות השונות של "אובייקטיביות" (ובייחוד "אובייקטיביות מאומנת" ["trained objectivity"]) הנדונות בספרם של לוריין דסטון ופיטר גליסון: Lorraine Daston and Peter Galison, Objectivity (Zone Books, 2010). אני מודה לנועם אלקוט (Elcott) על שהפנה את תשומת ליבי לכך.
  • 29. קרופורד ופגלן, "ארכיאולוגיה של ראיית מכונה". ראו גם: Adam Greenfield, Radical Technologies: The Design of Everyday Life (Verso, 2017).
  • 30. מקרה Clearview AI השנוי במחלוקת העלה סדרה של שאלות שמוצגות בבהירות כאן: Kashmir Hill, "The Secretive Company That Might End Privacy as We Know It", New York Times, 18 January 2020, https://www.nytimes.com/2020/01/18/technology/clearview-privacy-facial-recognition.html. ראו גם: Monica Steinberg, "Extralegal Portraiture: Surveillance, between Privacy and Expression", Grey Room 87 (2022): 66-99.

כדי להבין טוב יותר את המעבר מאיתור לסיווג, מראייה לשיום, כדאי לבחון את ImageNet – מערך הנתונים העצום של תמונות שאִפשר לרשתות עצביות מתקפלות להשיג שליטה כמעט מוחלטת בתחום של ראיית מכונה בראשית העשור השני של המאה העשרים ואחת ולהחליף מערכי נתונים מוקדמים וקטנים יותר שהתבססו על מספר מוגבל יותר של קטגוריות של אובייקטים.23

מערך הנתונים ImageNet, שנוצר באוניברסיטת סטנפורד בידי צוות מדעני מחשב בהובלתה של פֵיי־פֵיי לי (Fei-Fei Li), הוצג לראשונה ב־2009.24 מטרתו המוצהרת הייתה "למפות את עולם האובייקטים כולו".25 מהצהרה זו עולה חתירה לכוליות קרטוגרפית שלא רק מעוררת תהיות – שכן היא מניחה שאפשר למנות את כל האובייקטים כולם, שכל האובייקטים נראים ושאפשר לייצג את כולם בתמונה – אלא נעשית מפוקפקת עוד יותר כשבוחנים היטב את מקורותיו של מערך הנתונים, את מבנהו ואת ההטיות המרובות הגלומות בו.

כפי שקייט קרופורד וטרבור פגלן מראים במאמרם "ארכיאולוגיה של ראיית מכונה", ImageNet הוא דוגמה מובהקת לכך ש"כל אחת ואחת מן השכבות בערכת אימון כזאת רוויה בפוליטיקה".26 מערך הנתונים הזה – שיש בו ארבעה עשר מיליון תמונות שהורדו מן האינטרנט ללא אישור מראש מיוצריהם, שתויגו בידי עשרות אלפי "עובדי קליקים" שנשכרו באמצעות Amazon Mechanical Turk והתבקשו להשתמש בממשק שהזמין אותם לבחור "תצלומים בלבד, לא ציורים ולא רישומים" ושמוינו לבסוף לעשרים ואחת אלף קטגוריות ותת־קטגוריות שמתבססות על שמות עצם בשפה האנגלית כפי שהם מופיעים בהיררכייה של WordNet – רחוק מלהיות מיפוי אובייקטיבי של "עולם האובייקטים כולו".27 תחת זאת הוא תוצר של שכבות מרובות של קביעות טכניות והערכות אנושיות, שיפוטים, החלטות והטיות.28 המסקנה שקרופורד ופגלן מסיקים מניתוח זה היא ש"הבנת הפוליטיקה הכרוכה במערכות בינה מלאכותית חשובה היום יותר מתמיד, משום שהמערכות הללו משתלבות במהירות במבנה של מוסדות החברה" המעורבים בפעילויות שונות של מעקב, ניטור, בקרה, ברירה וניבוי.29

מאז ראשית העשור השני של המאה העשרים ואחת, טכנולוגיות של ראיית מכונה מיושמות יותר ויותר בשדה העצום של דימויים שמכונות מסוגלות לקרוא, שאת ממדיו אפשר לדמיין רק אם נבין שכל דימוי דיגיטלי – אם הוא נגיש דרך האינטרנט ואם הוא מאוחסן במכשירים שלנו, אם הוא הופק באמצעות סוג כלשהו של הקלטה אופטית של מה שנקלט בעדשה ואם הוא נוצר כל כולו במחשב (או שילוב של השניים, כפי שקורה לא פעם) – עשוי בפוטנצייה להיות מושא ניתוח של טכנולוגיות אלה. כל יצרניות הטלפונים החכמים הגדולות ציידו את מכשיריהן במצלמות ובטכנולוגיות עיבוד תמונה שהופכות כל תצלום שאנו מצלמים לדימוי שמכונה מסוגלת לקרוא ומשתמשות ביישומים של ראיית מכונה כדי לערוך חיפוש בתצלומים ובסרטונים שצולמו בטלפון או כדי לערוך חיפוש ברשת על בסיס דימוי נתון. הרשתות החברתיות משתמשות במערכות של ראיית מכונה לחילוץ נתונים מתמונות ומסרטונים שמשתמשים מעלים, ואילו חברות פרטיות (כדוגמת Clearview AI השנויה במחלוקת) מציעות לסוכנויות מדינה וללקוחות פרטיים מערכות של ראיית מכונה ושל זיהוי פנים שמסוגלות לנתח את הכמות העצומה של תמונות מצולמות שנמצאות באינטרנט ושמועלות אליו בהמוניהן מדי יום – מה שמעורר שלל סוגיות אתיות ופוליטיות ומדגיש את הצורך במסגרת משפטית רחבה יותר שעדיין לא ממש נוצרה.30

כשחושבים על מערכות של ראיית מכונה כמכלול, נראה שהן הופכות את ה"איקונוספֵרה" הדיגיטלית הנוכחית לשדה עצום של כריית נתונים וניתוחם, שבו אפשר לאתר, לנתח, לתייג, לסווג, לאחסן, לאחזר ולעבד אובייקטים, מקומות, גופים, פנים, הבעות, מחוות ופעולות – וכן קולות וצלילים, באמצעות טכנולוגיות של האזנת מכונה – כנתונים שאפשר לגשת אליהם ולגייס אותם במהירות למגוון רחב של מטרות ופעולות: ממעקב ועד שיטור, משיווק ועד פרסום, מניטור של תהליכים תעשייתיים של ייצור והפצה ועד לתפעול כלי רכב אוטונומיים (מכוניות, רחפנים ורובוטים), מאבחון רפואי באמצעות ניתוח אוטומטי של דימות רפואי ועד למגוון של יישומים צבאיים.

  • 31. ראו למשל: Amanda Wasielewski, Computational Formalism: Art History and Machine Learning (MIT Press, 2023); Nuria Rodríguez-Ortega, "Image Processing and Computer Vision in the Field of Art History", in The Routledge Companion to Digital Humanities and Art History, ed. Kathryn Brown (Routledge, 2020), 338-357; Leonardo Impett, "Analyzing Gesture in Digital Art History", in The Routledge Companion, 386-407.
  • 32. ראו למשל: Lior Shamir et al., "Impressionism, Expressionism, Surrealism: Automated Recognition of Painters and Schools of Art", ACM Transactions on Applied Perception 7:2 (2010): 1-17; Sergey Karayev et al., "Recognizing Image Style" (2013), arXiv, https://arxiv.org/abs/1311.3715; and Ahmed Elgammal et al., "The Shape of Art History in the Eyes of the Machine" (2018), arXiv, https://arxiv.org/abs/1801.07729.
  • 33. בין החברות המציעות כרגע שירותי "אימות אמנות באמצעות AI" ראו למשל את החברה Art Recognition‏ (https://art-recognition.com).
  • 34. Rodríguez-Ortega, "Image Processing and Computer Vision", 339
  • 35. שם, 343-341. על תפקידה של הקרנת השקופיות הכפולה בתוך השדה הרחב יותר של "התבוננות משווה" (comparative looking) בהיסטוריוגרפיה של האמנות ראו: Zeynep Çelik Alexander, Kinaesthetic Knowing: Aesthetics, Epistemology, Modern Design (University of Chicago Press, 2017), ch. 2. על האופן שבו ההילוך האיטי והקפאת התמונה שינו את הצפייה בסרטים ואת הניתוח הקולנועי ראו לורה מאלווי, מוות 24 פעמים בשנייה: להקפיא את התמונה הנעה, תרגום: אילת אטינגר ואהד זהבי (עם עובד, 2018).

יישומים של ראיית מכונה נמצאים בשימוש כבר כמה שנים גם בתחומים שונים של מדעי הרוח: מתולדות האמנות ועד להיסטוריה של הצילום, של הקולנוע ושל המדיה האודיו־ויזואלית.31 באמצעות סריקת קורפוסים עצומים של תמונות סטילס ותמונות נעות הם מסוגלים לחפש לא רק גופים ואובייקטים אלא גם צבעים, טקסטורות, תצורות של אור וצל, דרגות של חדות וטשטוש, אחר כך תנועות, תנוחות, מחוות, פעולות והבעות פנים ולבסוף מוטיבים וסגנונות חוזרים.32 בניתוח של תמונות נעות הם עשויים לאתר גם סוגים שונים של שוֹטים כגון תקריב, שוט בינוני ושוט רחוק, תנועות מצלמה וטכניקות עריכה. גם המיומנויות המסורתיות של מומחי האמנות עוברות שינויים בעקבות הופעתן של צורות חדשות של "אימות אמנות באמצעות AI" שעשוי לסייע בייחוס ציור לאמן מסוים, בשחזור מועד יצירתו ובאיתור עותקים והעתקים.33

מנקודת המבט של האפיסטמולוגיה של תולדות האמנות ושל ניתוחי תמונה, יישומים אלה של ראיית מכונה – שמטרתם המוצהרת היא "לספק אובייקטיביות נוספת שנובעת מתהליכים כמותיים וחישוביים" – מעוררים סדרה שלמה של שאלות.34

כדי שיצירות אמנות יוכלו להיחקר באמצעות טכנולוגיות של ראיית מכונה, עליהן לעבור טרנספורמציה אונטולוגית. החומריות הקונקרטית שלהן, הטכניקות שלהן וממדיהן עוברים רדוקצייה ונעשים דימויים דיגיטליים, כלומר גרידים של פיקסלים שלכל אחד מהם סדרה ייחודית של קואורדינטות וערכים. צורות חזותיות דו־ממדיות או תלת־ממדיות עוברות הקטעה (סגמנטציה) ונעשות נתונים (כלומר ערכים מספריים שאלגוריתמים יכולים לחשב). המושג המורכב להפליא "סגנון" – יהא זה סגנונם של אמן יחיד, של תנועה אמנותית או של תקופה היסטורית – מנותק מן ההקשרים החברתיים־היסטוריים שלו ומסוגיות של טכניקה, חומריות ואופן ביצוע כדי שיהיה אפשר להעמידו על סדרה של תבניות חוזרות של פיקסלים שעשויות להיות למושא של דגם כלשהו של זיהוי תבניות חישובי. מה שהיה פעם ניתוח שצופה אנושי פיתח – גם אם לא אחת בסיוע כלים טכניים שונים כגון רפרודוקציות צילומיות, הקרנת שקופיות כפולה, תקריבים או הילוך איטי והקפאת תמונה במקרה של תמונות נעות – נעשה תהליך של ניתוח צורני שהראייה האנושית כבר אינה מרכזית בו ושמתמקד בפעולות אלגוריתמיות שנוטות להשמיט את "מה שאי אפשר עוד להעמידו על כימות ועל חישוב ומה שאי אפשר להסבירו במונחים כמותיים".35

מנקודת המבט של התאוריה וההיסטוריה של התמונות ושל הראייה, נקודת מפנה מכרעת בהתפתחות האחרונה של טכנולוגיות של ראיית המכונה היא העובדה שהן פועלות יותר ויותר בתוך מעגלים שמחברים מכונות ישירות למכונות אחרות ומתניעים סוגים שונים של פעולות בלי לחולל בהכרח תמונות שמוצגות על גבי מסכים ונגלות לעין האנושית. טכנולוגיות של ראיית מכונה עשויות לפעול על דימויים שמכונות יצרו למען מכונות אחרות – בלי שום מעורבות של העין האנושית (כמו במקרה של מצלמה שמנטרת פס ייצור ומפעילה התערבות טכנית כלשהי אם היא מזהה טעות) – או על דימויים שבני אדם יצרו למען בני אדם אחרים (כמו במקרה של תצלום שצולם ושותף ברשתות החברתיות כדי להזמין תגובות כגון לייקים, תיוגים ותגובות). במקרה השני, הטכנולוגיות של ראיית מכונה נותרות פעילות גם כאשר הדימויים נעשים בלתי נראים. תמונות שמועלות לאינטרנט עשויות להמשיך להזין מערכות אלגוריתמיות של איסוף נתונים וניתוח נתונים גם אחרי שחדלו להופיע על גבי מסכים (כפי שקורה לתמונה שמופיעה באתר ללא מבקרים או בפוסט ברשת חברתית שאיש אינו צופה בו עוד).

  • 36. על המושג "דימוי מכשירי" ראו את מאמרו של אלן סקולה: Allan Sekula, "The Instrumental Image: Steichen at War", Artforum 13:5 (1975): 36-45. על סקולה ראו גם: Marie Muracciole and Benjamin J. Young, eds., "Allan Sekula and the Traffic in Photographs", special issue, Grey Room 55 (2014).
  • 37. מתוך הטקסטים שבהם פארוקי דן במושג "דימויים פעולניים" ("operational images") ראו בייחוד: Harun Farocki, "Phantom Images", Public 29 (2004): 12-22; Harun Farocki, "Quereinfluss/Weiche Montage", New Filmkritik, 12 June 2002, https://newfilmkritik.de/archiv/2002-06/quereinflussweiche-montage. על פארוקי ודימויים פעולניים ראו: Christa Blümlinger, Harun Farocki, du cinéma au musée (P.O.L., 2022); Volker Pantenburg, "Working Images: Harun Farocki and the Operational Image", in Image Operations: Visual Media and Political Conflict, eds. Jens Eder and Charlotte Klonk (Manchester University Press, 2017), 49-62. על דימויים פעולניים (או "אופרטיביים") ראו גם:Aud Sissel Hoel, "Operative Images: Inroads to a New Paradigm of Media Theory", in Image – Action – Space, eds. Luisa Feiersinger, Kathrin Friedrich and Moritz Queisner (De Gruyter, 2018), 11-27; Jussi Parikka, Operational Images: From the Visual to the Invisual (University of Minnesota Press, 2023).
  • 38. Trevor Paglen, "Operational Images", e-flux Journal 59 (2014), https://www.e-flux.com/journal/59/61130/operational-images

עם התפשטותן של טכנולוגיות של למידה עמוקה, השדה הרחב של דימויים "מכשיריים" (אינסטרומנטליים) ושל דימויים "פעולניים" (אופרציונליים) עובר טרנספורמציה יסודית.36 בסדרה של טקסטים ושל מיצבי וידאו מראשית שנות האלפיים הגדיר הארון פארוקי דימויים פעולניים כ"דימויים ללא מטרה חברתית, שלא נועדו להעשרת הרוח או להתבוננות מעמיקה"; אלה הם דימויים ש"אינם מייצגים אובייקט, אלא הם חלק מפעולה".37 מיצבים כגון עין/מכונה 3-1 (Eye/Machine I-III, 2001-2003‏) מוזיקת־נגד (Counter Music, 2004)‏, משחק עמוק (Deep Play, 2007) ומשחקים רציניים 4-1 (Serious Games I–IV, 2009-2010) הציגו לצופה מבחר עצום של דימויים פעולניים שמופצים במגוון הקשרים טכניים, תעשייתיים, מדעיים, צבאיים ובידוריים. פארוקי שקד על איסוף הדימויים הללו – שבאותה עת עוד הופיעו על גבי מסכים – על ארגון מחודש שלהם ועל חשיפתם. כיום, כפי שפגלן מדגיש במאמר שכתב זמן קצר לאחר מותו של פארוקי, דימויים פעולניים יכולים להיות פעילים גם בלי שייראו.38 תפקידם באיסופם ובעיבודם של נתונים חזותיים נזקק פחות ופחות לניטור או לתיקוף של צופה אנושי.

להתפתחות זו יש השפעה ישירה על עצם המושגים "תמונה" (image) ו"ראייה" (vision). האם אפשר עוד להשתמש במונח "תמונה" לציון קובץ דיגיטלי שמקודד בפורמט תמונה כלשהו ושמכוֹנה יכולה לקרוא אותו גם כשהוא אינו נראה לעין אנוש או כשהוא נגלה לעין על מסך כתַבנית של פיקסלים רק לרגע קט, ובשארית הלא ידועה של ימי חייו מתגלגל ברשתות דיגיטליות בלתי נראות? לְמה נעשית ה"ראייה" כאשר תהליך הראייה הפסיכו־פיזיולוגי האנושי מוחלף במקרה של טכנולוגיות של ראיית מכונה בפעולות ממוכנות של זיהוי דפוסים ותיוג וכאשר אפשר להריץ את היישומים השונים של פעולות אלה על כמויות עצומות של דימויים דיגיטליים, ששום עין אנושית לא תוכל לראותם אי פעם במלואם? האם בעצם השימוש במונח "ראייה" בתוך המושג "ראיית מכונה" אנחנו משתמשים בטעות במונח מטפורי שראוי לזנוח אותו לטובת סדרה אחרת של מונחים טכניים שקשורים ממש לתחומי הלמידה העמוקה וניתוח הנתונים?

Trevor Paglen, Behold These Glorious Times!, 2017. Still from single-channel color video projection, stereo, 10 min.; original score by Holly Herndon. © Trevor Paglen. Courtesy of the artist, Jessica Silverman, and Pace Gallery.‎
  • 39. Andreas Broeckmann, "Optical Calculus" (הרצאה בכנס: "Images beyond Control" coference, FAMU, Prague, 6 November 2020, וידאו זמין בקישור: https://youtu.be/FnAgBbInMfA?si=_ShLz-IKctva8wj3&t=8783; Adrian MacKenzie and Anna Munster, "Platform Seeing: Image Ensembles and Their Invisualities", Theory, Culture and Society 36:5 (2019): 3-22; Fabian Offert and Peter Bell, "Perceptual Bias and Technical Metapictures: Critical Machine Vision as a Humanities Challenge", AI and Society 36:4 (2021): 1133-1144. אופרט ובל גם טוענים במאמרם ש"ראיית מכונה ביקורתית היא אתגר טרנס־דיסציפלינרי חשוב שממוקם בממשק של מדעי המחשב ולימודים חזותיים/Bildwissenschaft". על המושג "אל־חזותי" ("invisual") ראו גם: Parikka, Operational Images.
  • 40. לניסיון ראשון בכיוון הזה ראו: Antonio Somaini, "L'impact de l'intelligence artificielle sur la culture visuelle contemporaine", in Culture visuelle, 367-417. ראו גם: Joanna Zylinska, Nonhuman Photography (MIT Press, 2017).

כותבים כגון אנדראס ברֶקמן (עם המושג שלו "חשבון אופטי" שמוגדר כ"מנגנון חסר מחשבה ונטול בינה, חישוב שמבוסס על נתוני קלט שנגזרו מן האופטיקה והופשטו לכלל ערכים בני־חישוב שיכולים להיעשות לחלק מהליכים ומפעולות חישוביים"), אדריאן מקנזי ואנה מנסטר (המתארים את ראיית המכונה כצורה של "ראיית פלטפורמה" שמכוונת אל "הרכבי דימויים" עצומים באמצעות "חישה אל־חזותית" ופביאן אוֹפֶרְט ופיטר בל (המדגישים את הייחודיות של "טופולוגיית החישה" ה"לא אנושית במובהק" של מערכות של ראיית מכונה) טענו כולם כי שומה עלינו לנוע מעבר לתבניות מחשבה ומונחים אַנתרופוצנטריים והדגישו את ההבדלים הרדיקליים בין ראיית מכונה לראיית אנוש.39

עם זאת, לשימוש במונח "ראייה" בהקשר של ראיית מכונה יש ערך היריסטי והרמנויטי שאין להכחישו. למשל הוא מזמין אותנו למקם את הטכנולוגיות של ראיית המכונה בתוך ההיסטוריה ארוכת השנים של המדיה החזותית ששיפרה את הראייה האנושית, הרחיקה אותה מן המרכז או החליפה אותה לחלוטין באמצעים טכניים.40 השימוש במונח "ראייה" גם מדגיש את החשיבות שבניסיון להעניק לעיניים האנושיות המחשה חזותית של "החישה האל־חזותית" של טכנולוגיות של ראיית המכונה.

Trevor Paglen, Image Operations. Op. 10, 2018. Still from single-channel color video projection, 5.0 Dolby surround sound, 23 min. © Trevor Paglen. Courtesy of the artist, Jessica Silverman, and Pace Gallery.‎
  • 41. ראו למשל את התערוכה Training Humans באוצרותם של קייט קרופורד וטרבור פגלן שהוצגה ב־Osservatorio של Fondazione Prada במילאנו ב־2020-2019, https://www.fondazioneprada.org/project/training-humans/?lang=en.
  • 42. Trevor Paglen, "Invisible Images (Your Pictures Are Looking at You)", New Inquiry, 8 December 2016, https://thenewinquiry.com/invisible-images-your-pictures-are-looking-at-you. "לחדול לראות כמו בני אדם" הוא היעד שפגלן ניסה להשיג בסדרה של עבודות שבוצעו מ־2017 עד 2019. מיצבים גדולים כגון "מתפוח לקלפטומן (תמונות ומילים)" (From Apple to Kleptomaniac [Pictures and Words], 2019) ו"מ'תפוח' ל'אנומליה' (תמונות ותוויות)" (From "Apple" to "Anomaly" [Pictures and Labels], 2019) מציגים בחלל המחשה חזותית של הקשרים בין מילים לדימויים במערך הנתונים של ImageNet. "היטו שמכוֹנה יכולה לקרוא" (Machine-Readable Hito, 2017) ו"'פנון' (אפילו המתים אינם מוגנים)" ("Fanon" (Even the Dead Are Not Safe), 2017), חלק מתוך תערוכה מאותה שנה שכותרתה "מחקר בדימויים בלתי נראים" (A Study of Invisible Images), ממחישים המחשה חזותית את דרך פעולתן של מערכות לזיהוי רגשות ופנים כשהן שולחות ידיהן גם לשדה הדימויים ההיסטוריים. את העובדה ש"החישה העכשווית היא מכונתית במידה רבה" כי "מידע מועבר כסדרה של אותות שחושי האדם אינם מסוגלים לקלוט" מדגישה גם היטו שטיירל במאמרה: Hito Steyerl, "A Sea of Data: Apophenia and Pattern (Mis-)Recognition", e-flux 72 (2016), https://www.e-flux.com/journal/72/60480/a-sea-of-data-apophenia-and-pattern-mis-recognition.
  • 43. פסקול עבודת הווידאו שיצרה הולי הרנדון (Herndon) משתמש בדגימות של רעשים וקולות שיוצרו כדי ללמד מערכות של האזנת מכונה לזהות דיבור ותופעות אקוסטיות אחרות.
  • 44. נוכח ההשלכות, המגבלות והאפשרויות הטמונות בטכנולוגיות של ראיית מכונה, אמנים אחרים וקבוצות אחרות בחרו באסטרטגיות שונות, כגון השתלטות על טכנולוגיות של ראיית מכונה במטרה לאמן אותן מחדש באמצעות מערכי נתונים חדשים ולכוון אותן ליעדים חדשים. ראו למשל את עבודתה של הקבוצה "ארכיטקטורה פורנזית" (Forensic Architecture) "טריפל צ'ייסר (Triple Chaser, 2019), https://forensic-architecture.org/investigation/triple-chaser, ואת עבודתו של פאולו ציריו (Cirio) "לכידה" (Capture, 2019), https://paolocirio.net/work/capture.

כמה מן הניסיונות המעניינים ביותר בכיוון זה אפשר למצוא בעבודות הווידאו של פגלן, בתערוכותיו ובכתביו (לעיתים קרובות בשיתוף פעולה עם קרופורד).41 בטקסט שכותרתו "דימויים בלתי נראים (התמונות שלכם מביטות בכם)" פגלן מתאר נוף חדש שבו "מכונות יוצרות דימויים למען מכונות אחרות, כמעט בלי שום מעורבות אנושית", ומסיק את המסקנה הבאה: "אם ברצוננו להבין את העולם הבלתי נראה של התרבות החזותית המתקיימת בין מכונות, עלינו ללמוד לחדול לראות כבני אדם. עלינו ללמוד לראות יקום מקביל שמורכב משִׁפְעוּלִים, נקודות מפתח [keypoints], פָּנים עצמיות [eigenfaces], התמרות מאפיינים [feature transforms], מְסַווגים [classifiers], ערכות אימון וכיוצא בזה".42

עבודת וידאו כגון "ראו איזו תקופה נהדרת!" (Behold These Glorious Times!, 2017) מאגדת באמצעות עריכה מהירה והקרנה דמוית גריד אלפי דימויים שמקורם בערכות אימון שונות של ראיית מכונה ומראה כי במקרים מסוימים היו בני האדם עצמם צריכים לעבור אימון כדי להציג מול המצלמה הבעות פנים ותנוחות גוף שנועדו לשמש לאימון אלגוריתמים.43 עבודת וידאו אחרת, שכותרתה "אופרציות של דימוי. אופ' 10" (Image Operations. Op. 10, 2017) מדגישה את ההבדל העצום בין תפיסה חושית אנושית ובין ראיית מכונה. נוכח הופעה של רביעיית מיתרים, מערכת ראיית המכונה – שהקול אינו קיים לדידה – מתמקדת בפנים, בהבעות ובמחוות של המוזיקאים ומנסה לזהות את גילם, את רגשותיהם ואת החפצים שבידיהם. דימויים אחרים מאותה עבודה מנסים להמחיש מבחינה חזותית מה שרשת עצבית מתקפלת "רואה" – כלומר כיצד היא מתחילה לנתח בתוך דימוי נתון מאפיינים פשוטים לפני שהיא עוברת בהדרגה למאפיינים מורכבים יותר.44

תמונות מתוך תמונות: המחשות חזותיות של מרחב לטנטי

  • 45. לדיון באפשרות לחשוב על התמונות הללו כאילו היו חלק מהיסטוריה ארוכה יותר של "תמונות מרוכבות" ראו: "Disréalismes: Une conversation entre Grégory Chatonsky, Christian Joschke, et Antonio Somaini", in "Images composites", special issue, Transbordeur 7 (2023): 98-109.

האפשרות להשתמש באלגוריתמים של למידה עמוקה כדי לחולל תמונות – ולא כדי לנתח ולסווג אותם – זכתה להבלטה ב־2014 וב־2015 עם הצגתם של שני אלגוריתמים שהתמונות שהם יצרו נפוצו במהירות ברחבי האינטרנט. בשני המקרים, התמונות החדשות שהאלגוריתמים הללו יצרו קשורות בקשר הדוק לתמונות הכלולות במערכי הנתונים ששימשו לאימונם. מסיבה זו אפשר לראות בהן תמונות מתוך תמונות, כלומר תמונות שהופקו באמצעות עיבוד אלגוריתמי של כמויות עצומות של תמונות אחרות.45

הראשון משני האלגוריתמים, הנקרא DeepDream, פותח ב־2015 בידי מהנדסי גוגל אלכסנדר מורדבינצב, כריסטופר אולה ומייק טייקה על בסיס ארכיטקטורה של רשת עצבית מתקפלת עמוקה בשם GoogLeNet (המוכרת גם בשם Inception) שהוצגה בתחרות של ImageNet לזיהוי חזותי בקנה מידה גדול (Large Scale Visual Recognition Challenge) ב־2014.‏46 השם "Inception" נובע הן מסרט המדע הבדיוני של כריסטופר נולאן מ־2010 ("התחלה") – שבו הגיבורים חודרים לשכבות השונות בתת־מודע של המטרות שלהם כדי לשתול או לחלץ מידע – הן ממאמר מ־2014 שכותרתו "רשת בתוך רשת" שבוחן את ההשלכות של הטמעת מבנים פנימיים מורכבים בתוך רשתות.47

האלגוריתם DeepDream המשמש למציאה של פנים ודפוסים אחרים בתמונות ולהעצמה שלהם הוא למעשה רשת עצבית מתקפלת שמופעלת במובן מסוים בסדר הפוך. במקום להתחיל בקלט – כלומר בתמונה שניתנת לרשת כדי שתנתח ותסווג אותה על בסיס התמונות שעליהן היא אומנה – מתחילים בקצה השני, בפלט. לאחר שבוחרים פלט רצוי – למשל תמונת פָּנים של בעל חיים – מכווננים את הפרמטרים של הרשת העצבית כדי לאלץ אותה לשפעל את הנירונים המלאכותיים המזהים את המאפיינים השונים של פניו של בעל החיים. אם מייצרים המחשה חזותית של תוצאות הכוונונים והשפעולים הללו, רואים בתמונה הראשונית (למשל תמונה של מדוזה) את המאפיינים המבוקשים, גם אם הם לא הופיעו בתמונה כלל. אם חוזרים על התהליך הזה מספיק פעמים, המאפיינים הללו מתחילים להשתכפל ולהיעשות גלויים לעין יותר ויותר.

מימין: תמונה של מדוזה; משמאל: אותה תמונה אחרי ביצוע כמה איטרציות של DeepDream.
  • 48. לאחר הצגת האלגוריתם DeepDream החלו אלכסנדר מורדבינצב ומייק טייקה להשתמש בו כדי לחולל סדרה של עבודות שאפשר למצוא באתרי האינטרנט שלהם. לעבודותיו של אלכסנדר מורדבינצב ראו: https://znah.net; לעבודותיו של מייק טייקה ראו: https://www.miketyka.com.

חלופה אחרת להכתבה המדויקת של המאפיין שמעוניינים שהרשת תעצים היא לתת לרשת להחליט בעצמה על בסיס האופן שבו היא אומנה. לאחר קבלת תמונה, הרשת מתחילה לנתח אותה: היא מתחילה במאפיינים פשוטים ועוברת בהדרגה דרך השכבות השונות של הרשת העצבית המתקפלת למאפיינים מורכבים יותר. אם בוחרים שכבה מסוימת ומבקשים מן הרשת להעצים את מה שהיא זיהתה, חלק ממאפייני התמונה – אלה שקשורים לתמונות הקיימות בערכת האימון – ייעשו גלויים יותר לעין. אם חוזרים על הפעולה, המאפיינים הללו יתחילו להתרבות ברחבי התמונה.48

  • 49. המונח "מטא־תמונות טכניות, המתייחס למושג "מטא־תמונה" של מיטשל, מופיע במאמר: Offert and Bell, "Perceptual Bias and Technical Metapictures". ראו גם: W.J.T. Mitchell, Picture Theory (University of Chicago Press, 1994), 35-82.
  • 50. ראו: "Steyerl, "A Sea of Data.

התמונות שחולל DeepDream נוצרו תחילה כ"מטא־תמונות טכניות" שנועדו להבנה טובה יותר של המבנה של רשתות עצביות מתקפלות ושל הקשרים בין דפוסים בתמונה לשפעולים בנירונים, אולם ברגע שהאלגוריתם הופץ כקוד פתוח, הן התחילו להתפשט במהירות ברחבי האינטרנט ולהפוך את השאלה אם יכולה להיות ל"בינה מלאכותית" כלשהי "יצירתיות" חזותית לשאלה פופולרית.49 בשל איכויותיהן ההזייתיות עקב העיבוד והפרשנות המופרזים הן נתפסו כדוגמה ל"פָּרָאִידוֹלְיָה": התחושה שתבנית מסוימת (למשל צורה של בעל חיים, פנים או חפץ) צצה מתוך גירוי חזותי מורכב ומבולבל כגון כתם דיו או ענן. במאמרה של היטו שטיירל "ים של נתונים: אפופניה ו(אי־)זיהוי דפוסים", שטיירל רואה בתמונות הללו "דוגמה חזותית מרהיבה לאפופניה צרופה ומודעת" – כלומר לחיפוש מוגבר אחר דפוסים בתוך נתונים אקראיים שמוביל בהכרח לצורה של "זיהוי־יתר של דפוסים" ובדרך זו "חושף את האופרציות הרשתיות של יצירת התמונות החישובית, מאבני היסוד של ראיית מכונה, ואת האידאולוגיות וההעדפות הזורמות בעורקיה".50

  • 51. ראו למשל: Hubert Damisch, A Theory of /Cloud/: Toward a History of Painting, trans. Janet Lloyd (Stanford University Press, 2002); Dario Gamboni, Potential Images: Ambiguity and Indeterminacy in Modern Art (Reaktion Books, 2004). תערוכה שעסקה בשאלת ה"תמונות שחבויות בתוך תמונות" היא התערוכה Une image peut en cacher une autre: Arcimboldo, Dalí, Raetz ("תמונה יכולה להסוות תמונה אחרת: ארצ'ימבולדו, דאלי, רץ"), אוצרים: ז'אן־אובר מרטן (Martin) ודריו גמבוני בגראן פאלה שבפריז ב־2009 (קטלוג תערוכה באותו שם ראה אור בהוצאת Réunion des musées nationaux ב־2009).
  • 52. ליצירתו של רפיק אנדול ראו: https://refikanadol.com.

מנקודת המבט של תולדות האמנות אפשר לבחון את התמונות של DeepDream בזיקה למסורת ארוכת שנים של "תמונות שחבויות בתוך תמונות", כגון דמויות בעננים.51 בשנים שלאחר מכן תרמו תמונות ה־DeepDream, הודות לדמיון צורני שטחי למדי למסורות של דימויים סוריאליסטיים ופסיכדליים, לנטייה הרווחת לראות בתמונות שאלגוריתמים של למידה עמוקה מחוללים מעין "חלום" או "הזיה" של ה"מכונה" שחושפים, אפשר לומר, את "מצבי התודעה המשתנים" של הבינה המלאכותית עצמה. התייחסויות לרעיון זה אפשר למצוא גם בכותרותיהן של יצירות אמנות שונות בתכלית כגון "הזיות שנולדו מתוך יריבוּת" (Adversarially Evolved Hallucinations, 2017) של פגלן ו"ללא הנחיה: הזיות מכונה" (Unsupervised: Machine Hallucinations, 2021) ו"חלומות רנסנס" (Renaissance Dreams, 2021) של רפיק אָנָדוֹל.52

אולם הרעיון בדבר "הזיית מכונה" אינו מתמצה בעולמן של יצירות אמנות שמשתמשות בדימויים שחוללה בינה מלאכותית. אף שמדובר במטפורה מובהקת, הזיה היא גם מונח טכני בשפת הלמידה העמוקה. הזיה (או הלוצינציה) היא מצב שבו אלגוריתם של למידה עמוקה מספק בביטחון גמור תשובה שאין לה הצדקה בנתוני האימון שלו. רשת עצבית מתקפלת שאומנה לזהות חתולים בתמונות ואז מזהה בטעות כלב כחתול היא אלגוריתם ש"הוזה". צ'אטבוט שנותן תשובות שמכילות עובדות מומצאות או מקורות מומצאים – גם הוא "הוזה". כפי שקורה במקרים רבים אחרים, תהליכים מתמטיים מורכבים ולא אינטואיטיביים שקשורים לאלגוריתמים של למידה עמוקה מתוארים באמצעות מונחים מטפוריים ואנתרופומורפיים שהופכים אותם בדרך כלשהי לניתנים לתפיסה ובכך משפיעים על קבלתן התרבותית והפוליטית של טכנולוגיות שחודרות יותר ויותר לחיינו ומתויגות כ"בינה מלאכותית".

  • 53. ראו: Ian Goodfellow et al., "Generative Adversarial Nets", in Advances in Neural Information Processing Systems 27, ed. Z. Ghahramani et al. (NeurIPS, 2014), 2672-2680.

אלגוריתמים של למידה עמוקה מסוג שני שהתחילו להשתמש בהם באמצע העשור השני של המאה העשרים ואחת כדי לחולל ולשנות דימויים, ולא כדי לסווג אותם, הם הרשתות היריבניות הגנרטיביות (GAN). המבנה שלהן, שהוצג לראשונה ב־2014, מורכב משתי רשתות עצביות רב־שכבתיות – המכוּנוֹת "מחולל" ("Generator") ו"מבחין" ("Discriminator") – שמתחרות זו בזו ב"משחק סכום אפס", שבו הרווח של רשת אחת הוא ההפסד של האחרת וסכום הרווחים וההפסדים הוא תמיד אפס.53

המשחק מתנהל כך: לאחר שה"מבחין" (שהוא רשת עצבית מתקפלת) אומן לסווג את הדימויים של ערכת אימון ראשונית נתונה, ה"מחולל" (הלוא הוא הרשת השנייה) מתחיל ליצור דימויים, והוא מגיש אותם למבחין. המבחין מסווג את הדימויים החדשים על בסיס מה שלמד מעֶרכת האימון ונותן לכל דימוי שהוגש לו מענה מספרי שנע בין 0 (שפירושו "לא", כלומר הדימוי שיצר המחולל אינו שייך לערכת האימון הראשונית – הוא "כוזב", "false") ל־1 (שפירושו "כן", הדימוי שייך לערכת האימון – הוא "אמיתי", "true"). ככל שהמענה המספרי קרוב יותר ל־1, הדימויים שיצר המחולל דומים יותר לאלה שבערכת האימון; ככל שהמענה המספרי קרוב יותר ל־0, הם דומים פחות; ובין 1 ל־0 קיימות דרגות שונות של אי־ודאות.

בתחילת התהליך ניתן למחולל מרחב לטנטי, שדימויים שובצו בו על בסיס סדרה של פרמטרים. אם למשל הדימויים הם תצלומים של ציפורים, השיבוץ עשוי להתבסס על פרמטרים שמתייחסים לצורות השונות שיכולות להיות לציפורים בתנוחות שונות, לצבעיהן השונים וכן הלאה. מתוך המרחב הלטנטי הראשוני הזה, המחולל פותח ביצירת דימויים שנראים כמו רעש אקראי – כלומר תצורות אקראיות של פיקסלים. אחר כך, על בסיס התשובות המתקבלות מן המבחין, המחולל לומד כיצד לכוונן את הפרמטרים שלו עצמו כדי לחולל מתוך המרחב הלטנטי דימויים חדשים שנראים יותר ויותר כמו תמונות של ציפורים.

החילופים הללו מתרחשים בתהליך שדומה לתחרות ממשית בין "יריבים". המבחין מנצח במשחק אם הוא נעשה מסוגל לקבוע נכונה אם הדימויים שיצר המחולל זהים לדימויים שבערכת האימון הראשונית או לא. המחולל מנצח אם הוא נעשה מסוגל לחולל דימויים ש"מוליכים שולל" את המבחין וגורמים לו לסווג סיווגים שגויים.

  • 54. Michael Castelle, "The Social Lives of Generative Adversarial Networks", in FAT* '20: Proceedings of the Conference on Fairness, Accountability, and Transparency (Association for Computing Machinery, 2020), https://doi.org/10.1145/3351095.3373156

תהליך הלמידה של רשתות יריבניות הוא אפוא אינטראקטיבי ויחסי, ובמידה מסוימת אפילו "חברתי", כי הוא מערב שני "סוכנים" או "גורמים פעילים" (שני אלגוריתמים) שנמצאים בתחרות זה עם זה ומגיבים זה על פעולותיו של זה.54 תפקודן מבוסס על מבנה כפול ותחרותי, ומהירות הלמידה תלויה במספר החילופים בין המחולל למבחין. בבסיסן נמצא תהליך של אינדוקצייה סטטיסטית, שבאמצעותו המחולל לומד לייצר דימויים שדפוסי הפיקסלים שלהם דומים יותר ויותר לדפוסי הפיסקלים בערכת האימון. אולם הדימויים החדשים הללו אינם "חיקויים" או "העתקים" של "מקור" בשום מובן מסורתי של המילה, שכן למחולל אין גישה ישירה לדימויים שבערכת האימון: הוא מקבל רק את תשובות המבחין, המנוסחות כ"כן" או "לא" במונחים מספריים ועם ערכים שונים של אחוזים.

רשת יריבנית גנרטיבית (GAN).
  • 55. אני מודה לאמילי ק' סונדה על השיחות שניהלנו בנושא זה. היא הציגה את הרעיון שלפיו כל הדימויים שמרחב לטנטי מחולל הן "אטלס" אפשרי של חלל כזה במאמר שהוצג בכנס ולא פורסם: Emilie K. Sunde, "Latent Reality: The Shifting Ground-Truth of Photography", Expanded Visualities: Photography and Emerging Technologies, 6th International Conference of Photography and Theory, 17-19 November 2022, Nicosia, Cyprus.

בתהליך האימון של רשת יריבנית, האלגוריתם מכוונן את הפרמטרים שלו עצמו כדי לחולל מתוך המרחב הלטנטי סוגים שונים של דימויים. מרחב לטנטי שמשמש ליצירת דימויים הוא מרחב רב־ממדי, שכל נקודה בו – על שלל הקואורדינטות שלה המתוארות באמצעות וקטור – יכולה לקבל המחשה חזותית בדימוי. הדימויים התואמים את כל הנקודות בתוך המרחב הלטנטי מרכיבים בכללותם את כל ההמחשות החזותיות האפשריות של אותו מרחב. אפשר לראות בכל הדימויים הללו מעין קרטוגרפיה שלמה או אטלס של המרחב הלטנטי – המפה המלאה של כל הדימויים שרשת יריבנית מסוימת שאומנה דרך אינטראקציות עם מבחין ספציפי מסוגלת לחולל.55

התוכן והתכונות הצורניות של דימוי שחוללה רשת יריבנית תלויים במיקומה – בתוך המרחב הלטנטי – של הנקודה שהדימוי ממחיש. נקודות שקרובות זו לזו במרחב הלטנטי מחוללות דימויים שדומים זה לזה; נקודות שמרוחקות זו מזו מחוללות דימויים שונים.

לעומת זאת, ההמחשה החזותית של הקשרים בין נקודות (קשר כזה מכונה גם "בִּיּוּן" או "אִינְטֶרְפּוֹלַצְיָה") נעשית באמצעות תמונות נעות. מה שנראה במקרה כזה הוא מסלול (trajectory) בתוך המרחב הלטנטי: שינוי צורה (מוֹרפִינג) הדרגתי מן הדימוי התואם את נקודת המוצא של המסלול אל הדימוי התואם את הנקודה שבה הוא מסתיים. אם המסלול מחבר בין נקודות שקרובות זו לזו במרחב הלטנטי, התמונות הנעות ייראו כשינוי צורה עדין והדרגתי. אם לעומת זאת המסלול מחבר בין נקודות מרוחקות, המעברים יהיו מהירים ופתאומיים יותר.

לתמונות נעות שנוצרו בידי רשתות יריבניות יש מאפיינים ייחודיים משלהן, ועם זאת מפתה לנתח אותן באמצעות מושגים שנגזרים מתאוריות של מדיה חזותית שמבוססת על ממד הזמן כגון הקולנוע והווידאו. המושג מונטאז' למשל – על ההיסטוריה המורכבת שלו, על ביטוייו השונים ועל הרעיונות בדבר "המשכיות", "אי־המשכיות", "קונפליקט", "מתח", "מרחק" ו"אינטרוול" האצורים בו – עשוי לשמש לניתוח של תמונות נעות שממחישות אינטרפולציות בתוך המרחב הלטנטי. מעברים חלקים בין דימויים שממחישים נקודות שקרובות זו לזו במרחב הלטנטי עשויים להיחשב לצורה של מונטאז' שמדגישה המשכיות, ואילו מעברים פתאומיים שמחברים בין נקודות שמרוחקות זו מזו במרחב הלטנטי מציגים צורות של אי‌־המשכיות, של קונפליקט ושל מתח בין הדימויים.

זה כמה שנים משתמשים ברשתות יריבניות גנרטיביות הן כדי לשנות דימויים קיימים באמצעות סדרה של פעולות הן כדי לחולל דימויים חדשים לחלוטין.

  • 56. על "דיפ־פייק" ראו: Graham Meikle, Deepfakes (Polity, 2022).

השימוש ברשתות יריבניות כדי לשנות דימויים קיימים כולל סוגים שונים של מה שמכונה "תרגום דימוי לדימוי": תרגום של תצלומי לוויין למפות גוגל, של תצלומים מיום ללילה, של תצלומי שחור־לבן לצבע וכן הלאה. חלק מן התרגומים הללו יוצרים את הרושם שהם מעבירים דימוי ממדיום אחד למשנהו (למשל מרישום לציור או לתצלום), בעוד אחרים יוצרים את הרושם שהם מעבירים דימוי מסגנון אחד (של אמן או אמנית מסוימים, של תנועה אמנותית או של תקופה היסטורית) לסגנון אחר באמצעות פעולה שמכונה "העברת סגנון" ("style transfer"). יישומים אחרים של רשתות יריבניות כוללים: שינוי תצלומי פָּנים כדי להראות כיצד מראהו של אדם עשוי להשתנות עם הגיל; הנפשה של תמונות סטילס (למשל תצלום של אדם שהלך לעולמו); החלפת פנים בזמן אמת (הלבשת פנים של אדם אחד על גוף של אדם אחר) והזזת פנים (לזיוף הבעות הפנים) כפי שנעשה בסרטוני "דיפ־פייק"; תיקון תמונה נתונה בתהליך של "השלמה פְּנים־תמונתית" ("inpainting") שמשלים או ממלא חלקים פגומים, בלויים או חסרים; שיבוץ דימויים בתוך דימויים אחרים, ולחלופין העלמת דמות או אובייקט מדימוי בלי להותיר עקבות גלויים; הרחבת תמונה מעבר למסגרת המקורית שלה בתהליך שמכונה "השלמה חוץ־תמונתית" ("outpainting"); בחירת פריים מתוך סרטון וחיזוי הפריים הבא; ושדרוג של כל סרטון נתון באמצעות הגדלת קצב הפריימים והרזולוציה שלו עד ל"רזולוציית־על", כביכול.56

דוגמה מובהקת ליישום האחרון שהולכת ומתפשטת היום ברחבי האינטרנט ועשויה בסופו של דבר לשנות עד מאוד את חוויית הצפייה שלנו במסמכים חזותיים מן העבר היא הגרסאות המשודרגות לסרטיהם של האחים לומייר, כגון "רכבת נכנסת לתחנה" (L'arrivée d'un train en gare de La Ciotat, 1896), שבהן הסרט מועבר מקצב מקורי של שישה־עשר פריימים בשנייה לקצב גבוה של שישים פריימים בשנייה, מן הפורמט 1.33:1 המקורי לפורמט 16:9 העכשווי (באמצעות חיתוך) ומן הסרט האנלוגי 35 מ"מ המגורען המקורי לרזולוציה הדיגיטלית 4K.

בכל פעולות הדימוי הללו הנעשות בידי רשתות יריבניות – תרגום, מידול, הצערה, הזקנה, הנפשה, סימולציה, העברה, השלמה פנים־תמונתית, השלמה חוץ־תמונתית, חיזוי ושדרוג – הדימויים החדשים הנוצרים הם "תמונות מתוך תמונות": תמונות שנובעות מעיבוד הכמויות הרבות של תמונות הכלולות בערכות האימון. בשדרוג הגרסה הדיגיטלית של סרט של האחים לומייר למשל הרשתות היריבניות מוסיפות לדימויים הראשוניים סדרה של פיקסלים שנובעים – דרך שכבות רבות של תיווך אלגוריתמי – מדימויים רבים אחרים של רכבות אחרות שנכנסות לתחנות אחרות. הסרט החדש והמשודרג של לומייר יורש וסופג לתוכו במידת מה את כל הדימויים הללו, ודבר זה משנה מן היסוד את מעמדו בממד הזמן. הווידאו המשודרג, הנראה כאילו צולם לא במצלמת לומייר אלא במצלמה דיגיטלית חדישה בהרבה, הוא אובייקט של זמן כלאיים שמשובצים בו פיקסלים שהם עקבותיהן החזותיות של שכבות זמן שונות.

השימוש ברשתות יריבניות כדי לחולל דימויים חדשים, להבדיל מן השימוש בהם כדי לשנות דימויים קיימים, השתנה במהירות במרוצת השנים. בתחילה גויסו רשתות יריבניות ליצירת דימויים שדומים (אך אינם זהים) לדימויים שבמערך נתונים נתון. במאמר מ־2014 השתמשו איאן גוּדפֵלוֹ ועמיתיו ברשתות יריבניות כדי לחולל סְפָרוֹת בכתב יד, פנים חדשות ואובייקטים חדשים שהיו דומים לַסְּפָרוֹת בכתב יד שבמערך הנתונים MNIST, לפנים שבמערך נתוני הפנים של טורונטו ולאובייקטים הקטנים שבמערך הנתונים CIFAR-10, בהתאמה. השאיפה הייתה להגדיל את כמות התמונות שאפשר להשתמש בהן לצורך אימון של מערכות לזיהוי תמונה.

  • 57. הפרויקט "האדם הזה אינו קיים" מוצג באתר אינטרנט שיצר ב־2019 פיליפ ואנג באמצעות StyleGAN, רשת יריבנית גנרטיבית שהציגו חוקרים מחברת Nvidia בשנים 2019-2018. בכל פעם שמרעננים את הדף, האלגוריתם יוצר המחשה חזותית של דיוקן היפר־ריאליסטי של אדם שאינו קיים. ראו: https://thispersondoesnotexist.com. אל הפרויקט DoppelGANger.agency אפשר לגשת דרך האתר הזה: http://doppelganger.agency:3000.
  • 58. על השפעת הבינה המלאכותית על הצילום ראו: Milo Keller, Claus Gunti and Florian Amoser, eds., Automated Photography (ECAL/University of Art and Design Lausanne; Mörel Books, 2021).

אך זמן קצר לאחר מכן החלו להשתמש ברשתות יריבניות כדי לחולל דימויים שלא היו בהכרח דומים מאוד לדימויים שבמערך הנתונים ששימש לְאימון המבחין. במקרים אלה היו הדימויים שחוללו הרשתות היריבניות עשויים להיות "פוטו־ריאליסטיים" מאוד, היברידיים או מופשטים לחלוטין – הדבר היה תלוי בהרכבן של ערכות האימון, בסוג של תרגום הדימוי שננקט ובנקודות במרחב הלטנטי שזכו להמחשה חזותית. פרויקטים כגון "האדם הזה אינו קיים" (This Person Does Not Exist, Philip Wang, 2019) או "דופלגאנגר" (DoppelGANger.agency, Mitra Azar, 2019) משכו תשומת לב רבה כשהושקו, שכן הם הבליטו את יכולתן של גרסאות חדשות של רשתות יריבניות גנרטיביות (כגון StyleGAN ו־StyleGAN2 שהוצגו בתקשורת כ"בינה מלאכותית", כמו גם DeepDream) לחולל דימויים פוטו־ריאליסטיים ביותר של פני אנשים שאינם קיימים.57 טבעם הפוטו־ריאליסטי של דימויים אלה – שמהר מאוד החלו לשמש בפרסום וליצירת פרופילים מזויפים ברשתות החברתיות – עורר שאלות על האופן שבו עלינו להבין את השפעת הדימויים שחוללה בינה מלאכותית על עצם המושג "צילום" ועל סדרה של מושגים שנהוג לקשר אליו כגון "אינדקס" ו"רפרנט".58 מה בדיוק מייצגות התמונות הריאליסטיות ביותר האלה של אנשים שאינם קיימים? האם יש להן רפרנט? ואם כן, היכן הוא ממוקם? כיצד עלינו להסביר את הצורה הייחודית של הפוטו־ריאליזם שלהן?

כדי שנוכל להשיב על שאלות אלה עלינו לזכור שרשתות יריבניות מחוללות דימויים מתוך מרחב לטנטי שהן למדו לחקור באמצעות אינטראקציות עם מבחין שאומן בעזרת מערך נתונים ספציפי. במקרה של הדימויים באתר "האדם הזה אינו קיים", מערך הנתונים הורכב מתצלומים אמיתיים של אנשים אמיתיים, ופירושו של דבר הוא שה"פוטו־ריאליזם" של התמונות שחוללה הרשת מבוסס על שכבות שונות של רפרנציאליות (או הוראה).

ראשית, ה"דיוקנאות" הצילומיים הללו של אנשים שאינם קיימים מורים – דרך שכבות מרובות של תיווך אלגוריתמי – על תצלומים של פנים אמיתיות שהיו חלק מערכת האימון; ותצלומים אלה מורים בתורם על הפנים הממשיות של האנשים הממשיים שצולמו. שנית, ה"דיוקנאות" הללו מורים על קטגוריות ששימשו לתיוגם בתוך מערכי נתונים דוגמת ImageNet. לבסוף, כפי שקורה בכל הדימויים שנוצרו בידי רשתות יריבניות, הם מורים גם על הנקודות הספציפיות בתוך המרחב הלטנטי שהרשתות למדו לחקור בזמן האימון שלהן ושהם מעניקים להן המחשה חזותית. סוגים שונים של "רפרנטים" או "מושאי הוראה" נוכחים אפוא בכל אחת מן השכבות הללו.

את היחסים בין המושג "צילום" ובין הדימויים שנוצרו בידי רשתות יריבניות אפשר לנתח גם מנקודת מבט אחרת. האמן והמתכנת מריו קלינגמן מציע שנתייחס לדימויים הללו כאל צורה של "צילום־עצבי ללא מצלמה", כלומר כאל תצלומים או אפילו "תצלומי חטף" שממסגרים אזורים שונים של המרחב הלטנטי, "מצלמים" אותם ומציגים אותם לעין.59 אָנָדוֹל מציג רעיון דומה: בהערה על עבודתו עם רשתות יריבניות גנרטיביות במיצבי וידאו כגון "ללא הנחיה – הזיות מכונה – המוזיאון לאמנות מודרנית" (UnsupervisedMachine Hallucinations – MoMA, 2022), הוא מדבר על הרגעים באימונו של אלגוריתם המכונים "נקודות ביקורת" ("checkpoints"), שבהם נוצרת ההזדמנות "לראות מה המכונה לומדת ולצלם תצלומי חטף".60

  • 61. למבט רחב יותר על אמנים שמשתמשים ברשתות יריבניות גנרטיביות ובאלגוריתמים אחרים של למידה עמוקה ראו:Arthur I. Miller, The Artist in the Machine: The World of AI-Powered Creativity (MIT Press, 2020); Joanna Zylinska, AI Art: Machine Visions and Warped Dreams (Open Humanities Press, 2020); Ruggero Eugeni, Capitale algoritmico: Cinque dispositivi postmediali (più uno), ch. 5; Lev Manovich and Emanuele Arielli, Artificial Aesthetics: A Critical Guide to AI, Media and Design (2021-2023) [Artificial Aesthetics: Generative AI, Art and Visual Media (2021-2024)], http://manovich.net/index.php/projects/artificial-aesthetics. עם האמנים העובדים עם רשתות יריבניות גנרטיביות נמנים אנדול, נורה אל־בדרי (Al-Badri), קלינגמן, איגור קראפט (Kraft) וכריסטופר קולנדרן תומס (Kulendran Thomas).
  • 62. דוגמאות אחרות כוללות את: Comet (Corpus: Omens and Portents), Venus Flytrap (Corpus: American Predators), Vampire (Corpus: Monsters of Capitalism). על הסדרה "הזיות שנולדו מתוך יריבות" ראו: Luke Skrebowski, "Resistance at a Moment of Danger: On Trevor Paglen's Recent Work", in John P. Jacob and Luke Skrebowski, Trevor Paglen: Sites Unseen (Smithsonian American Art Museum, 2018), 128-186; Lila Lee-Morrison, Portraits of Automated Facial Recognition: On Machinic Ways of Seeing the Face (Transcript, 2019), ch. 8

בשדה האמנות העכשווית, דימויים שנוצרו בידי סוגים שונים של רשתות יריבניות מופיעים בדרכים מעניינות במיוחד בעבודותיהם של אמנים כגון פגלן (Adversarially Evolved Hallucinations, 2017), פייר ויג (UUmwelt, 2018), שטיירל (Power Plants, 2018; This Is the Future, 2019; SocialSim, 2020; Animal Spirits, 2022) וגרגורי שאטונסקי (Second Earth, 2019; I Will Resemble What You Have Been, 2020; Complétion 1.0, 2021). ברוב המקרים, האמנים האלה בוחרים להשתמש ברשתות הללו לא כדי לחולל דימויים פוטו־ריאליסטיים אלא כדי להציג המחשה חזותית של אזורים במרחב הלטנטי שבהם הדימויים נראים מטושטשים, היברידיים ועם תוצרי לוואי דיגיטליים שונים, כמו כדי להדגיש הן את האחרות הרדיקלית של הדימויים – התחושה שאנו צופים במשהו שמעולם לא ראינו קודם – הן את העקבות העמומות והמטמורפיות של דימויים שאפשר אולי לזהות בחלקם.61

אך האסטרטגיות שהשימוש האמנותי בדימויים הללו נשען עליהן שונות מאוד זו מזו. למשל הדימויים של פגלן מן העבודה "הזיות שנולדו מתוך יריבות" נוצרו בתהליך שמטרתו הייתה, לדברי האמן עצמו, להפוך לשקוף יותר את פוטנציאל יצירת הדימויים של האלגוריתמים של הלמידה העמוקה. כדי ליצור את הדימויים בעבודה זו החל פגלן בגיבוש ערכות אימון מיוחדות שמבוססות על תמות שמקורן בספרות, בפילוסופיה, בפסיכולוגיה, בתבונה העממית ובהיסטוריה ושקיבלו כותרות כגון "פשר החלומות" ("The Interpretations of Dreams", אוסף של תמונות שמציגות סמלים מן הפסיכואנליזה הפרוידיאנית), "אותות ומופתים" ("Omens and Portents", תמונות של כוכבי שביט, ליקויי מאורות ואירועי טבע אחרים שנחשבו בעבר לעל־טבעיים), "טורפים אמריקניים" ("American Predators", תמונות של חיות טרף, צמחים טורפים ובני אדם "טורפים" מארצות הברית ושל חומרה צבאית כגון כטב"מים ומפציצים חמקנים), או "מפלצות הקפיטליזם" ("Monsters of Capitalism", תמונות של יצורים מפלצתיים, כגון ערפדים, שנקשרו בשלב כלשהו לקפיטליזם). לאחר שערכות האימון גובשו (באמצעות איסוף תמונות ממערך הנתונים ImageNet), הן הוזנו אל המבחין שלמד כיצד לזהות ולסווג תמונות ששייכות לקטגוריות אלה. המחולל החל, בתורו, ליצור מתוך רעש אקראי דימויים שהיו קרובים יותר ויותר לאלו שבערכת האימון במטרה להצליח בסופו של דבר להוליך שולל את המבחין. באמצעות התערבות בתהליך זה ועצירת האימון ב"נקודות ביקורת" ספציפיות בחר פגלן אילו דימויים לחלץ מתוך אלה שהרשת היריבנית הצליחה לחולל. התוצאה של בחירה זו היא דימויים כגון The Great Hall (Corpus: The Interpretation of Dreams) שממחישים אזורים שונים במרחב הלטנטי המחשה חזותית.62

Trevor Paglen, The Great Hall (Corpus: The Interpretation of Dreams), Adversarially Evolved Hallucination, 2017. Dye sublimation print, 32 x 40 in. (81.3 x 101/6 cm) © Trevor Paglen. Courtesy of the artist, Jessica Silverman, and Pace Gallery.‎

תמונות היברידיות שנוצרו בידי רשתות יריבניות ממלאות תפקיד מרכזי גם בעבודתו של שאטונסקי, שמתאר אותן כתוצר של "דמיון מלאכותי" (ולא "בינה מלאכותית") שמעבד את הכמויות העצומות, המופרזות, של דימויים שבני אדם הותירו באינטרנט ואז משחרר שטף בלתי נדלה של דימויים אחרים מתוך המרחב הלטנטי. לדידו של שאטונסקי זהו מרחב בעל "אונטולוגיה שטוחה", שהתפוגגו בו המחיצות האונטולוגיות המסורתיות שהִבנו בעבר את העולם הנראה כפי שבני אדם רואים אותו. התמונות הממחישות אותו המחשה חזותית הן לפיכך מקטעים של עולם נזיל, מטמורפי וחסר הבדלות, שהצופה פוגש בו ישויות היברידיות שמשמרות רק זכר עמום לאובייקטים מוכרים.

העבודה "כדור הארץ השני" (Second Earth, 2019) מציגה את התמונות הללו כתוצר של מכונות ששורדות בנוף שומם, מינרלי לחלוטין, לאחר היכחדות המין האנושי. אחרי שנטלו ועיבדו את כל התמונות שבני אדם הותירו בשרתים ובמרכזי נתונים, אלגוריתמים של למידה עמוקה מתחילים ליצור תמונות אחרות, שהן "הזיותיה של מכונה חסרת דעת, אנדרטה לזכר המין האנושי שעבר מן העולם".63 בין התמונות הללו הנובעות מן המרחב הלטנטי אפשר למצוא מקטעים של בדיונות, של עתידים אפשריים ושל עבר שלא היה ולא נברא.

Grégory Chatonsky, Second Earth, 2019. Stills from video installation. © and courtesy of the artist.‎
  • 64. על המושג של שאטונסקי "דיס־ריאליזם" ("disréalisme") ראו: Grégory Chatonsky, "Complétion 1.0: Tout a lieu deux fois (ou presque)", in L'image à l'épreuve des machines, ed. Ada Ackerman, Alice Leroy and Antonio Somaini (Les Presses du Réel, forthcoming [2026]). ראו גם: http://chatonsky.net/disrealisme.

העבודה "השלמה 1.0" (Complétion 1.0), לעומת זאת, מתמקדת ב"ריאליזם" הפוסט־צילומי יוצא הדופן של התמונות שרשתות יריבניות מחוללות ובהבדל בינו ובין מושג ה"ריאליזם" ששורשיו נעוצים בטבעם האינדקסיקלי של תצלומים אנלוגיים, הנתפסים כמו עקבה או חותם. שאטונסקי מכנה את סוג הריאליזם החדש הזה בשם "דיס־ריאליזם אינדוקטיבי": תכונתן של תמונות שטבען האינדקסיקלי אינו נעוץ במגע חומרי בין אור ובין משטח רגיש לאור אלא בהוראה שלהן על מרחב לטנטי שרשתות יריבניות חוקרות באמצעות צורה מסוימת של למידה אינדוקטיבית.64

Grégory Chatonsky, Complétion 1.0, 2001. Still from video installation. © and courtesy of the artist.‎

שאלת טבען הריאליסטי והתיעודי של התמונות שרשתות יריבניות מחוללות עולה גם בעבודתה של שטיירל "זהו העתיד" (This Is the Future, 2019), מיצב וידאו שנולד כהרחבה של התערוכה "צמחי כוח" (או "תחנות כוח", Power Plants) שהוצגה בגלריית סרפנטיין בלונדון ב־2018. מה שעורר את העניין של שטיירל בשימוש בדימויים של רשתות יריבניות היה במקרה זה טבעם המנבא של אלגוריתמים של למידה עמוקה: העובדה שהם חלק מספקטרום רחב של מערכות ניבוי שפועלות בחברות עכשוויות ומציגות צורות שונות של ממשליות אלגוריתמית.

  • 65. ביצירת עבודה זו שיתפה שטיירל פעולה עם שני מתכנתים, דמיאן אנרי (Henry) וז'ול לפלאס (LaPlace). הראשון הוא יוצרו של וידאו שכותרתו "חלון רכבת" (A Train Window, 2017), שבו אלגוריתם לניבוי הפריים הבא בשם "pix2pix" – ששייך למחלקה ספציפית של רשתות יריבניות גנרטיביות שנקראת "רשתות יריבניות גנרטיביות מותנות" (conditional generative adversarial networks) ושמשמש לתרגום תמונה־לתמונה – אומן לנבא את הפריים הבא של וידאו שמציג נוף חולף שנשקף מחלון רכבת. הווידאו זמין בכתובת: https://magenta.tensorflow.org/nfp_p2p. אני מודה לשטיירל, לאנרי וללפלאס (באמצעות ריאיון עם קוונטין אמרי) על המידע שמסרו לי על עבודה זו.
  • 66. על עבודותיה האחרונות של שטיירל ראו: Florian Ebner, Doris Krystof and Marcella Lista, eds., Hito Steyerl: I Will Survive, exh. cat. (Spector, 2020); Bae Myungji, ed.,Hito Steyerl: A Sea of Data, exh. cat. (National Museum of Modern and Contemporary Art [Seoul], 2022)

עבודת הווידאו המרכזית המוצגת במיצב של שטיירל, שכותרתה היא "זהו העתיד: ניבוי מדויק ב־100%" (This is the Future: A 100% Accurate Prediction), מורכבת ברובה מתמונות שנוצרו באמצעות אלגוריתם לניבוי הפריים הבא – רשת עצבית שמאומנת לנבא על סמך פריים בודד מתוך וידאו מה יהיה הפריים שיבוא אחריו.65 ב"זהו העתיד" הרשת מוצגת כישות חיה שיש לה קול ויכולת ראייה (סינתטיים) משלה – "אני רשת עצבית. זה מה שאני רואה" – והתמונות המתעדות את מה שהיא רואה מוצגות כאילו הן ממוקמות "0.04 שניות לתוך העתיד". הן מסוגלות הן לנבא הן לתעד את העתיד, פרדוקסלי ככל שהדבר עשוי להישמע, כי כפי שהקול הסינתטי אומר, הן "מסתננות אל העתיד מבעד לסדקים שבין השניות".66

בכל העבודות הללו, התמונות שסוגים שונים של רשתות יריבניות מחוללות אינן תוצר של תהליכים אלגוריתמיים אוטונומיים לחלוטין. נכון יותר לומר שהן תמיד תוצאה של סדרה מורכבת של אינטראקציות בין האמנים, המתכנתים שלעיתים משתפים עימם פעולה, האלגוריתמים (על גרסאותיהם, אפשרויותיהם ומגבלותיהם השונות), התמונות הכלולות בערכת האימון והתמונות שנוצרו מתוך המרחב הלטנטי. חקירת המרחב הלטנטי והנקודות והמסלולים שבתוכו היא רגע מכריע בתהליך האמנותי, עד כדי כך שבכתוביות הסיום של עבודת הווידאו "רוחות חיה" (Animal Spirits, 2022), שטיירל מונה בין הפעולות הרבות שהיו באחריותה גם "ארכיטקטורה של המרחב הלטנטי וסלילת נתיבים בתוכו". מה שאנו רואים אפוא בתהליך ההפקה הוא סדרה אינדוקטיבית של ניסוי וטעייה שנפרשת מבעד לשזירה המתמדת של כוונות אנושיות ושל אפשרויות טכניות. ה"מחברוּת" ("authorship") של התמונות הללו שנולדו מרשתות יריבניות היא לפיכך מבוזרת מיסודה ופרושה על פני שכבות של פעולות ואופרציות. הדבר נכון גם לדור העדכני ביותר של אלגוריתמים של למידה עמוקה שעוסקים בתמונות: מודלים של טקסט־לתמונה (text-to-image) ותמונה־לטקסט (image-to-text).

Hito Steyerl, This is the Future: A 100% Accurate Prediction, 2019. Still from single-channel color video, sound, 16 min. From the video installation / environment This is the Future (2019). CC 4.0 Hito Steyerl. Courtesy of the artist, Andrew Kreps Gallery, New York, and Esther Schipper, Berlin/Paris/Seoul.‎

מה שיכול להיראות ומה שיכול להיאמר: יצירת תמונה על בסיס הנחיה מילולית

  • 67. על תמונות שנוצרו באמצעות מודלים של טקסט־לתמונה ראו: "Generative Imagery: Towards a 'New Paradigm' of Machine Learning-Based Image Production", special issue, ed. Lukas R.A. Wilde, Marcel Lemmes and Klaus Sachs-Hombach, IMAGE: The Journal of Interdisciplinary Image Science 37:1 (2023).

התופעה השלישית שהוזכרה בפתח המאמר – התפוצה הרחבה של אלגוריתמים של למידה עמוקה שמסוגלים לחולל תמונות מתוך טקסטים או לחולל טקסטים מתוך תמונות – היא חדשה ביותר. שורשיהם של מודלים של תמונה־לטקסט נעוצים בטכנולוגיות של ראייה ממוחשבת שמסוגלות לנתח תמונות, לתייג אותן ולסווגן, אולם בשנים האחרונות הם נעשו מורכבים יותר הודות לשילובם עם מוֹדֶלֵי שפה גדולים שאומנו באמצעות מערכי נתונים טקסטואליים עצומים ושמשמשים למשימות של עיבוד שפה טבעית כגון יצירת טקסט ותרגום. מודלים של טקסט־לתמונה נבחנו לראשונה באמצע העשור הקודם (בתוכנות כגון alignDRAW) ואז התפתחו במהירות בשנים הבאות, בעיקר באמצעות סוגים שונים של רשתות יריבניות, אבל נעשו פופולריים רק ב־2022 עם הצגתם של מודלים של "דיפוזיה" (diffusion) כגון DALL-E 2, סטייבל דיפיוז'ן (Stable Diffusion) ומידג'רני (Midjourney).67

מודלים של תמונה־לטקסט פועלים בדרך כלל בשני שלבים: ניתוח תמונה ויצירת טקסט. ראשית, רשת עצבית מתקפלת מנתחת את התמונה כדי לזהות את האובייקטים, הפעולות והיחסים המרחביים שהיא מייצגת, לתייג אותם ולסווגם. לאחר מכן, רשת עצבית עמוקה אחרת מחברת בין הפלט הראשוני הזה ובין מבנה לשוני. למשל מודלים כגון DenseCap מנתחים תמונה ומחוללים לה מייד כיתוב, CLIP מחולל תיאורים, ומודלים אחרים כגון Neural Storyteller מסוגלים לחולל סיפורים קצרים. GPT-4 עושה עוד צעד קדימה: מרגע שנוצר תיאור של תמונה באמצעות מודל תמונה־לטקסט כגון CLIP, התיאור מוזן לתוך GPT-4, והוא בתורו עונה על שאלות שנשאלות על התמונה (שאלות כגון: מה תהיה ההשלכה של עריכת שינוי כזה וכזה בתמונה? מהי המשמעות של מם מסוים? למה התמונה הזאת מצחיקה?) או מבצע משימות על בסיסה (למשל: יצירת אתר אינטרנט מתוך רישום פשוט).

מודלים של טקסט־לתמונה פועלים אף הם בשני שלבים: קידוד טקסט ויצירת תמונה. מודל "טרנספורמר" (transformer) כמו אלה שמשמשים לעיבוד ולתרגום של שפה טבעית משמש להפיכת טקסט הקלט לייצוג לטנטי: סדרה של וקטורים מספריים שמתקשרים למילים הבדידות וליחסים ביניהן בתוך המשפט. אחר כך מודל דיפוזיה מחולל תמונה מתוך אותו ייצוג לטנטי.

  • 68. בין מגוון האתרים והמדריכים המסבירים את אופן הפעולה של מודלי דיפוזיה כגון "סטייבל דיפיוז'ן" ראו: Andrew [Wong], "How Does Stable Diffusion Work?", Stable Diffusion Art, last updated 13 June 2023, https://stable-diffusion-art.com/how-stable-diffusion-work. הדיאגרמות המוצגות בחלק זה של מאמרי מבוססות על הדיאגרמות המופיעות במדריך הזה. על DALL-E 2 ראו: Aditya Ramesh, "How DALL-E 2 Works", http://adityaramesh.com/posts/dalle2/dalle2.html.

כדי להבין טוב יותר כיצד הם פועלים, אפשר לבחון את הדוגמה של סטייבל דיפיוז'ן, יישום שפרסם ברבים – שלא כמו DALL-E 2 ומידג'רני – את הקוד ואת משקלות המודל שלו.68 מודל הדיפוזיה פועל בשני שלבים: דיפוזיה קדימה (forward diffusion) ודיפוזיה הפוכה (reverse diffusion). השלב הראשון, דיפוזיה קדימה, הופך את התמונות מתוך ערכת הנתונים ששימשה לאימון ל"תמונות רעש" חסרות הבחנות (כלומר פיקסלים אקראיים שפזורים בתוך מרחב התמונה דמוי הגריד). הוא עושה זאת באמצעות הוספת רמות גדלות והולכות של "רעש" לכל תמונה (כגון תמונה של חתול). המונח "דיפוזיה" מתייחס במקרה זה למושג הפיזיקלי "פעפוע": תנועת חלקיקים מאזור בעל ריכוז גבוה לאזור בעל ריכוז נמוך עד לקבלת שיווי משקל.

השלב השני במודל הדיפוזיה מכונה דיפוזיה הפוכה. בשלב הזה, המתחיל ב"תמונות הרעש", המודל לומד איך לשחזר את התמונות הראשוניות בערכת האימון. הוא עושה זאת באמצעות "מנבא רעש" ("noise predictor") שלומד לנבא כמה רעש נוסף לתמונות הראשוניות. הדבר מאפשר למודל להחסיר מכל "תמונת רעש" נתונה את שכבות הרעש שנוספו, עד שהוא מוצא את התמונה הראשונית (למשל, שוב, תמונת החתול).

דיפוזיה קדימה (משמאל לימין) ודיפוזיה הפוכה (מימין לשמאל) במודלים של דיפוזיה.
מתמונה ראשונית (שמאל) ל"תמונת רעש" (ימין) באמצעות דיפוזיה קדימה.
  • 69. סטייבל דיפיוז'ן גרסה 2 מאומן על תמונות ברזולוציה של 768 על 768 פיקסלים.
  • 70. כדי להשיג זאת רשת עצבית אחרת שמכונה "מקוֹדד עצמי וריאציוני" ("variational autoencoder") דוחסת את התמונות הראשוניות בגודל 512 על 512 פיקסלים של סטייבל דיפיוז'ן גרסה 1 לתוך מרחב לטנטי שקטן פי ארבעים ושמונה ממרחב התמונה הראשוני ולאחר מכן מחזירה אותו לרזולוציה המקורית שלו. גם זה קורה בשני שלבים: ראשית, מקוֹדד (encoder) דוחס את התמונה מן הרזולוציה הראשונית שלה (512 על 512) לַייצוג בעל הממדים המועטים יותר במרחב הלטנטי; אחר כך מפענח (decoder) משחזר את התמונה ומשיב אותה לרזולוציה של 512 על 512. אם הפלט הסופי המבוקש הוא תמונה ברזולוציה גבוהה מ־512 על 512, יש להשתמש באלגוריתם אחר שנוצר במיוחד לטובת הגדלת הרזולוציה (upscaling) – למשל ברשתות יריבניות גנרטיביות לרזולוציית־על משופרת (Enhanced Super-Resolution Generative Adversarial Networks).

תהליך כפול זה של דיפוזיה קדימה ודיפוזיה הפוכה היה איטי ביותר ודורש כוח מחשוב גבוה מאוד – כזה שאינו נגיש למרבית המשתמשים הפרטיים – אלמלא היו התמונות של ערכת האימון נדחסות בדרך כלשהי. הגרסה הראשונה של סטייבל דיפיוז'ן אומנה באמצעות תמונות ברזולוציה של 512 על 512 פיקסלים, כלומר בהינתן שלכל פיקסל יש שלושה ערוצי צבע (אדום, ירוק וכחול), "מרחב התמונה" של תמונה בגודל 512 על 512 הוא מרחב בעל 786,432 ממדים.69 במקום לפעול במרחב תמונה כה רב־ממדי, סטייבל דיפיוז'ן פועל כ"מודל דיפוזיה לטנטי". כלומר הן תהליך הדיפוזיה קדימה הן תהליך הדיפוזיה ההפוכה מתנהלים במרחב לטנטי דחוס ובעל ממדים מועטים יותר, במקום שיתנהלו במרחב התמונה הראשוני.70

"תמונות רעש" וההחסרה של רעש חזוי.
מקוֹדד (שמאל), מרחב לטנטי (מרכז), מפענח (ימין).

סטייבל דיפיוז'ן משתמש בשלב נוסף שנקרא "התניה": מטרתו היא לכוון את מנבא הרעש כך שברגע ששכבות הרעש יוחסרו, האלגוריתם יוכל להפיק תמונה שנתפסת כאילו היא "מיושרת" – כלומר עולה בקנה אחד – עם ההנחיות המילוליות ששימשו ליצירתה. ההנחיות המילוליות – ה"פרומפטים" – עוברות תחילה "טוֹקֶניזציה" (tokenization). בתהליך זה כל מילה בפרומפט (כגון "photo of a cat") מקושרת באמצעות מודל למידה עמוקה שנקרא "CLIP tokenizer" למספר ייחודי שנקרא "טוֹקֶן" (למשל אפשר שהמילה "photo" תקושר למספר 50, המילה "of" תקושר למספר 24, התווית לשם עצם לא מיודע "a" תקושר למספר 59 והמילה "cat" תקושר למספר 239). אחר כך כל טוקן "משובץ" – כלומר הוא מומר בווקטור בעל 768 ערכים (מחרוזת מספרים שמציינת קואורדינטות במרחב בעל 768 ממדים) שמכיל את הפרמטרים המאפשרים לו למקם מילה נתונה ביחס למילים אחרות בשפה נתונה (למשל אנגלית), כפי שקורה גם באלגוריתמים לעיבוד שפה כגון GPT-4,‏ ChatGPT,‏ Google Translate ו־DeepL. השיבוצים מעובדים אחר כך בידי "טרנספורמר טקסט" ולבסוף מוזנים אל מנבא הרעש, המתחיל להחסיר שכבות של רעש עד שהוא מגיע לתמונה ש"מתיישרת" באופן כלשהו עם הפרומפט.

התוצאה של התהליך המורכב זה – הכולל דיפוזיה קדימה ודיפוזיה הפוכה, קידוד טקסט ויצירת תמונות – היא שמודלים כגון DALL-E 2, סטייבל דיפיוז'ן ומידג'רני מקבלים קלט בדמות תיאורים בשפה טבעית או "פרומפטים" ואז מפיקים פלט בדמות סדרה של תמונות סטילס שמתוכנתות להיות שונות בכל פעם, גם אם חוזרים על אותם פרומפטים בדיוק; בכך הם מחזקים את הרושם שלאלגוריתמים הללו יש כושר גנרטיבי אין־סופי. גרסאות מתקדמות יותר של מודלים אלה שנקראות "טקסט־לווידאו" ("text-to-video") מאפשרות לחולל לא רק תמונות סטילס אלא גם תמונות נעות. בעתיד הקרוב יהיה אפשר ליצור סרטי וידאו או קולנוע שלמים אך ורק מתוך הנחיות מילוליות, ובכך להחליף או לתכלל סדרה שלמה של טכניקות אנלוגיות או דיגיטליות של צילום, עריכה ופוסט־פרודקשן.

הפרומפטים עתידים להיות לגורם מפתח בתרבות חזותית שמבוססת יותר ויותר על הפעולה של הזנת מילים וטקסטים לאלגוריתמים של למידה עמוקה כדי לחקור את המרחב הלטנטי שלהם ולגרום לתמונות להגיח מתוכו. הפרומפטים פועלים כמו סוג חדש של ממשק שמבצע – כמעט כמו סדרה של "מעשי דיבור" ("speech acts") – מעבר משפה טבעית לתמונות, והם מורכבים ממילים יחידות או ממשפטים שלמים שמציינים את התוכן הרצוי (כלומר האלמנטים שיש לכלול בתמונה המבוקשת או להשמיט ממנה), הקומפוזיציה, הצבע, התאורה, הסגנון (של אמן או אמנית או של זרם אמנותי) והמדיום (למשל רישום, ציור, אנימציה, צילום, וידאו, לרבות ציון מדוקדק של דגמי מצלמות, עדשות וכולי). במילים אחרות, הפרומפטים ממירים את המדיה החזותית מן העבר באוסף של מונחים שמציינים מצעים חומריים, מכשירים ופעולות (כגון "DVD screengrab" – "צילום מסך מ־DVD") שמשמשים ליצירת תמונות מתוך מרחב לטנטי שהתכונות הצורניות של כל המדיומים הללו קיימות בו כדפוסים חזותיים שזורמים מתמונה לתמונה.

פרומפטים עשויים גם לציין דברים על דרך השלילה: הם יכולים לציין איכויות שנתפסות כשליליות ("מכוער", "גרוע", "מעוות", "פגום"), איכויות שבדרך כלל אינן מבוקשות ("אמנות גרועה", "מצויר רע", "לא בפוקוס", "מחוץ לפריים") או מאפיינים שבדרך כלל אינם רצויים ("איברים נוספים", "רגליים נוספות", "ידיים נוספות"). שפע של מדריכי פרומפטים שזמינים ברשת עוזרים למשתמשים לזקק את השאילתות שלהם ולעקוף במקרים מסוימים את חסרונם של פרומפטים שהוסרו מן הפלטפורמות מטעמי בטיחות כביכול באמצעות צורות שונות של פיקוח על תכנים וצנזור פרומפטים.

אלמנטים בתהליך ה"התניה" של מודלים של טקסט־לתמונה. משמאל לימין: הנחיה מילולית, טוקנייזר, שיבוץ, טרנספורמר טקסט, מנבא רעש.
  • 71. ראו: Anthony Masure, Design sous artifice: La création au risque du machine learning (HEAD Publishing, 2023).

זמן קצר לאחר השקתם החלו מודלים של טקסט־לווידאו כגון DALL-E 2, סטייבל דיפיוז'ן ומידג'רני להתפשט ברחבי האינטרנט ולשמש למגוון רחב של יישומים, שבחלקם מתבצעות פעולות שביצעו בעבר רשתות יריבניות כגון השלמה פנים־תמונתית, השלמה חוץ־תמונתית, העברת סגנון והגדלת רזולוציה (upscaling). תמונות שנוצרו במודלים של דיפוזיה החלו להופיע במהירות על כריכות ספרים ומגזינים ובמסעי פרסום ועוררו את התהייה אם מיומנויות שלמות ואף מקצועות שלמים בתחומי האיור, העיצוב הגרפי, הצילום והווידאו – לרבות הצורך להשתמש בדוגמניות ודוגמנים בשר ודם בפרסום בעולם האופנה – עשויים לעבור בקרוב טרנספורמציה רדיקלית או אף להיעלם כליל לטובת טכניקות שמבוססות על פרומפטים.71

היכולת של מודלים של טקסט־לתמונה לחולל דימויים פוטו־ריאליסטיים שימשה גם ליצירת כל מיני דימויים מזויפים, היפותטיים ובדויים כגון דונלד טראמפ נאבק בשוטרי משטרת ניו יורק שמנסים לעצור אותו, נשיא צרפת עמנואל מקרון רץ בפריז הבוערת בזמן ההפגנות נגד הרפורמה בפנסיות וסרטון שהפיצה הוועדה הרפובליקנית הלאומית באפריל 2023 שכותרתו "Beat Biden" ("להביס/להכות את ביידן"), ובו מוצגות ההשלכות האפוקליפטיות הדמיוניות של כהונה שנייה של הנשיא ג'ו ביידן.72 באמצע העשור הקודם החלו נפוצים דימויים רבים מן הסוג המכונה "דיפ־פייק" (deepfake), ועתה הם נוצרים בכמויות רבות באמצעות מודלים של טקסט־לתמונה – מה שמערער עוד יותר את האמון בתמונות ומדגיש את הצורך בצורות חדשות של פורנזיקה חזותית ובדיקת עובדות.

במקרים אחרים נעשה שימוש בתמונות פוטו־ריאליסטיות שנוצרו במודלים של טקסט־לתמונה למטרות שונות בתכלית – "תיעודיות" כביכול. במאי 2023 ספג הארגון "אמנסטי אינטרנשיונל" ביקורת רבה על החלטתו להשתמש בתמונות שנוצרו בבינה מלאכותית כדי להוקיע את אלימות המשטרה בקולומביה ולהצדיק את הבחירה הזאת ברצון להגן על זהות המפגינים.73 בפרויקט שכותרתו "מוצג A-i – דוח הפליטים" ("Exhibit A-i – The Refugee Account") הסתמכה קבוצה של עורכי דין אוסטרלים על שלושים ושניים תצהירים כתובים של ניצולים ממתקני הכליאה של אוסטרליה במאנוס איילנד, בנאורו ובאי חג המולד; נוכח היעדרו של תיעוד בצילום או בווידאו מן המתקנים הללו, הם השתמשו בתצהירים כפרומפטים כדי לחולל באמצעותם תמונות שנועדו – לאחר ששוחחו עליהן עם הניצולים עצמם – "לתעד" כביכול אירועים שלא זכו לתיעוד חזותי.74

כפי שהיה במקרים של הרשתות העצביות המתקפלות ושל הרשתות היריבניות הגנרטיביות, אם ברצוננו לעמוד על סוגי התמונות שמודלים של טקסט־לתמונה כגון DALL-E 2, סטייבל דיפיוז'ן ומידג'רני עשויים לחולל, על הערך שעשויים לייחס לתמונות הללו ועל האופרציות שהן עשויות להיכלל בהן, שומה עלינו לעמוד על מקורותיהם של מערכי הנתונים ששימשו לאימונם, על תוכנם, על המבנה שלהם ועל העקרונות המנחים אותם. העיון בערכות האימון חיוני גם כדי להבין איך הם מחברים בין טקסטים לתמונות באמצעות הכנסה של מִתאם אלגוריתמי חדש בין הטקסטואלי לחזותי, שהשפעותיו ברחבי התרבות החזותית העכשווית טרם הובנו במלואן.

כל המודלים של טקסט־לתמונה אומנו על סמך כמויות עצומות של צמדי תמונה וכיתוב. אומנם חברת OpenAI לא פרסמה מידע על אודות מערכי הנתונים ששימשו לאימונו של DALL-E 2, אך ידוע לנו כי סטייבל דיפיוז'ן אומן באמצעות LAION-5B‏ (Large-scale Artificial Intelligence Open Network 5B) שפורסם במרץ 2022 – מערך נתונים פומבי שנגזר מנתוני Common Crawl שנקצרו מרחבי האינטרנט בתהליך חופשי של גירוד נתונים ("סקרֵייפינג").75

  • 76. יוק הוי דן באפשרות לראות במטא־נתונים של תמונות בקוד ה־html דוגמה ל"סביבה" ("מִילְיֶה") של אובייקט דיגיטלי. ראו: Hui, On the Existence of Digital Objects, 47-73.

כדי לאסוף את הנתונים חיפש LAION-5B באתרים שנסרקו את המטא־נתונים (metadata) הקשורים לכל התמונות הדיגיטליות שהועלו לאינטרנט; הוא התמקד במיוחד בתגים מסוג <img> שמשמשים לשיבוץ תמונות בדפי html והתייחס ל"תכונות אלט" ("alt attributes") שלהן – אותם "טקסטים חלופיים" ("alternative texts") המספקים תיאור תמציתי של התמונות ומחליפים אותן כאשר אי אפשר להציגן – כאילו היו כיתוב תמונה.76

  • 77. את הפרויקט יזמו הולי הרנדון (Herndon) ומט דרייהרסט (Dryhurst), ואפשר לגשת אליו כאן: https://haveibeentrained.com.

נכון לזמן כתיבת שורות אלה, LAION-5B מכיל חמישה מיליארד צמדים של טקסט־תמונה שנאספו ברחבי האינטרנט ממנועי חיפוש, מאגרי תמונות, רשתות חברתיות ומגוון אתרים כגון Google Images,‏ Shutterstock,‏ Getty Images,‏ Pinterest,‏ WordPress,‏ Flickr,‏ Twitter,‏ ArtStation,‏ DeviantArt ורבים אחרים. התמונות נלקחו מן האינטרנט ללא אישור, דבר שמעורר את השאלה אם יש להחיל את ההגנה על זכויות יוצרים גם על ההכללה של תמונות במערכי נתונים גדולים נוכח תפקידם המכריע ביצירת תמונות אחרות באמצעות פרומפטים. שורה של אמנים שיצירותיהם התגלגלו ל־LAION-5B וששמותיהם שימשו במקרים רבים כפרומפטים ("בסגנון...") החליטו לתבוע את Stability AI ולהגביר את המודעות לנושא באמצעות יוזמות כגון "?Have I Been Trained" ("האם אומנתי?" או "האם אולפתי?").77

נראה שהקריטריונים המשמשים לארגונם ולסינונם של חמישה מיליארד הצמדים של טקסט־תמונה הכלולים ב־LAION-5B מתעדכנים ללא הרף על סמך משוב ממשתמשים וממפתחים. לאחר השקת LAION-5B במרץ 2022 נוספו קריטריונים חדשים. באוגוסט 2022 הוצג "LAION-Aesthetics": תת־מערך של צמדי טקסט־תמונה שמכיל תמונות שיש להן "ציון אסתטי חזוי גבוה" שנקבע באמצעות אימון מודל שמסוגל "לחזות את הדירוג שנתנו אנשים כאשר נשאלו 'באיזו מידה התמונה הזאת מוצאת חן בעיניכם בסולם של 1 עד 10?'".78 מאחורי אותם "אנשים" גנריים נמצאים למעשה יחידים שמחוללים ומדרגים תמונות באמצעות מודלים של למידה עמוקה של טקסט־לתמונה בפלטפורמות שונות או מפרסמים תמונות באתרים שמוקדשים לתחרויות צילום; התמונות הללו נאספות אחר כך במערכי נתונים כגון SAC‏ (Simulacra Aesthetic Captions) או AVA‏ (Aesthetic Visual Analysis) שמוסיפים שכבות נוספות של ברִירה ושל עיבוד אלגוריתמי לקריטריונים האסתטיים ה"חזויים" הללו.

  • 79. המידע נמצא בחלקים שונים באתר של ‏ LAION-5B,‏ https://laion.ai.

שדרוגים אחרים עסקו ביצירת כיתובים טובים יותר לתמונות, בבחירת תמונות ברזולוציה גבוהה יותר, בסילוק תמונות עם "סימני מים" (watermarks), בזיהוי של תוכן בתמונות שנחשב "NSFW" ("not safe for work", כלומר לא מתאים לצפייה במקום העבודה) או במתן אפשרות ליחידים ששמותיהם ותמונותיהם נמצאו ב־LAION-5B להגיש "טופס הסרה" בבקשה להיגרע ממערך הנתונים.79

LAION-5B מראה שהתוכן והמאפיינים הצורניים של התמונות שמודלים של טקסט־לתמונה מחוללים הם תוצר של תהליך מורכב, שבו סוגים שונים של קריטריונים טכניים ונורמטיביים, של העדפות אסתטיות שנקבעו באמצעים סטטיסטיים ושל הטיות זורמים מן הפלטפורמות הספציפיות שמהן נלקחו התמונות (והפלטפורמות הללו, רחבות ועל־לאומיות ככל שיהיו, לעולם אינן מְכָלִים ניטרליים) אל ערכות האימון (על שלל המסננים והקריטריונים שלהן) ועד לתמונות שנוצרות באמצעות פרומפטים. שטיירל טוענת שהתמונות שנוצרות מן הפרומפטים יכולות להיחשב "תיצוּגים [רינדוּרים] סטטיסטיים" אשר "מעבירים את המוקד מאינדקסיקליות צילומית להבחנה סטוכסטית", וזאת נוכח חשיבותן של הסטטיסטיקה וההסתברות בכל התהליכים האלגוריתמיים הכרוכים בהפקתן.80

קל לנבא שבעתיד הקרוב, כמויות גדולות של תמונות שנוצרו במודלים של דיפוזיה כגון סטייבל דיפיוז'ן, DALL-E 2 ומידג'רני, הועלו לאינטרנט ודורגו בידי משתמשים יתגלגלו למערכי נתונים חדשים שיתרמו – בלולאת משוב מתמשכת – לאימונם של מודלים עתידיים ובכך יקדמו יותר ויותר את תפוצתם של מוטיבים מסוימים ושל סגנונות תמונה מסוימים שקשורים לאלגוריתמים השונים.

עם זאת, ערכת האימון של מודל כגון סטייבל דיפיוז'ן – או של כל מודל אחר של למידה עמוקה – לעולם אינה סופית. משתמשים עשויים לערוך אימון נוסף כדי לשבץ במערך הנתונים תמונות חדשות שלא היו קיימות בו מלכתחילה. עניין זה פותח את האפשרות להשתמש בפרומפטים חדשים וכך להרחיב את טווח התמונות האפשריות שהמודל עשוי לחולל מתוך המרחב הלטנטי.

דוגמה מעניינת לאפשרות זו מופיעה בסדרת התמונות של שאטונסקי "His Story" ("הסיפור שלו") מ־2022. באמצעות מודל שנקרא DreamBooth הוסיף האמן לקטגוריה "person" ("אדם") סדרה של תמונות של עצמו בצירוף הפרומפט "gchatonsky". לאחר מכן הוא השתמש בפרומפט הזה כדי לחולל תמונות של עצמו שהיו לחלק מאוטוביוגרפיה בדויה שבה מופיעה דמות של שאטונסקי – שהיא פוטו־ריאליסטית אך תוצר אלגוריתמי – בהקשרים מרחביים והיסטוריים שונים.

Grégory Chatonsky, image from the series His Story (2022), "AI-generated photograph". © and courtesy of the artist.‎
  • 81. לפרויקט של שאטונסקי "His Story" ראו: http://chatonsky.net/his-story. עבודתו "La machine 100 têtes" קיימת בכמה גרסאות, ואחת מהן פורסמה לאחרונה כספר: Grégory Chatonsky, La machine 100 têtes (Paris: Rrose, 2023).
  • 82. ראו למשל: ‎"The Kiss 4", Gregory Chatonsky, November 2022, http://chatonsky.net/kiss-4

בעבודות אחרות בחר שאטונסקי באסטרטגיות מגוונות כדי לבחון את הפוטנציאל של מודלים של דיפוזיה תוך כדי חקירת אזורים שונים במרחב הלטנטי שלהם. למשל בעבודה "La machine 100 têtes" ("המכוֹנה בעלת מאה הראשים / בלי הראש") מ־2022, למשל, הוא בחן מחדש את ספר הקולאז'ים הראשון של מקס ארנסט "La femme 100 têtes" (האישה בעלת מאה הראשים / בלי הראש" מ־1929) בעזרת DALL-E 2. שאטונסקי השתמש בתרגומים לאנגלית של הכיתובים לקולאז'ים החלומיים וטורדי המנוחה של ארנסט בתור פרומפטים וחולל תמונות חדשות שאינן נובעות מאוטומטיזם נפשי סוריאליסטי אלא מסוג של אוטומציה אלגוריתמית.81 עבודה אחרת בשם "The Kiss" ("הנשיקה") מ־2022 משתמשת בחלקים מן התסריט לסרטו של אלפרד היצ'קוק "ורטיגו" (Vertigo, 1958) בתור פרומפטים כדי לחולל תמונות סטילס ותמונות נעות שנותנות ביטוי חזותי לגרסאות אפשריות – שיצרה בינה מלאכותית – של הסרט.82

Grégory Chatonsky, The Kiss, 2022. Still from video. © and courtesy of the artist.‎

לבסוף, לטובת עבודתו "Counterfeits" ("זיופים") מ־2021 השתמש שאטונסקי הן במודלים של תמונה־לטקסט הן במודלים של טקסט־לתמונה. נקודת המוצא הייתה יצירות אמנות ידועות (כגון "העלמות מאביניון" של פבלו פיקאסו מ־1907), ומהן נולד תיאור קצר שנעשה באמצעות האלגוריתם Neural Storyteller. אחר כך הוזן הטקסט לתוכנה אחרת, Zoetrope, שחוללה תמונה על סמך הטקסט ששימש לה כפרומפט, וכך נפתחה סדרה אין־סופית בפוטנצייה של תרגומים אלגוריתמיים מתמונה לטקסט ושוב לתמונה וחוזר חלילה.83

Grégory Chatonssky, image from the series Counterfeits, 2021. © and courtesy of the artist.‎

המודלים של טקסט־לתמונה מעוררים שאלות רבות. משיקולי מקום אוכל להדגיש רק כמה מהן, וגם יש לזכור כי האלגוריתמים החדשים הללו מתפתחים בקצב מהיר. כמו בתמונות שנוצרו ברשתות יריבניות, התמונות שנוצרו במודלים של טקסט־לתמונה אינן תוצר של תהליכים אלגוריתמיים אוטונומיים לחלוטין. ניתוח של המבנה שלהם ושל הקריטריונים הנורמטיביים שלהם, של מערכי הנתונים ששימשו לאימונם ושל האופרציות שננקטו כדי להפעילם, מגלה שהפעלנות האנושית והפעלנות הטכנית נשזרות בהם זו בזו בסדרה של רבדים, אף שחלוקת העבודה ביניהן עשויה להשתנות עם הזמן (למשל תיאורי "תכונות אלט" שכתבו בני אדם עשויים להתחלף בקרוב בצורות של כיתוב אוטומטי).

כל תמונה שנוצרה במודל דיפוזיה של טקסט־לתמונה היא – כמו במקרה של רשתות יריבניות – המחשה חזותית של אחת ה"נקודות" (וקטור) במרחב הלטנטי שיצר המודל בזמן אימונו. אם נחפש את ה"רפרנט" של תמונה שנוצרה באחד המודלים הללו ניתקל ברפרנציאליות מורכבת, רב־שכבתית, שחוצה צורות מגוונות של תיווך, שכוללת הן תמונות הן מילים ושמגיעה עד לתמונות שבני אדם צילמו או יצרו למען בני אדם אחרים ואז העלו לרשת יחד עם המילים שנלוו אליהן המשמשות "טקסט חלופי". בתוך האונטולוגיה השטוחה של המרחב הלטנטי, לכל נקודה אותו מעמד כמו לכל הנקודות האחרות: כל אחת מהן מוגדרת באמצעות וקטור (סדרה של קואורדינטות), שבמודלים של דיפוזיה הוא תוצר השיבוץ של תמונות וטקסטים גם יחד. עם זאת, התמונות שנותנות ביטוי חזותי לכל נקודה עשויות להיות שונות מאוד בתוכנן, במאפייניהן הצורניים, בסגנונן וכן הלאה בשל מיקומו של הווקטור בתוך המרחב הלטנטי הרב־ממדי.

  • 84. ראו: Alain Besançon, The Forbidden Image: An Intellectual History of Iconoclasm (University of Chicago Press, 2001). על צורות עכשוויות יותר של צנזורת תמונות ראו: Katja Müller-Helle, Bildzensur: Infrastrukturen der Löschung (Wagenbach, 2022); Katja Müller-Helle, ed., Bildzensur: Löschung technischer Bilder, volume 16 of Bildwelten des Wissens (De Gruyter, 2020).

היבט חשוב נוסף של מודלים של דיפוזיה של טקסט־לתמונה הוא שהשפה הטבעית (כלומר האנושית) נעשית המדיום העיקרי ליצירת תמונות: מה שיכול להיראות מקיים מתאם הדוק עם מה שיכול להיאמר, שכן התמונות נוצרות על ידי הנחיות מילוליות. מה שאפשר או אי אפשר לומר, או מה שאפשר או אי אפשר לכתוב בפרומפט, קובע – יחד עם הגורמים הנוספים שנותחו לעיל – מה אפשר או אי אפשר להמחיש המחשה חזותית ולראות. התוכן של "הטקסטים החלופיים" – לצד המגבלות השונות שהנהיגו מודלים כגון DALL-E 2, סטייבל דיפיוז'ן ומידג'רני בשימוש בפרומפטים (כגון "לא מתאים לצפייה במקום העבודה") – יוצרים גבולות שמצרים את טווח התמונות שאפשר לחולל. מצב זה מוליד אזורים חדשים של אי־היראות שממשיכים בדרכים חדשות שטרם נודעו את ההיסטוריה הארוכה של "דימויים אסורים".84

  • 85. אני מתכוון למשל למסורת של "חקר הדימוי" (Bildwissenschaft) הגרמני כפי שניסחו אותה היסטוריונים של אמנות ופילוסופים דוגמת גוטפריד בֶּם (Boehm) ולפולמוס שהתעורר בשנות התשעים של המאה העשרים ובתחילת שנות האלפיים סביב מושגים כגון "המפנה האיקוני" ("iconic turn") ו"המפנה התמונתי" ("pictorial turn"). על "המפנה האיקוני" (ikonische Wende) ועל הרעיון בדבר "לוגיקה של דימויים" (Logik der Bilder) אוטונומית שאינה מבוססת על טקסט ראו: Gottfried Boehm, "Die Wiederkehr der Bilder", in Was ist ein Bild?, ed. Gottfried Boehm (Fink, 1994), 11-38; Gottfried Boehm, "Jenseits der Sprache? Anmerkungen zur Logik der Bilder", in Iconic Turn: Die neue Macht der Bilder, ed. Christa Maar and Hubert Burda (DuMont, 2004); Gottfried Boehm, Wie Bilder Sinn erzeugenDie Macht des Zeigens (Berlin University Press, 2007). על "המפנה התמונתי" ראו: Mitchell, Picture Theory, 11-34.

התרבות החזותית החדשה שהמודלים הללו של טקסט־לתמונה מקדמים יחד עם הרשתות העצביות המתקפלות והרשתות היריבניות הגנרטיביות היא תרבות חזותית שבה תמונות ומילים קשורות אלה באלה לבלי התר. אלגוריתמים של למידה עמוקה מובילים אותנו עתה – כנגד מסורת שלמה בתולדות האמנות ובתאוריה של הדימוי שניסתה להדגיש את קיומם של תמונות, של ניתוחי תמונה ושל החוויה החזותית בנפרד מטקסטים ומתחומי הידע המתבססים עליהם – לנוף חזותי חדש, שבו תמונות ומילים נעשות יותר ויותר בלתי ניתנות להפרדה.85

נוסח עברי: אהד זהבי

  • אנטוניו סומאיני

    פרופסור לתאוריה של הקולנוע, המדיה והתרבות החזותית באוניברסיטת סורבון החדשה (פריז 3). אוצר התערוכה "העולם על פי AI" שהוצגה ב־Jeu de Paume בפריז ב־2025. מאמרו זה התפרסם במקור כאן:
    Antonio Somaini, "Algorithmic Images: Artificial Intelligence and Visual Culture", Grey Room 93 (2023): 74-115.