מן הבינה המלאכותית אל ההיסטוריה של הצילום
- 1. Kate Crawford, Atlas of AI: Power, Politics, and the Planetary Costs of Artificial Intelligence (Yale University Press, 2021)
ברשימה זו אני מבקש לעיין בספרה של קייט קרופורד מ־2021 'אטלס של AI' ולקשור את הניתוח הביקורתי של מנגנוני הבינה המלאכותית שמופיע בו – ובייחוד את הניתוח של אלגוריתמים שקשורים ב"ראיית מכונה" – למה שאני מכנה "ההיסטוריה האפלה של הצילום".1 אני מבקש להצביע על הקבלות בין התפיסה הנאיבית של הצילום בראשיתו, עוד במאה התשע עשרה, שראתה בו מנגנון מכני אובייקטיבי ונטול הטיות ובין הילת האובייקטיביות האופפת כיום את הראייה הממוחשבת. האימון של אלגוריתמים על בסיס ארכיונים חזותיים היסטוריים, אני טוען בעקבות קרופורד, מוביל לשכפול לא ביקורתי והרה סכנה של כשלים אתיים ואפיסטמולוגיים מן העבר.
'אטלס של AI' של קרופורד שואף לקרקע את הבינה המלאכותית, להעכיר את שקיפותה, להורידה מן "העננים" אל הארץ, למקם את כריית הנתונים במחצבי מתכות ומרבצי מינרלים ממשיים מאוד ולאתר את המחסנים והמעבדות שבהם היא מיוצרת. כמו אטלס גאוגרפי, האטלס של קרופורד ממפה את הבינה המלאכותית מבחינת ההשפעות הסביבתיות, החברתיות והפוליטיות של התעשייה. הוא בנוי כמו שכבות גאולוגיות שמתחילות באדמה, עוברות לעבודה, לנתונים, לסיווג ולרגש (אָפקט) ומגיעות עד לממשל ולחלל, שאוליגרכים של AI מתייחסים אליו יותר ויותר כאל משאב פרטי שאפשר לנכס. קרופורד עורכת לשכבות השונות בחינה ארכאולוגית ומאתרת משקעים, מחילות קבורה ומיני מאובנים שנסוגו בדממה לקרקע שעליה הבינה צועדת בבלי דעת; היא מזהה את הרצָפים, התבניות והסדירויות שקודדו בדי־אן־איי שלה: מאגרי צילומי פנים של נשים שנעצרו, לרבות תמונות שלהן פצועות, חבולות ולעיתים מושפלות; מטופלים חסרי שם מחושמלים בבתי מחסה לחולי נפש; תצלומים אנתרופומטריים של בני "הגזעים הנחותים"; תצלומים סטטיסטיים של "הטיפוס היהודי" ו"הטיפוס העבריין". החפירות הארכאולוגיות מגלות בעיניי ששכבות האטלס מודבקות זו לזו באמולסייה השקופה למחצה של הצילום, על תולדותיו.
- 2. שם, בייחוד בפרק 5, שכותרתו "Affect", עמ' 179-151.
- 3. ראו למשל שם, 127-123, 222. הפיזיונומיה, שהיא שיטה לכאורה לקריאת אופיו של אדם על פי מראה פניו, והפרנולוגיה, שהתיימרה לפתח שיטה לקריאת אישיותו של אדם על פי צורת הגולגולת שלו, חלקו את האמונה ביכולת להכיר את הנפש ולהתוודע למצבם הפנימי של בני אדם על סמך תווים חיצוניים בלבד. הקרניומטרייה, שעניינה מדידת הגולגולת, הייתה חלק מרכזי במאמץ לתת תוקף מדעי להיררכיות גזעיות במאות התשע עשרה והעשרים. האֵיגניקה הייתה תנועה עולמית ששאפה "להשביח" את הגזע האנושי באמצעות שליטה בהתרבות ובהולדה ונעשתה נדבך מרכזי בהתפתחות הגזענות, האנטישמיות והפליית אוכלוסיות על בסיס מדעי כביכול.
- 4. שם, 167-161.
- 5. שם, 126.
קרופורד מראה בספרה איך תורות גזע דכאניות וחלוקות מגדריות זדוניות שהעיבו על השימוש בצילום בעשוריו הראשונים מחלחלות לבינה המלאכותית ומאמנות אותה.2 כלים של ראיית מכונה לזיהוי רגשות על סמך הבעות הפנים, קרופורד טוענת, כמו שיטות סיווג אחרות שנעזרות בבינה מלאכותית, מעלים באוב תפיסות פיזיונומיות, פרנולוגיות, קרניומטריות ואֵיגניות מפוקפקות שגורסות כי אפשר להביט בפניו של אדם בתצלום או בסרטון וידאו וללמוד מן התמונה על מצבו הנפשי באותו רגע ועל אישיותו ככלל (אופיו, נטייתו לפשע או לאלכוהוליזם, העדפתו המינית, מידת המחויבות שלו לעבודה וכדומה).3 הצילום נוכח לשיטתה כתשתית האפיסטמית שאפשרה בעבר ועדיין מאפשרת את ההפשטה, הסיווג, הארכוב ויצירתה של "ראָיה".4 מערכות עכשוויות של ראייה ממוחשבת וזיהוי פנים מייצרות מה שאני מציע לכנות "פיזיונומיה 2.0" או "קרניומטרייה דיגיטלית", ולטענת קרופורד הן מתראות כאובייקטיביות אך בפועל מסתופפות עדיין בצילן של בעיות אפיסטמולוגיות עמוקות.5
- 6. Martin Kemp, "'A Perfect and Faithful Record': Mind and Body in Medical Photography before 1900", in Beauty of Another Order: Photography and Science, ed. Ann Thomas (Yale University Press, 1997): 120-149
- 7. "The First Principle of Physiognomy", Cornhill Magazine 4 (1861): 570. ודוגמה נוספת: "אפשר לקרוא את ההיסטוריה של התשוקות האנושיות בספר האוספים הזה, שבו הפנים הן כמו דף וכל תכונה היא שורה רהוטה! איזו מסה פילוסופית! איזו פואמה, שרק האור לבדו יכול לכתוב!" (Ernest Lacan, Esquisses photographiques, á propos de l'Exposition universelle et de la guerre d'Orient (Grassart, 1856), 39-40, מצוטט אצל: Georges Didi-Huberman, Invention of Hysteria: Charcot and the Photographic Iconography of the Salpêtrière [MIT Press, 2003], 54).
- 8. Crawford, Atlas of AI, 146
החיבור של הפיזיונומיה לצילום במאה התשע עשרה התבסס על האמונה בשקיפות ובאובייקטיביות הן של המדיום – הצילום כמנגנון אופטי מכני שיוצר בעזרת האור לבדו "רישום מושלם ואמין" של המציאות6 – הן של הפנים האנושיות, שהאופי הפנימי נכתב בהן כביכול ב"שפת הטבע". כפי שהכריז כתב העת הבריטי Cornhill Magazine ב־1861: "עם דיוקנאות ותחריטי דיוקנאות כמו אלה שהיו לנו עד כה, כמעט לא היה אפשר לחרוג מעבר למדע המעורפל של לווטר [Lavater]. נדרש לנו הצילום [...]. דבר פרט לצילום אינו יכול לתקן חוסר ודאות זו, והוא נותן לפיזיונום תחושה שהוא ניצב על קרקע בטוחה".7 הדיוקן המצולם אפשר למדענים לבחון בקפידה סובייקטים לצורך מיון טקסונומי ובניית קטלוגים שיטתיים והטעין את המדיום בפוטנציאל פוליטי רב כאמצעי לניהול ולשליטה. כיום, קרופורד טוענת, ה־"AI" נשען על היסטוריות בעייתיות אלה ומעצים את הבעיה: "מערכות של למידת מכונה", היא אומרת, "מבנות את הגזע ואת המגדר".8 כמו כן, מערכות עכשוויות של ראייה ממוחשבת וזיהוי פנים מתבססות גם כיום על תצלומים שנאספו בהיקף עצום, לרוב ללא הסכמה, ותויגו באמצעות קטגוריות מצמצמות של מגדר, גזע, גיל וזהות. הצילום עדיין מתפקד כחומר גלם שנראה "שקוף" ובלתי מתווך אף שלמעשה הוא עובר תהליכים מובהקים של בחירה, חיתוך, תיוג ופרשנות.
פחד ואימה
- 9. Guillaume-Benjamin Duchenne de Boulogne, Mécanisme de la Physionomie Humaine; ou, Analyse électro-physiologique de l'expression des passions applicable à la pratique des arts plastiques (Ve Jules Renouard, 1862), I, "Préparations anatomiques et portraits", 6; https://archive.org/details/mecanismedelaphy00duch
- 10. עד המצאת הצילום המהיר, כשני עשורים מאוחר יותר, רישום־חטף של הבעות חרג מיכולתו של מנגנון הצילום האיטי, והעולם נדרש לעצור אל מול העדשה.
ד"ר גיום־בנז'מן דושן דה בולון, חלוץ השימוש הרפואי בצילום ובחשמל, הצמיד בקפידה אלקטרודות באזור המצח, בעוד אסיסטנט מיקם עוד שתיים באזור הלסת התחתונה והצוואר, וביחד הם חִשמלו בעדינות "זקן חסר שיניים בעל פנים רזות שתוויהן לא היו מכוערים לגמרי והתקרבו למראה הטריוויאלי ושהפיזיונומיה שלהן תאמה להפליא את אופיו הלא מזיק ואת האינטליגנצייה המוגבלת שלו".9 זרמי החשמל גרמו לאשכולות שרירי הפנים להתכווץ לפקודת הרופא ורשמו כביכול הבעת אימה לא רצונית על פניו המאולחשות של הזקן. הצלם אדריאן טורנשון (Tournachon) הסיר את מכסה העדשה ומנה את השניות בזמן שלוח הזכוכית נחשף למראה גופו המעורטל של הזקן, והאמולסייה הַרגישה לאור רשמה את פניו המשותקות. האלקטרודות של דושן דאגו לייצב את הבעת ה"אימה" למשך זמן הצילום הארוך והקפיאו – במציאות ובתמונה – פרפורמנס של רגע חולף.10
- 11. שם, 7.
בערך באותה שנה צילמו טורנשון ואחיו פליקס, הלוא הוא הצלם הנודע המוכר בשם "נדאר" (Nadar), סדרה של תצלומים ליריד העולמי של 1855 שבה מוצג הפנטומימאי שארל דבּוּרו (Deburau) בדמות פיירו. פניו של הליצן האילם היו צבועות בלבן, כדף חלק, ועליהן הוא רשם ללא מילים רגשות צחוק, אימה או הפתעה. בניגוד לפנטומימאי, אלוף ההבעות, הזקן חסר השיניים של דושן סבל מאלחוש של הפנים: "יכולתי לערוך ניסויים על פניו בלי לגרום לו כאב", הסביר הרופא, "וכך התאפשר לי לעורר שרירים ספציפיים ברמת הדיוק הרצויה כאילו עבדתי עם גופה חמה".11
- 12. מישל פוקו, לפקח ולהעניש: הולדת בית הסוהר, תרגום: דניאלה יואל (רסלינג, 2015), 24-14; 280-243.
האלקטרודות, התגאה דושן, לא היו חודרניות והעבירו אל מתחת לעור רק זרם חשמלי חלש. לטענתי, כמו בעיקרון הפנאופטי של מישל פוקו, שבו הענישה הפיזית שהופנתה במישרין כלפי הגוף הוחלפה במבט המפקח שנועד להבין את הנפש,12 התצפית הקלינית של דושן מקיפה בקפידה את הגוף המאולחש שאינו חש את האלימות המופעלת עליו, ועדשת המצלמה של אדריאן ממסגרת את הגוף העיוור שאינו יכול להחזיר מבט. הצילום המדעי של דושן מכונן סימטרייה חד־כיוונית של המבט: הגוף נהפך לשדה של איסוף נתונים בעוד הסובייקט מנושל מיכולתו להגיב או לסרב.
- 13. Crawford, Atlas of AI, 163
- 14. שם, 53. על ה"התעמלות של הנפש" ראו גם: Robert A. Sobieszek, Ghost in the Shell: Photography and the Human Soul, 1850-2000 (Los Angeles County Museum of Art and MIT Press, 1999), 38-79. סובייצק מבחין (שם, 51-49) בין הפיזיונומיה של לווטר שהתמקדה בסימני הפנים הקבועים והלא משתנים ובין הפיזיונומיה של דושן שהייתה קרובה יותר ל"פתונומיה", חקר הבעות הפנים.
הזרם החשמלי לא נועד להכאיב, אך הוא גם לא נועד לסייע לקשיש – אחד מחמשת אלפים המאושפזים בסלפטרייר, בית החולים לעניי פריז שריכז אנשים עם בעיות נירולוגיות – אלא לסייע למדע במיפוי אנטומי של שרירי הבעות הפנים לשם זיהוים של מצבים נפשיים ורגשיים פנימיים. קרופורד מזכירה שניסוייו ותצלומיו של דושן הם חלק ממסורת ארוכה – שנמשכת עד היום – של ניסויים רפואיים וטכנולוגיים שמבוצעים על האוכלוסיות הפגיעות ביותר.13 ההנחה הפיזיונומית של דושן הייתה שהעולם הפנימי נרשם בפָּנים באמצעות מנגנון השרירים, וכך הוא מאפשר למנגנון המצלמה הלוכד את פני השטח של הפנים לתפוס גם את הנפש. ספרו של דושן 'המכניזם של הפיזיונומיה האנושית' מ־1862 הנפיש את האפיונים הפיזיונומיים הנוקשים של תווי הפנים הסטטיים ב"התעמלות של הנפש" כפי שהיא נרשמת במהירות דרך שרירי הפנים הדינמיים.14
- 15. Charles Darwin, The Expression of the Emotions in Man and Animals (John Murray, 1872); https://darwin-online.org.uk/converted/pdf/1897_Expression_F1152.pdf. על השפעת מחקרו של דושן על דרווין ראו: Sobieszek, Ghost in the Shell, 44; וראו גם: Phillip Prodger, Darwin's Camera: Art and Photography in the Theory of Evolution (Oxford University Press, 2009), 81-92.
- 16. Darwin, The Expression of the Emotions, Plates V, VI, and VII
ספרו של דושן השפיע על מחקר הבעות הפנים של צ'רלס דרווין 'הבעת הרגשות באדם ובבעלי החיים' מ־1872, כי הוא אפשר לו להשוות אשכולות שרירים שמופעלים במצבים רגשיים זהים (אימה, למשל) בפניהם של בני אדם ושל בעלי חיים אחרים.15 הוא גם הדגים את כוחו הרטורי של הצילום בפרסומים מדעיים ועודד את אבי תורת האבולוציה לכלול רפרודוקציות בספרו. מלבד הדימויים המחושמלים של דושן הטמיע דרווין בספר סדרת דיוקנאות מבוימים שהזמין מן הצלם אוסקר גוסטב ריילנדר (Rejlander), שבהם צילם האמן את עצמו בסטודיו כשהוא עוטה הבעות גועל, הפתעה, בכי וכדומה.16 נוכח מגבלות החשיפה האיטית של לוח הצילום, גם ריילנדר, כמו דושן, ביים את מצולמיו – ובעיקר את עצמו – כדי להפיק הבעה "נכונה" משכנעת.
אם כן, כבר בניסיונות הראשוניים ללמוד בעזרת הצילום על מצבי הנפש מתוך הבעות הפנים החיצוניות היה ממד פרפורמטיבי חזק שמנוגד לאתוס של הצילום כראיה אובייקטיבית ושהתגלגל גם למחקרים מאוחרים יותר של "הבעת הרגשות", אף שלא נתנו עליו את הדעת.
אימוני הבעה
קרופורד מספרת שדושן ודרווין הניחו יסודות חשובים למערכת זיהוי הרגשות האוניברסליים שפיתח הפסיכולוג פול אקמן (Ekman) בשנות השישים והשבעים של המאה העשרים במימון אגף המחקר של משרד ההגנה ומערכת הביטחון האמריקנית.17 אקמן הניח שישנם שישה או שבעה רגשות אוניברסליים בסיסיים (שמחה, כעס, עצב וכדומה) שמשותפים לכלל האנושות, והם טבעיים, מולדים וזהים בכל התרבויות בעולם.18 כמו עמיתיו בני המאה התשע עשרה נשען גם אקמן על הצילום לשם זיהוים ואפיונם של מיקרו־שינויים בשרירי הבעות הפנים, וכמוהם גם הוא הסתמך על הבעות פנים מעושות. הוא פיתח מערכת לקידוד פעולות הפנים (FACS – Facial Action Coding System) שיצרה סטנדרטיזציה, אוניברסליזציה ואוטומציה של זיהוי ומדידת רגשות אגב התעלמות מניואנסים מקומיים ותרבותיים. היא הייתה סבוכה לתפעול ידני ורחוקה מדיוק מדעי אך סיפקה, לדעת קרופורד, שני דברים שעתידים להיות חיוניים ליישומים של למידת מכונה: סדרה יציבה, מובחנת וסופית של תוויות שבני אדם יכולים לסווג באמצעותן לקטגוריות תצלומי פנים ושיטה להפקת מדדים.19 ההתפתחות המחקרית הזאת השתלבה היטב ברצון של תעשיות הצבא והמודיעין לגייס את מדעי ההתנהגות כדי "לקרוא" אנשים מרחוק ולזהות מבעוד מועד את כוונותיהם.20 לא בכדי, אומרת קרופורד, מוטמעים בלוגיקה ובאפיסטמולוגיה הכללית של הבינה המלאכותית תפיסות סיווג שנגזרו משדה הקרב, כגון זיהוי "מטרות", "נכסים", "איתור אנומליות", "רמות סיכון" ועוד.21 כיום אפשר למצוא כלים לזיהוי רגשות במערכות ביטחון לאומיות ובשדות תעופה, בגיוס עובדים, בסינון שלהם ובמעקב אחריהם, בתוכנות שמתיימרות לזהות מחלות פסיכיאטריות או לחזות אלימות ועוד.22
- 23. שם, 168.
- 24. ראו כאן סרטונים של עטיית הבעות הפנים שמרכיבות את מערך הנתונים של הבעות הפנים Cohn-Kanade: https://www.youtube.com/watch?v=wnF7Id9G6rM.
כאשר השימוש במחשבים לשם זיהוי רגשות החל להתגבש, קרופורד מסבירה, חוקרים הבינו את הצורך באוסף של תצלומים סטנדרטיים שיהיה אפשר להתאמן עליהם.23 מאגרי התמונות המוקדמים שלהם נוצרו בעזרת נבדקים שקיבלו הוראה לבצע מול המצלמה סדרה של כעשרים הבעות פנים (כגון "שמחה", "עצב", "פחד"), והמומחים קודדו אותן לאחר מכן בעזרת תוויות.24 כמו האימה המפוברקת אצל דושן או תיאטרון הפרצופים של ריילנדר, הפנים המבוימות במערכי אימון הבינה המלאכותית מציגות הבעות קיצוניות של הפתעה, שמחה או פחד. תוכנות לזיהוי רגשות נשענות אפוא על אימון של כלי הבינה המלאכותית לזהות רגשות "אותנטיים" מתוך תצלומים מבוימים של רגשות מזויפים...
- 25. Geoffrey Batchen, Suspending Time: Life – Photography – Death (Nohara and IZU Photography Museum, 2010), 114
- 26. John Tagg, The Burden of Representation: Essays on Photographies and Histories (Macmillan, 1988), 36
- 27. שם.
- 28. Alan Trachtenberg, Reading American Photographs: Images as History (Hill and Wang, 1989), 26-27
אולם כדי לעמוד על מלוא הבעייתיות של המנגנונים העכשוויים לזיהוי רגשות מתוך הבעות הפנים כדאי לדעתי לחזור אחורה אל ראשית הצילום. ג'פרי באטשן מסביר שבדור הראשון לצילום, הן הצלם הן לקוחותיו עוד לא ידעו בבירור כיצד נכון להתייצב מול המצלמה, ולכן קלסתרוני הדאגרוטיפ המוקדמים הם בעיניו "דיוקנאות של אנשים שעדיין לומדים איך להיראות כמו עצמם".25 המצולמים אימצו בגמלוניות מראה שכבר היה מוכר להם, ככל הנראה מצפייה בציורים או הדפסים של דיוקנאות של אחרים – מראות מוכרים אבל עדיין לא ממש טבעיים. כבר ב־1853, טוען ג'ון טאג, הבין הקריקטוריסט אונורה דומייה (Daumier) שההבדל בין דיוקן של "אדם מתורבת" לזה שאינו "מתורבת" אינו טמון בתארים שרכשו, ברוחב ידיעותיהם או בעומק האינטלקטואלי של מחשבתם אלא בסוג ההבעה שהם עוטים מול העדשה: בחירה "שגויה" תהיה להיישיר מבט אל המצלמה, כי היא תגרום למצולם להיראות בּוּר (ואף עבריין); ואילו בחירה "נבונה" יותר תהיה להטות בעדינות את הראש מעלה תוך כדי הסבה קלה הצידה.26 טאג טוען כי החזיתיות הנוקשה של תצלומי הדיוקן הפשוטים סימנה את הבוטות וה"טבעיות" של מעמד שלא ניחן בתחכום תרבותי, לעומת האסימטרייה של "האדם המתורבת" האריסטוקרטי.27 בעשורים הראשונים של הצילום נכתבו מדריכים שהשיאו עצות הן למפעילי המצלמה הן למצולמים היכן להניח את הידיים והעיניים ואפילו על מה כדאי לחשוב בזמן החשיפה כדי להפיק את ההבעה ה"נכונה" של עצמם – כזו שתקרין את האופי הפנימי שלהם.28
מאז הופעת המצלמות הביתיות והתפתחות צילום החטף בסוף המאה התשע עשרה, דיוקנאות לא בוימו עוד בסטודיו אלא צולמו תוך כדי תנועה. הבעות מסוימות, ובייחוד חיוכים, נהפכו ל"טבע שני" במפגש עם העדשה. גם ללא הנחיה או בימוי, רבים עוצרים ומחייכים חיוך אוטומטי ברגע שהם רואים מצלמה, כאותה אישה צעירה שכורעת לצד גבר טבוע – בן זוגה, אולי – בתצלום של ויג'י מקוני איילנד ב־1940:29 הגבר המונשם מוקף בצוות רפואי חמור סבר, מאחוריהם עשרות אנשים עומדים בבגדי ים ובפנים רציניות, ובמרכז הפריים, סמוך לטבוע הגוסס, חברתו מביטה לצלם ומחייכת. ממש "a Kodak moment".
- 30. Christina Kotchemidova, "Why We Say 'Cheese': Producing the Smile in Snapshot Photography", Critical Studies in Media Communication 22:1 (2005): 2-25, https://doi.org/10.1080/0739318042000331853
החיוך למצלמה, טוענת כריסטינה קוצ'מידובה, היה לביטוי סטנדרטי בצילום רק בתחילת המאה העשרים בעקבות מסע פרסום אגרסיבי וארוך של חברת קודאק ששלטה בשוק הצילום האמריקני וקישרה את המצלמה לרגעים סנטימנטליים של פנאי, הנאה וחופשה משפחתית אגב הימנעות מהקשרים של עצב או מצוקה.30 במשך עשורים רבים הציגו הפרסומות של קודאק פנים מחייכות ובכך נרמלו את התפיסה שחיוך הוא תגובה טבעית ורצויה – כמעט מחייבת – בתמונות.
- 31. Crawford, Atlas of AI, 153-4
ה"אימונים" בהבעות מימי ראשית הצילום והתניות החיוך של קודאק יצרו ברבות השנים את אמות המידה שעליהן מתבססת הבינה המלאכותית כשהיא מנסה "לפענח" רגשות אנושיים. כאשר מערכות AI לאבחון רגשות מאומנות כיום על מיליוני תצלומי ארכיון ורשתות חברתיות, הן אינן מזהות רגש "טבעי" או אוניברסלי אלא "קוצרות" את אותן הבניות תרבותיות שהיו לטבע שני. בכך מבצעת הבינה המלאכותית רדוקצייה מסוכנת: היא מפרשת את המוסכמה הצילומית כאמת ביולוגית־אובייקטיבית. יתרה מזאת, כפי שקרופורד מציינת, כשהיא נקשרת במנגונים של מעקב וסיווג היא ממלאת תפקיד רב־עוצמה ב"השפעה על התנהגות ובאימון אנשים להופיע בדרכים מוכרות",31 כלומר היא מאששת את המוסכמה ובד בבד מנתקת אותה מכל רגש אותנטי.
עוד ועוד נתונים?
כשבעים שנה לפני התקרית המצערת בחוף קוני איילנד כתב ריילנדר לדרווין בגב אחד מתצלומי הדיוקן ששלח לו כי הבעות הבכי והצחוק דומות בעיניו עד מאוד. במסגרת מחקריו על הבעות הפנים השתוקק דרווין לתצלום של תינוק צורח, משום שהאמין כי הפעוטות אותנטיים יותר בהבעותיהם. הוא ביקש מריילנדר לצלם לו תמונה שכזו, אולם משך החשיפה הארוך של לוח הקולודיון הִקשה את השגתו של תצלום ברור. לאחר מאמץ הצליח ריילנדר לצלם תצלום קטן ומטושטש של עולל בוכה במצוקה, אך התמונה לא הייתה טובה דיה להדפסה בספר. הוא הקרין את התצלום על דף חלק, ובזכות הכשרתו הקודמת כצייר יצר רישום פחם משופר – חד וגדול יותר – של התינוק הבוכה, ואז צילם רפרודוקצייה של הציור.32 הוא שלח לדרווין הדפס של הרפרודוקצייה – כאמור, העתק מצולם של ציור שיצר על סמך תצלום מטושטש – ודרווין פרסם את התמונה בספרו כאילו הייתה תיעוד "ישיר", ללא אזכור של המניפולציה מרובת הפנים שמאחוריו.33 לאחר שצייר את הפעוט המייבב צילם ריילנדר את עצמו לצד הציור, פעם בהבעת צחוק מבוימת ופעם בהבעת בכי מבוימת, וכתב לדרווין: "פה צחקתי! חה! חה! חה!... בשנייה בכיתי – אה, אה, אה, אה... ובכל זאת כמה דומות ההבעות".34
כיצד תוכל מכונה מלומדת לעזור לדרווין להבחין בין ריילנדר הצוחק לריילנדר הבוכה? על פי קרופורד, תעשיית הבינה המלאכותית תשיב שבעיית הזיהוי השגוי של צחוק או של בכי יכולה להיפתר באמצעות הזנת עוד ועוד נתונים לאימון ראיית המכונה. ההנחה היא שמערכי נתונים גדולים יותר ויותר לא רק ישפרו את אומדני ההסתברות של תהליכים אקראיים אלא גם יגדילו את הסיכוי שהנתונים ילכדו תוצאות נדירות יותר, ומכאן המוטו הידוע בתעשיית ה־AI: "There's no data like more data".35 גישה זו הובילה לאיסוף מידע המוני ללא רשות ותוך כדי פגיעה בפרטיות ובכבוד האדם מתוך מחשבה שמותר וראוי לאסוף כמה שיותר נתונים לטובת ניתוח וניצול טכנולוגי ומתוך אמונה שאפשר להמיר כל תופעה אנושית – דיבור, צילום, תנועה – למידע מתמטי. בניגוד לגישת ה"עוד ועוד נתונים" לתיקון השגיאות וההטיות, קרופורד גורסת שהבעיה אינה טעויות מדידה נקודתיות אלא עצם מסגרת הסיווג וההנחות האונטולוגיות המניעות אותה. המטרה לדעתה לא צריכה להיות מדידות גולגולת מדויקות או "הוגנות" יותר שיחזקו מודלים גזעניים של אינטליגנצייה אלא גינוי כולל של הגישה.36
- 37. על האפרטוס כמנגנון ללכידת היצורים החיים ראו ג'ורג'יו אגמבן, מהו אפרטוס?, תרגום: מאיה קציר (רסלינג, 2006), 28.
- 38. Crawford, Atlas of AI, 133
- 39. קייט קרופורד וטרבור פגלן, "ארכיאולוגיה של ראיית מכונה", הזמן הזה, ספטמבר 2020, https://hazmanhazeh.org.il/ai.
- 40. Tagg, The Burden of Representation, 35
אני מבקש לטעון כי אל הרווח שבין הסיווגים שאפרטוס הראייה הממוחשבת של הבינה המלאכותית מייצר ובין הישויות הממשיות הנלכדות בו מתגנבים תצלומים שמדביקים את אלה לאלה בחומר השקוף שממנו הם עשויים.37 בתאולוגיה, קרופורד טוענת, היכולת לתת שם ולחלק דברים לקטגוריות נחשבת למעשה אלוהי.38 כאשר קוראים בשם, הופכים את עצם קיומה של הקטגוריה לממשי: "בניית קטגוריות כמוה כמעשה כשפים. כאשר יוצרים קטגוריות או קוראים לדבר בשם, מחלקים יקום שמורכבותו אינסופית כמעט לתופעות נבדלות זו מזו" אומרים קרופורד וטרבור פגלן.39 בה במידה, היכולת להעניק צֶלֶם נחשבה למעשה בריאה שמיוחס לאל. כאשר מצלמים ומתייגים, הופכים בעורמה את עצם קיומה של הקטגוריה מרעיון חסר צורה לדימוי ממשי וספציפי. "שקיפותו של הצילום היא כוחו הרטורי החזק ביותר", טוען ג'ון טאג, משום שהוא מעלים ביעילות את פעולת התיווך.40 אמנם תצלומים הם פוליסמיים ופתוחים לאסוציאציות שונות ולפרשנויות סותרות ומתחרות, אך לאורך ההיסטוריה הם סיפקו מבנים נוקשים לקטגוריות כלליות כגון גזע, שיגעון, בריאות, סטייה וכדומה משום שהפכו הגדרות מופשטות ל"מציאות חברתית" או ל"הוכחה מדעית" שכביכול נמצאת מול העדשה.
קרופורד מסבירה כי הארכיטקטורה של ערכות האימון של הבינה המלאכותית נשענת על מאגרי תמונות שמחולקות לקטגוריות ומתויגות בעיקר בשמות עצם, מתוך הנחה שעצמים ניתנים לייצוג בתמונות. בטקסונומיה זו, תמונה מתויגת של כיסא תימצא בתחתית הסיווג: ״חפץ״ ״ציוד״ ״רהיט״ ״מושב״ ״כיסא".41 כל אחת מן השכבות בערכת אימון כזאת, טוענת קרופורד, רוויה בפוליטיקה, אידאולוגיה ודעות קדומות, אך הקטגוריה הטעונה והנפיצה ביותר היא גוף האדם, משום שהיא מנכיחה את הסכנות האצורות במיון של בני אדם ובהתייחסות אליהם כאל אובייקטים. כדי להדגים את הבעייתיות בסיווג יצרה קרופורד עם פגלן ב־2019 את "רולטת אימג'־נט" שהתבססה על מערך הנתונים הגדול של ImageNet ועל שיטת הסיווג שלה.42
אימג'־נט שאבה ללא רשות וללא ידיעת המצולמים מיליוני תמונות מן האינטרנט וסיווגה מתוכם בני אדם לטווח עצום של קטגוריות על פי גזע, לאום, מקצוע, התנהגות ואופי. בבחינה קפדנית של התצלומים הגיעו קרופורד ופגלן לסמטאות אפלות של קטגוריות אבסורדיות ופוגעניות: אישה בביקיני תויגה כ"זונה, פרוצה, מופקרת, יצאנית"; צעיר ששותה בירה תויג כ"אלכוהוליסט, שתיין, מבוסם, שיכור"; אישה שנראית כשהיא ישנה במטוס, ידה מגוננת על בטן הריונית, תויגה כ"סנובית".43 ביישומון "רולטת אימג'־נט" של קרופורד ופגלן היה אפשר להעלות תמונות דיוקן פרטיות למערכת ולהיווכח כיצד הן יתויגו על סמך הקטגוריות של אימג'־נט. לא פעם ראו אנשים את דיוקנם מתויג בתוויות כגון "כישלון", "לוזר", "משוגע", "מכור לסמים", "קלפטומן", "סוטה", "סכיזופרן", "רווקה זקנה" וכדומה.44 רבים מן התיוגים כללו משלחי יד כגון "רופא שיניים". אבל איך אדם יכול "להיראות כמו רופא שיניים"?
- 45. Patrick Dinneen, "ImageNet Roulette vs. August Sander", PDJ, April 25, 2022, https://www.patrickdinneen.com/posts/imagenet-roulette-vs-august-sander
- 46. אפשר לראות כמה מתוצאות הקִטלוג כאן.
משתמש בשם פטריק דינין חמד לצון ועימת את "רולטת אימג'־נט" עם פרויקט סיווג אחר מן ההיסטוריה של הצילום שיצר הצלם הגרמני אוגוסט זנדר במחצית הראשונה של המאה העשרים.45 זנדר קטלג דיוקנאות שצילם בגרמניה במערכת טיפולוגית לפי משלחי יד: "תיאולוג", "קונדיטור", "סטודנט", "מובטל". דינין העלה את הדיוקנאות של זנדר ל"רולטת אימג'־נט", וזו זיהתה את הקונדיטור דווקא כ"תאוסופיסט"; חברת קרקס זוהתה כ"סופרג'יסטית", ועמיתה למופע, שמופיע לצידה באותה תמונה ממש, זוהה כ"ביוגרף".46 איך נראית "סופרג'יסטית"? שואל דינין. האם כך נראה "ביוגרף"? מעבר לתיוגים הספציפיים, דינין תוהה מדוע חברי הקרקס בהירי העור קיבלו תוויות שמעידות כביכול (גם אם בטעות) על מה שהם עושים, ואילו הגבר השחור היחיד מתויג לפי צבע עורו ("אדם שחור"). ומדוע האישה השחורה המביטה למצלמה בחלקו העליון של התצלום אינה מזוהה כלל? התרגיל הפנים־צילומי של דינין מבליט את האלימות חסרת השחר שבמלאכת הסיווג של אימג'־נט – האלימות ש"רולטת אימג'־נט" מבקשת לחשוף.
ההיסטוריה העתידית של דמויות הרפאים
- 47. ראו אלן סקולה, "הגוף והארכיון", בצלאל, כתב עת לתרבות חזותית וחומרית 5 (2019), https://journal.bezalel.ac.il/v1/archive/4035.
במוזיאון הגניאלוגיה החזותית של הבינה המלאכותית וההיסטוריה האפלה של הצילום, מול תיאטרון ההבעות של ריילנדר ונוכח הפנים המחושמלות של דושן דה בולון בוהים אלינו הפרצופים השקופים למחצה ונטולי ההבעה מפרויקט התצלומים המרוכבים (composite photographs) של אבי תורת השבחת הגזע, סר פרנסיס גלטון (Galton). ריילנדר העלה על פניו הבעות מול העדשה, ואילו דושן ניסה למפות, לסווג ולקטלג בשיטתיות את תנועת הנפש כפי שהיא נרשמת בפָּנים; גלטון, לעומתם, ניסה לחלץ טיפוסים ביולוגיים ביצירת דיוקנאות סטטיסטיים של "האדם הממוצע".47
- 48. שם. גלטון השתמש במונח "גזע" ששונה מן המקובל בימינו וקרוב יותר למושג "טיפוס". הוא הניח שקיימים טיפוסים אנושיים מובחנים ומתמידים, והצילום המרוכב שלו שאף ללכוד את "המרכז הטיפוסי של הגזע". ראו עמוס מוריס־רייך, מדעי הגזע: תולדות הצילום כראָיה מדעית (הוצאת הקיבוץ המאוחד, 2024), 60.
גלטון אסף תצלומי קלסתרון סטנדרטיים של יחידים שהשתייכו בעיניו לאותו טיפוס ("יהודים", "פושעים", "גאונים" וכדומה).48 הדיוקנאות של אותו "טיפוס" צולמו ברצף במכונת רפרודוקציות מיוחדת על גבי לוח צילום אחד – כלומר לוח הצילום נחשף שוב ושוב, אך בכל פעם לדיוקן אחר. אם למשל היו ברשותו של גלטון חמישה קלסתרונים של "בריטים שהורשעו ברצח מדרגה ראשונה", כל דיוקן קיבל חמישית מזמן החשיפה הדרוש. גלטון טען שבתצלום המרוכב יופיעו בחדות רק קווי המתאר המשותפים לרוב חברי הקבוצה. הפרטים הייחודיים, יוצאי הדופן, יותירו רושם מועט על הממוצע בשל חשיפת חסר, ואילו קווי המתאר הברורים יחשפו את התווים המשותפים.
- 49. מוריס-רייך, מדעי הגזע, 61.
לדעת גלטון סיפק הצילום המרוכב תמונה כללית שדומה במידה שווה לכל הפרטים המיוצגים בה, בלי שתדמה לאחד מהם יותר מלרעהו.49 אפשר אולי להבין את הפוטנציאל שייחס לשיטה אם מביטים בקפידה בדיוקנאות הסטנדרטיים של שלוש אחיות מן החזית (למעלה) ובצדודית (למטה), ואז בדיוקן הממוצע הכפול שלהן (במרכז). הדיוקן הממוצע אינו דומה לשום אחות, ובו בזמן הוא דומה לשלושתן. האם אי אפשר להניח שלו הייתה קיימת אחות רביעית מאותם הורים, היא הייתה דומה בהסתברות לא קטנה לאחות הממוצעת?
- 50. שם, 57.
האֵיגניקה של גלטון, כותב עמוס מוריס־רייך, כוונה אל העתיד והתבססה על דימוי של עבר רחוק טהור ובלתי מזוהם.50 הוא האמין כי בעזרת חוקי הפיזיונומיה אפשר לסווג את האוכלוסייה, לברור את "המוצלחים" ולסמן את ה"פגומים". אחת ממטרות הצילום המרוכב הייתה ליצור עתיד טוב יותר דרך ממוצעים של כמה בני משפחה יחדיו כדי לחזות מראש את החזות הפיזית של הצאצאים מנישואים אפשריים וכדי ליצור "מאגרים גזעיים טהורים" שיעזרו בעריכת סלקצייה של זיווגים נכונים לשם השבחת הגזע. כמו בן דודו דרווין ביקש גם גלטון לרתום את הסטטיסטיקה והאופטיקה המודרניות לשיפור יכולת ההישרדות של המין האנושי במאבק בין הגזעים. אולם תחת ידיו הופשטה תורת האבולוציה מהשפעות הסביבה על תהליכי הברירה הטבעית והודגשה חשיבות הפן התורשתי בלבד.
- 51. Crawford, Atlas of AI, 92.
במיזוג של האופטיקה ושל הסטטיסטיקה בישר גלטון על השילוב המתוחכם פי כמה שלהן ברשתות העצביות של ראיית המכונה. כשדיוקנאות סטנדרטיים משמשים כערכות נתונים, אומרת קרופורד, הם מפעילים מחדש את המנגנון הפורמלי של גלטון: הם משמשים לאיתור הרכיבים המתמטיים של הפנים האנושיות ולהחליף את הטבע האנושי במהויות גאומטריות.51 אולם השאיפה ל"נורמה" סטטיסטית מחייבת את מחיקת החריגה, הייחודיות והמורכבות האנושית. הטשטוש הוויזואלי בשולי הדיוקנאות המרוכבים של גלטון מייצג את כל מה שהסטטיסטיקה אינה יכולה להכיל. מערכות AI עכשוויות נוטות גם הן להתעלם מזהויות שאינן מתיישבות עם הסטנדרטיזציה של מאגרי הנתונים או "ליישר" אותן, ובכך הן מבצעות אקט של הדרה אפיסטמית במסווה של דיוק חישובי. כאשר מערכות בינה מלאכותית עכשוויות מאומנות על יסודות אלו, הן אינן רק "מעבדות נתונים" אלא פועלות כסוכנות של נורמליזציה כפויה.
אולם הפורטרטים המרוכבים אינם רק מנגנון סיווג וסטנדרטיזציה אלא גם פנטזיה מוקדמת על בינה מלאכותית. ברמה האפיסטמית האמין גלטון שמנגנון צילום הרפרודוקציות שלו מדמה את פעולת הנפש האנושית ואת אופני תפיסתה: העין קולטת רק פרטים אינדיבידואליים, אך אלו מוטבעים בנפש, מצטברים בה, מסונתזים עם הזמן ונהפכים למושגים כלליים, אידאות או טיפוסים, ממש כמו התצלומים המרוכבים שלו.52 המצלמה של גלטון, כמו רשת הנירונים של ימינו, התיימרה לדמות פעילות מנטלית שעד אז נשמרה לתודעה האנושית. בהשאלה מקרופורד אפשר לזהות במחשבה הזו מיתולוגיה שתזין את תעשיית הבינה המלאכותית: המיתוס שמערכות לא אנושיות (מצלמות או מחשבים) הן אנלוגיות למוחות אנושיים אגב התעלמות מן הדרכים המסוימות שבהן בני אדם מגולמים וממוקמים באקולוגיות רחבות יותר.53 רתימת מנגנון הפורטרטים המרוכבים לתנועת השבחת הגזע אמור לשמש אזהרה מפני האמונה שאפשר למסד ולשכפל אינטליגנצייה אנושית על ידי מכונות.
- 54. ולטר בנימין, "על מושג ההיסטוריה", בתוך מבחר כתבים ב': הרהורים, תרגום: דוד זינגר (הוצאת הקיבוץ המאוחד, 1996), 313.
הפרצופים המחושמלים והגרוטסקיים שצילם דושן, תיאטרון ההבעות בסטודיו של ריילנדר, חיוכים הזויים של נשים מעל גופות ודיוקנאות ה"טיפוסים" הסטטיסטיים של גלטון, כל אלו אינם רק אפיזודות מוזרות וחולפות בהיסטוריה של הצילום – הם התשתית האפיסטמית שעליה נשענת הראייה הממוחשבת העכשווית. בדמיוני נראים דיוקנאות הרפאים הממוצעים של גלטון כמו "מלאך ההיסטוריה" של בנימין:54 פניהם פונות אל העבר בעודם נסחפים בסערת הקִדמה אל עתיד שבו מערכות של בינה מלאכותית מסנתזות מהם – ומשאר ההיסטוריה האפלה של הצילום – מציאות שהייחוד האנושי סולק ממנה.