Generativni modeli umetne inteligence in umetnostna zgodovina

girl with a pearl earring

Doslikava slike Dekle z bisernim uhanom Johannesa Vermeerja. Slika: August Kamp × DALL·E

V zadnjem letu in pol je svet umetnosti in oblikovanja močno pretresel izjemen razvoj generativnih slikovnih modelov. Nova orodja umetne inteligence so namreč omogočila, da lahko na podlagi tekstovnega opisa oziroma poziva (angl. prompt) ustvarjamo kakovostne slike, ne da bi za to potrebovali posebne likovne ali umetniške sposobnosti. T. i. difuzijski generativni modeli, kot so Dall-E, Stable Diffusion in Midjourney, ponujajo več načinov uporabe, med drugim lahko z njimi sliko ustvarimo zgolj na podlagi besedila oziroma tekstovnega ukaza, s pozivom jo lahko dodelamo na osnovi skice, dopolnimo ali zamenjamo dele obstoječe slike ali pa sliko dopolnimo oziroma doslikamo izven njenih robov.

Na področju znanosti uporabljajo nova orodja za generiranje slik zlasti v naravoslovju, na primer za izboljšave medicinske slikovne diagnostike in pri razvoju novih zdravil in materialov, medtem ko jih humanistika šele spoznava. Največ pozornosti je zaenkrat usmerjene na vprašanje njihovega vpliva na sodobno umetniško produkcijo, zlasti na probleme avtorskih pravic, avtentičnosti, kreativnosti in pomena umetnosti. Razvpit je primer umetnika Grega Rutkowskega, čigar digitalne podobe za priljubljeni videoigri Dungeons & Dragons in Magic: The Gathering so navdihnile prve uporabnike modela Stable Diffusion. V enem samem mesecu dni od objave modela naj bi njegovo ime kar 93.000-krat uporabili kot poziv za generiranje novih slik v umetnikovem slogu – brez avtorjevega védenja ali privolitve. Pred kratkim se je zato Rutkowski pridružil že drugič vloženi in dopolnjeni razredni tožbi (angl. class action), v kateri skupina umetnikov toži podjetja Stability AI, DeviantArt, Midjourney in Runway AI, ki so protagonisti v razvoju generativnih slikovnih modelov, zaradi neavtorizirane uporabe svojih del za učenje algoritmov, ki omogočajo ustvarjanje novih slik v slogu poljubnega umetnika. Ob kršenju avtorskih pravic naj bi zaradi takšne prakse trpela tudi vrednost umetniške produkcije, saj z možnostjo enostavnega in dostopnega generiranja sorodnih del upada povpraševanje po izvirnih umetninah, umetniki pa za to ne prejmejo nobene kompenzacije. Sorodne tožbe, ki temeljijo na nasprotovanju uporabi najrazličnejšega, v digitalni obliki dostopnega gradiva za učenje modelov umetne inteligence, so čedalje pogostejše. Doslej so bile sicer brez izjeme ovržene, še zlasti zaradi pomanjkanja dokazov o dejanski sestavi vhodnih podatkov, pri čemer pa je tožbi Rutkowskega in drugih prvič dodan tudi razkriti zaupni seznam umetnikov, katerih dela naj bi razvijalci Midjourneyja uporabili ob učenju modela. Ker veljavno avtorsko pravo »umetniškega sloga« ne prepoznava kot zaščiteno kategorijo, je takšne primere zaenkrat težko ustrezno obravnavati. Čeprav spornost tovrstne generacije slik s pravnega vidika še ni bila prepoznana, so nekateri razvijalci svoje modele že prilagodili, bržkone v izogib nadaljnjim sporom. Najnovejša, že tretja verzija priljubljenega orodja Dall-E ne upošteva več tekstovnih ukazov, ki zahtevajo generiranje slike v slogu živečega umetnika, ustvarjalcem pa hkrati omogoča, da (z veliko truda) prepovedo uporabo lastnih del za učenje modelov umetne inteligence.

Razvoj generativnih modelov odpira tudi možnosti za njihovo uporabo v umetnostni zgodovini. V zadnjih letih so se zanimivih projektov lotile nekatere najpomembnejše ustanove s področja umetnosti. Med letoma 2019 in 2021 so v nizozemskem Rijksmuseumu skušali s pomočjo umetne inteligence generirati manjkajoče dele znamenite Nočne straže (1642) slikarskega virtuoza Rembrandta van Rijna. Robovi mojstrovine so bili namreč leta 1715 odrezani, da so lahko sliko umestili v mestno hišo v Amsterdamu. Najboljši ohranjeni vir o prvotnem videzu umetnine je njena (sicer bistveno manjša) kopija, ki jo je še pred usodnimi rezi naslikal Gerrit Lundens (1622–1683). V sklopu večmilijonskega projekta Operacija Nočna straža so kopijo uporabili kot predlogo za stvaritev čim boljšega približka izvirne slike. S tehnologijo t. i. konvolucijskih nevronskih mrež so dimenzije in proporce Ludensove različice najprej prilagodili bistveno večjemu izvirniku, nato pa z algoritmom, ki so ga na podlagi velike učne množice naučili Rembrandtovega načina slikanja, prilagodili še barvo in slog. Z uporabo naprednih pristopov umetne inteligence so tako Ludensovo sliko »ponovno naslikali« v Rembrandtovem slogu, natisnili manjkajoče dele in jih za tri mesece razstavili skupaj z ohranjeno sliko. Pri takšni rekonstrukciji ni šlo le za kaprico ali preizkus nove, navdušujoče tehnologije. Eksperiment je znanstvenikom omogočil nov vpogled v skrivnostno mojstrovino: ne le da je dobro znano sliko razširil do prvotne kompozicije in jo dopolnil s pomembnimi detajli, med drugim z novima figurama na skrajni levi, ponudil je tudi povsem nov vpogled v njeno zasnovo, ki v svoji prvotni obliki učinkuje še bistveno bolje in bolj dinamično.

Novi pristopi omogočajo tudi celovitejše raziskovanje izgubljenih umetnin. Tri od skupno štirih slik, ki jih je mojster secesije Gustav Klimt naslikal za strop Velike dvorane na dunajski univerzi (Fakultätsbilder, 1900–1907), so danes znane le iz starih, črno-belih fotografij in številnih odzivov v medijih. Dela so bila namreč deležna vrste kritik, zaradi katerih so namesto v prostorih univerze pristala v zasebnih rokah. Leta 1938 so jih zasegli nacisti in jih skladiščili v dvorcu Immendorf, kjer so bile leta 1945 (domnevno) uničene v požaru. Slike Medicina, Pravo in Filozofija so strokovnjaki iz muzeja Belvedere in Googla na novo kolorirali na podlagi ohranjenih fotografij in opisov originalov ter primerjalne analize Klimtovih sorodnih del, pri tem pa so uporabili model umetne inteligence, ki temelji na konvolucijskih nevronskih mrežah in ki so ga prav s tem namenom razvili sami. Podobno kot Operacija Nočna straža je bil tudi ta projekt izveden s tehnično zelo zahtevnimi orodji in povezan z visokimi stroški.

Ker predvidevamo, da bi se lahko podobnih nalog lotili tudi z bistveno cenejšimi in preprostejšimi postopki, ki jih omogočajo najnovejše metode umetne inteligence, smo na ZRC SAZU pred kratkim začeli prebojni interdisciplinarni raziskovalni projekt. V njem preučujemo uporabnost generativnih slikovnih modelov na primeru vizualizacij pomembnih izgubljenih, poškodovanih, uničenih ali nerealiziranih umetnostnih spomenikov arhitekture, kiparstva in slikarstva na Slovenskem od srednjega veka do 20. stoletja. S pomočjo dostopnih orodij umetne inteligence želimo nadgraditi védenje o Žički kartuziji, uničenih poslikavah Marija Preglja, opusu skrivnostnega slikarja Almanacha in drugih izbranih mojstrovinah, pri tem pa razviti novo metodologijo, ki bo omogočila sprotno preverjanje raziskovalnih hipotez na podlagi hitrih vizualizacij.

 

* Prispevek je nastal v sklopu projekta Raziskovalne metode prihodnosti za preučevanje preteklosti. Uporaba generativnih slikovnih modelov za humanistiko, ki ga financira Javna agencija za znanstvenoraziskovalno in inovacijsko dejavnost Republike Slovenije (ARIS, RSF-O za ZRC SAZU).