Az AI integrációja a modern művészetbe – egy művész szemszögéből
Írta: Thomas Stonewell – alkotó
A mesterséges intelligencia (AI) nem ellenség, nem a művészet sírásója, és nem is egy démon, amelyet máglyára kellene vetni. Az AI egy eszköz. Lehet vele felületes, igénytelen, „slop” jellegű tartalmat generáltatni, és lehet vele olyan hibrid műveket létrehozni, amelyek korábban technikai vagy anyagi okokból megvalósíthatatlanok lettek volna.
A „AI slop” kifejezés azért terjedt el, mert sokan úgy használják a technológiát,
mint egy varázsgombot: „csinálj valami szépet”. Ilyenkor a végeredmény torz,
hibás és üres.
Az alábbiakban összefoglaltam nektek, amit a mesterséges intelligencia alkalmazásáról tudok az egyes területeken!
Grafika – amikor a prompt a művész ecsetje
AI slop példa – a „csinálj valamit” hozzáállás
Képzeljünk el egy nem művész, csak alkotni vágyó felhasználót, aki beírja:
„Generálj egy képet sok kutyáról.”
Jellemzően az illető nem ad meg további részleteket, nem írja le a
környezetet, a fényeket, a kompozíciót, a stílust, semmit. A modell pedig „kitalál valamit”.
A végeredmény ebben az esetben várhatóan:
- duplikált, teljesen egyforma kutyák
- anatómiai hibák: 5 láb, fél test, összeolvadt testrészek
- árnyék nélküli, lebegő elemek
- torzulás, furcsa arányok
Ez az, amit sokan AI slop-nak neveznek.
Technikai szempontból ez irányítás nélküli generálás:
a modell a rendelkezésre álló adatokból próbál valamit összerakni, de nincs mögötte tudatos kompozíció.
Az eredmény várhatóan valami ilyesmi lesz:
Ellenpélda – amikor a művész vagy informatikus gondolkodik
Nézzük meg ugyanazt a feladatot egy másik szemszögből: hogyan gondolkodik egy informatikus, egy fotós, egy vizuális művész?
Ő nem azt írja be, hogy „sok kutya”, hanem például:
- Referencia képek: feltölt több valódi kutyafotót, különböző szögekből, különböző testtartásokkal.
- Helyszín részletes leírása: „erdőszéli tisztás, nedves avarral, enyhe köddel a háttérben, őszi színvilág, 16:9 kompozíció, alacsony kameraállás, kb. 50 mm-es objektív hatás, délutáni szórt fény, enyhe ellenfény, lágy árnyékok, természetes kontraszt.”
- Jelenet és jelenlét: „A kutyák egymás felé fordulnak, játékos interakcióban. A bal oldali kutya épp ugrik, a jobb oldali a kamerába néz, középen enyhe mozgáselmosódás imitáció 1/60 záridőnek megfelelően. A háttérben finom bokeh, a fókusz a középső kutyán.”
- Technikai elvárások: nagy felbontás, fotórealisztikus textúrák, pontos fényviszonyok, meghatározott színtónus, természetes szőrtextúra, valósághű szemfények.
- Negatív promptok: „nincs extra kutya, csak a feltöltött képeken szereplők; nincs torz anatómia; nincsenek lebegő tárgyak; nincs extra fényforrás; nincs találgatás, nincs új elem.”
Ebben az esetben a befektetett munka – a referenciák előkészítése, a kompozíció megtervezése, a prompt megírása – nagyjából ugyanakkora, mint egy valódi fotó elkészítése. Sőt, ha igazán profi eredményt akarunk, akár több is lehet.
Egy jól elkapott fotónál a szerencse komoly faktor. Itt viszont a szerencse helyét átveszi a tudatos tervezés. Több kutyát megfelelő szögből lefotózni, a teljes kompozíciót megálmodni, referenciaanyagokkal készülni, és mindezt egy precíz, „programnyelv-szerű” promptba sűríteni – ez komoly befektetett emberi munkát, kreativitást, tudást, művészi érzéket igényel.
Erről akár könyvet is írhatnék – de mivel ez most gondolatébresztő blogbejegyzés, legyen ennyi elég.
Zene – amikor az AI nem zenél helyetted, hanem kiegészítővé válik
A zenei „slop” receptje nagyon hasonló a grafikaihoz.
Prompt:
„Írj egy dalt a kutyákról a cikk tartalmához illeszkedően.”
A végeredmény tipikusan:
- nyelvtanilag hibás vagy értelmetlen, nem következetes szöveg
- random trendekből összerakott dallam
- rímek és belső rímek teljes hiánya
- véletlenszerű, kizárólag sablonokon alapuló akkordmenet
- hiányzó egyéni hang és művészi identitás
Ez nem zeneszerzés, ez zenei lottósorsolás. Lehet, hogy néha kijön valami élvezhető, den ez az alkotás szimulációja, nem művészi teljesítmény.
Hibrid megoldás – amikor a modern zeneszerző plusz eszközhöz jut
A profi alkotó teljesen másképp közelít. Nem azt mondja, hogy „írj egy dalt helyettem”, hanem:
- Megírja a szöveget.
- Megírja az akkordköröket.
- Megtervezi a dal felépítését, valamint meghatározza a tempót, hangnemet és dinamikát.
- Felveszi a saját sávjait: dob, basszus, gitár, ének – amit tud, maga rögzít.
- Feltölti referenciának a saját felvételeit.
Ezután jön az AI, mint egy plusz hangszer vagy asszisztens.
Olyan dolgokat lehet vele hozzáadni, amelyek egy otthoni stúdióban egyébként elérhetetlenek lennének:
- templomi orgona
- teljes szimfonikus zenekar
- nagy kórus (pl. gyerekkórus, vegyeskar)
- ritka vagy egzotikus hangszerek
- speciális effektek, atmoszférák
Utómunka – ahol tényleg eldől, hogy szellemi termék vagy AI slop lesz belőle
Plusz sávok rákeverése
A szerző a generált és a saját sávok fölé további rétegeket épít:
- újabb vokálok, harmóniák, háttérvokálok
- plusz gitár- vagy szintisávok
- atmoszférák, zajok, textúrák a háttérben
Hangmérnöki utómunka (mixing)
A mixing az a láthatatlan művészet, amit a hallgató nem lát, de azonnal meghall:
- EQ – frekvenciák tisztítása
- kompresszió – dinamika kontroll
- sidechain – ritmikai lélegzés
- panoráma – sztereó tér
- reverb, delay – térérzet
- harmonikus telítés – analóg melegség
Vágás
A vágás során:
- kiválasztjuk a legjobb változatokat
- összeillesztjük a sávokat és az egyes szekciókat
- időzítést, ritmust igazítunk
- hibákat, zajokat vágunk ki
- átmeneteket simítunk
Mastering
A mastering a végső simítás:
- egységes hangzás
- megfelelő hangerő platformokra
- frekvenciaegyensúly
- sztereó szélesség optimalizálása
- dinamika finomhangolása
Videó és klipforgatás – a vizuális történetmesélés jövője
Hibrid produkció – a valóság és a digitális alkotások fúziója
A fenti zenei és képi elvek alapján a modern klipforgatás receptje is egyértelműen a hibrid megközelítés felé mutat. Az alap minden esetben a valós felvételekben (footage) kell hogy gyökerezzen. A mesterséges intelligencia segítségével azonban olyan produkciós és költségvetési problémák hidalhatóak át, amelyek korábban komoly anyagi befektetést vagy fizikai veszélyt jelentettek volna a stábnak.
Gondoljunk például egy látványos robbanásra: miért kellene beáldozni és felgyújtani egy valódi autót a vizuális élmény kedvéért? Ha az alkotó rendelkezik a megfelelő pirotechnikai ismeretekkel, valamint tiszta rendezői és produceri vízióval, a feltöltött alapvideó mellé pontosan leírhatja az AI-nak, hogyan viselkedjenek a lángok. A modell a referenciafelvétel fizikai törvényszerűségeit figyelembe véve generálja le a 4-8 másodperces kiegészítő jeleneteket, tökéletesen összekötve a valóságot a hozzáadott extrákkal.
Amit az AI hozzátesz a kameraképhez – és ami még azon is túlmutat
A mozgókép terén az AI beaucoup-val többet követel meg a statikus képgeneráláshoz képest. A precíz kompozíciók, referencia-videók és pontos promptok mellett a technológia az alábbi ütős, professzionális megoldásokat hozza a produkcióba:
- Dinamikus fény- és környezeti szimuláció: Ha egy adott helyszínen felvett anyaghoz utólag esőt generálunk, az AI nem csupán egy kétdimenziós réteget húz a snittre. Képes intelligensen újraszámolni a fényvisszaverődéseket a vizes aszfalton és a tárgyak felületén, miközben szigorúan igazodik a videó többi részében alkalmazott eredeti fényerőhöz és tónusokhoz.
- Konzisztens stílustranszfer és atmoszféra-csere: Lehetővé teszi, hogy egy egyszerű, nappal felvett utcai jelenetet teljes mértékben átültessünk egy gótikus, ködös hajnal vagy egy disztópikus sci-fi látványvilágába úgy, hogy a szereplők és a környezet térbeli mozgása hibátlanul megmarad.
- Kameramozgás utólagos szintézise (Camera Synthesis): Egy statikus állványról rögzített felvételt az AI képes zökkenőmentesen átalakítani dinamikus, filmszerű drónfelvétellé vagy finom svenkeléssé*, virtuálisan kiegészítve a lencsén kívüli, eredetileg nem létező tereket.
- Komplex fizikai részecskerendszerek: Füst, szálló por, szikrák vagy folyadékok természetes áramlásának modellezése, amelyek valós időben reagálnak a kamera mozgására és a jelenetben szereplő objektumok kontúrjaira.
* Svenkelés (panning): Olyan filmes és fotós technika, ahol a kamera vízszintesen elfordulva pásztázza a teret vagy követi a mozgó témát. Videós környezetben az AI képes ezt a tengely körüli mozgást virtuálisan, a semmiből kiszámítani, elmosódásmentes és professzionális sebességérzetet adva a térnek.
A vágóasztal – ahol a generált kockákból film születik
Lássuk be: a különálló, 4-8 másodperces generált videórészletekből és a nyers, valós felvételekből önmagában még nem lesz kész klip. Itt lép be újra az emberi tényező. Szükség van egy szakemberre, aki odaül a monitor elé, és elvégzi a precíz manuális utómunkát:
- éles szemmel azonosítja és könyörtelenül kivágja az esetleges vizuális anomáliákat, glitch-eket,
- összehangolja a különböző forrásokból származó elemek szaturációját, felbontását és fényerejét az egységes képért,
- a vágásokat és az effektek csúcspontjait hajszálpontosan a zene ritmusára és lüktetésére húzza,
- a vizuális dramaturgiát a dal érzelmi világához, mondanivalójához igazítja.
Egy hibrid videoklipet pontosan ugyanúgy meg kell írni, meg kell tervezni, meg kell szerkeszteni és össze kell vágni, mint bármilyen hagyományos mozgóképes produkciót.
Egy hibrid AI–emberi produkció jó példája lehet az alábbi videó is:
Összegzés – az AI egy eszköz, nem alkotó
Értő és művészi kezekben az AI csak egy újabb kiegészítő.
Nem értő kezekben pedig ugyanaz történik, mint bármely más eszközzel: gyenge, üres, igénytelen eredmény születik. Pontosan olyan ez, mint amikor egy hatéves gyermek előképzettség és megértés nélkül életében először zongorához ül. Lehet hozzá született érzéke, de arra, hogy azonnal gyönyörűen játsszon rajta, nagyon kevés az esély.
A művészetet nem az eszköz minősíti, hanem az eredmény. A határ pedig a csillagos ég – és azon túl. Hiszen a természet adta hatáon kívül olyan dolgokat is össze lehet hozni, amelyek egyébként lehetetlenek lennének.
Például: kutyasétáltatás a Marson egy esős délutánon, űrruha nélkül, miközben a 100 tagú cigányzenekar koncertet ad a közelben.
Kérlek, kérdezz bátran. Ne ítéld el amit nem ismersz, és fordulj hozzánk bizalommal segítségért!
Üdvözlettel,
Thomas Stonewell
(Atomm)
