Umelá inteligencia OpenAI DALL-E 2 je pre niektorých umelcov len zlou správou


OpenAI DALL-E 2 bol šokom pre tých, ktorí si mysleli, že umelá inteligencia nikdy (alebo aspoň nie rýchlo) nezačne prenikať do sféry kreativity. Je tu však DALL-E 2, aby prevzal prácu umelcov?

Ako funguje DALL-E 2?

DALL-E 2 je taký pôsobivý, že to vyzerá takmer ako kúzlo, ale široké detaily toho, ako vytvára také úžasné, realistické obrázky, nie je také ťažké pochopiť.

DALL-E 2 má dva hlavné komponenty. Prvým je GPT-3, čo je dnes pravdepodobne najpokročilejší algoritmus strojového učenia prirodzeného jazyka v prírode. DALL-E 2 využíva aj ďalší model OpenAI známy ako CLIP (Pretrénovanie kontrastného jazyka a obrazu).

GPT-3 a CLIP umožňujú počítaču porozumieť a generovať sofistikovaný prirodzený jazyk. Trénovaním neurónovej siete DALL-E s miliardami obrázkov a ich opismi v prirodzenom jazyku z (hlavne) internetu sa učí vzťahy medzi pojmami.

V istom zmysle je DALL-E opakom bežnej praxe strojového učenia, kde poskytujete obrázok a AI sa pokúša opísať, čo vidí.

Spomeňte si na neslávne známu aplikáciu „Not a Hotdog“ z televíznej relácie Silicon Valley. Rozdiel je v tom, že namiesto toho, aby ste sa pýtali AI, či je obrázok hotdog alebo nie, opisujete hotdog a ten vytvára úplne originálny obrázok hotdogu na základe všetkého, čo sa o ňom dozvedel.

Druhou hlavnou časťou DALL-E je spôsob, akým generuje obrázky. Používa metódu známu ako „difúzia“. Konkrétne, pochopenie popisu obrázka v ľudskom jazyku, ktorý bol vytvorený, sa premení na obrázok pomocou modelu OpenAI s názvom GLIDE. GLIDE nasníma obrázok pozostávajúci z náhodne generovaného šumu a potom ho postupne odstráni, až kým sa nezhoduje s obrázkom, ako je opísané v prirodzenom jazyku. Trochu to pripomína sochára, ktorý začína s blokom mramoru a odrezáva, až kým nezostane iba socha.

Ak chcete získať oveľa technickejší a podrobnejší popis DALL-E 2 pod kapotou, srdečne odporúčame vysvetľovač DALL-E 2 na blogu pre hlboké vzdelávanie AssemblyAI.

Prečo je DALL-E 2 taký rušivý

DALL-E 2 je ďaleko od prvého softvéru strojového učenia, ktorý dokáže generovať obrázky. Existuje mnoho predchádzajúcich systémov a DALL-E 2 stavia na skúsenostiach získaných z týchto iných projektov. Prečo sa teda tento čas javí ako zlomový bod?

Jedným z významných dôvodov je, že obrázky, ktoré DALL-E a DALL-E 2 vytvárajú, sú esteticky príjemné. Iné systémy na generovanie obrázkov AI často vytvárajú obrázky, ktoré ľudia opisujú ako znepokojujúce alebo ako niečo zo sna. Je to trochu ako Uncanny Valley, ale pre vizuálne umenie. DALL-E 2 vytvára obrázky, ktoré majú jednoznačne umelecké oko alebo nejaký zmysel pre estetiku.

Obrázky, ktoré DALL-E 2 vytvára, sú teda porovnateľné s tými, ktoré vytvorili talentovaní umelci alebo fotografi, ktorí celý život rozvíjali svoj zmysel pre estetiku. Nie je ťažké predstaviť si niekoho takého pri pohľade na obrázky, ktoré dokáže DALL-E 2 vypľuť v priebehu niekoľkých sekúnd, a má pocit, že sa stanú nepodstatnými.

Systém dokáže nielen vytvoriť nádherné obrázky vo vysokom rozlíšení v priebehu niekoľkých sekúnd na základe výziev v prirodzenom jazyku, ale dokáže tieto obrázky aj vyladiť a upraviť alebo poskytnúť viacero variácií existujúceho obrázka – dokonca aj takej, ktorú poskytne používateľ. Znamená to teda, že umelci by si mali zbaliť svoje stojany a kresliace tablety a „naučiť sa kódovať“?

DALL-E 2 znamená, že umelci sa zmenia, nie zmiznú

OpenAI bola veľmi opatrná pri jednoduchom uvoľnení svojej technológie do sveta. Je to rozumné, pretože je tu zjavne veľký priestor na zneužívanie. Teraz, keď ukázali, že sa to dá, nebude vôbec čas, kým komerční alebo nezávislí výskumníci AI zopakujú to, čo robí DALL-E, a sprístupnia to všetkým. Veľkí hráči v priestore strojového učenia majú svojich vlastných vysokovýkonných umelcov umelej inteligencie, ktorí tiež čakajú na svojich krídlach – ako napríklad Imagen od Googlu.

Keďže Pandorina skrinka sa nedá zavrieť, budeme musieť akceptovať, že svet vizuálneho umenia sa neodvolateľne zmení, ale to neznamená, že umelci sú minulosťou.

Jedným zo spôsobov, ako sa na to pozrieť, je, že technológia, ako je táto, dáva silu vytvárať umenie do rúk kohokoľvek. Dôraz sa teraz presúva z technickej schopnosti vytvárať obrázky na schopnosť presne opísať a opakovať vašu víziu, kým to, čo vidíte na obrazovke, nebude zodpovedať tomu, čo ste mali na mysli. Inými slovami, viac ľudí bude mať teraz schopnosť vyjadrovať sa vizuálne, rovnako ako viac ľudí teraz môže robiť presné výpočty vďaka existencii kalkulačiek.

Niektoré typy umelcov už nemusia mať životaschopné obchodné modely. Ak sa živíte províziami za poplatok, je ťažké konkurovať programu, ktorý dokáže vyrobiť 100 obrázkov za hodinu na základe popisu klienta a dokáže tieto obrázky takmer okamžite zmeniť. Namiesto toho možno budete chcieť použiť tieto nástroje na realizáciu svojej vlastnej vízie a potom predávať tieto jedinečné obrázky na základe vašej citlivosti.

Zákazník má vždy pravdu

Je tiež dôležité si uvedomiť, že tieto obrázky sú v konečnom dôsledku vytvorené na ľudskú spotrebu. My ľudia máme vlastný súbor hodnôt, ktoré presahujú pohodlie a technickú prevahu. Vo svete, kde je generované umenie hojné, a teda relatívne lacné a jednorazové, bude vždy existovať publikum, ktoré bude ochotné oceniť (a kúpiť) umenie vytvorené človekom, jednoducho preto, že môže byť relatívnou vzácnosťou.

Inými slovami, softvér ako DALL-E 2 môže znamenať koniec pre umelcov, ktorí si zarábajú na živobytie chrlením umeleckých diel na montážnej linke, ale je nepravdepodobné, že by utlmil vyhliadky umelcov, ktorí majú čo povedať a majú jedinečnú vizuálnu identitu, prostredníctvom ktorej môžu hovoriť.