Digitrends: De grenzen zoeken van text-to-image AI

Met AI tekst omzetten in afbeeldingen die nog nooit eerder hebben bestaan, zo realistisch als een foto – als het even kan. Zowel Google als OpenAI kwam onlangs met nieuws op dit gebied: respectievelijk de introductie van Imagen en de update naar DALL-E 2. Inclusief de ethische keerzijdes.

GOOGLE IMAGEN

Google komt nogal eens met iets nieuws, en dan meestal ook groot aangekondigd, maar de introductie van Imagen vorige maand was relatief ingetogen. Het is een onderzoeksproject, en nog geen werkbare tool, wellicht dat het daar iets mee te maken heeft, maar in elk geval beschikt ook Google nu over een AI-systeem dat tekst kan omzetten in fotorealistische afbeeldingen.

Imagen werkt op basis van een vooraf getraind taalmodel, waarbij de invoer van tekst eerst wordt ‘bevroren’ om daarna met een ‘diffusion model’ te worden omgezet van willekeurige ruis naar beeld. In eerste instantie maakt Imagen een kleine afbeelding van 64 x 64 pixels. Met een ‘super-resolution diffusion model’ wordt deze vervolgens uitvergroot naar 256 x 256 pixels tot een eindresultaat van 1024 x 1024 pixels. De AI-tool kan zo niet-bestaande maar zeer realistische plaatjes genereren op basis van een vreemd aandoende zin of combinatie van woorden zoals: ‘A cute corgi lives in a house made out of sushi.’ Naast fotorealistisch kan het resultaat ook een artistieke interpretatie zijn. Google geeft er op de website enkele voorbeelden van.

Research paper en benchmark

De onderzoekers die werken aan Imagen hebben een research paper gepubliceerd met uitleg over de werking van en technologie achter Imagen. Ook haken ze uitgebreid in op de ‘ethical challenges facing text-to-image research broadly’ – Imagen is (nog) niet beschikbaar voor het publiek. Daarnaast hebben ze een benchmark gemaakt, DrawBench, waarmee ze Imagen vergelijken met andere AI-systemen, zoals VQ-GAN+CLIP, Latent Diffusion Models en DALL-E 2. DrawBench ontdekte dat – verrassing – mensen Imagen verkiezen boven de concurrenten.

‘A cute corgi lives in a house made out of sushi.’

DALL-E 2

Over DALL-E 2 gesproken: deze tool van OpenAI werd al in 2021 geïntroduceerd – gewoon als DALL-E. De ‘2’ staat voor de geüpdatete versie die ook onlangs werd uitgebracht. Het is net als Imagen een tool die met AI realistische afbeeldingen of digitale kunstwerken kan maken op basis van beschrijvingen. De ‘verbeterde’ DALL-E 2 zou sneller werken en realistischer en nauwkeuriger afbeeldingen genereren met een hogere resolutie. Ook kan de tool nu realistische bewerkingen maken van bestaande afbeeldingen. Denk aan verschillende versies van een beroemd schilderij (zie de fotovarianten van Meisje met de parel bij dit artikel), waarbij AI rekening houdt met allerlei details, zoals schaduwen die bij een verwijderd object horen. Verder is het mogelijk een afbeelding te uploaden waarna DALL-E 2 een aantal vergelijkbare afbeeldingen genereert, en kan de tool worden gebruikt om twee verschillende afbeeldingen te combineren.

Diffusion proces

Het AI-systeem is gemaakt door een neuraal netwerk te trainen op afbeeldingen en hun tekstbeschrijvingen. Door middel van deep learning kan DALL-E 2 individuele objecten identificeren en de onderlinge relaties begrijpen. ‘DALL-E 2 heeft de relatie geleerd tussen afbeeldingen en de tekst die wordt gebruikt om deze beelden te beschrijven’, zegt OpenAI. ‘Het maakt gebruik van het diffusion-proces dat begint met een patroon van willekeurige stippen en geleidelijk verandert in een afbeelding wanneer het specifieke aspecten van die afbeelding herkent.’

Beeld met watermerk

OpenAI hoopt dat DALL-E 2 ‘mensen in staat zal stellen om zich creatief uit te drukken’. ‘Tegelijk helpt DALL-E 2 ons te begrijpen hoe geavanceerde AI-systemen onze wereld zien en begrijpen,’ zegt het bedrijf, ‘wat van cruciaal belang is voor onze missie om AI te creëren die de mensheid ten goede komt.’ Omdat het verantwoord inzetten van AI nog niet zo eenvoudig is, zegt OpenAI momenteel de beperkingen en mogelijkheden van DALL-E 2 te bestuderen met een selecte groep gebruikers. Het bedrijf heeft al expliciete inhoud uit de trainingsgegevens verwijderd om te voorkomen dat er gewelddadige, haatdragende of seksueel getinte afbeeldingen worden gegenereerd. Om voor te zijn dat de software wordt gebruikt om nepnieuws te maken, hebben de onderzoekers er ook voor gezorgd dat AI geen herkenbare gezichten van echte mensen kan nabootsen. Elke afbeelding heeft bovendien een watermerk dat moet aantonen dat ze door AI werd gecreëerd. 

DALL-E 2 (credits: Ritesh Kanjee).

Deze bijdrage komt uit het digitale magazine IP #5/2022. Klik op de onderstaande button om het hele nummer te lezen.