Kontekstbaseret annoncering

»The Beautiful Machine«: Lorenz Aschoff fra EyeEm om brugen af computervision til at genkende æstetik i billeder

Billede fra EyeEm-anmeldelsen
GumGum-teamet
GumGum-teamet
10 min
Udgivet:
16. september 2020
Del

Blandt de mange brancher, som fremkomsten af det visuelle web har forandret, er stockfotografi. Med milliarder af billeder, der hver dag tages, uploades og deles online, er det blevet stadig sværere for både redaktioner og marketingafdelinger at finde de perfekte billeder i stor skala og med den nødvendige hastighed. Selvfølgelig er mange standardværktøjer til billedgenkendelse rigtig gode til at finde objekter, scener og ansigter – alt fra katte og vejskilte til skove og berømtheder – men hvad med et kunstnerisk, fokuseret portræt med et sløret baggrundsbillede? Det er de ikke så gode til.


EyeEm blev grundlagt i 2011 i Berlin og er et billedbureau af den nye generation, der bruger computervision og maskinlæring til at identificere billeder ud fra deres æstetiske kvaliteter. Og med æstetisk mener vi for det meste den slags, der er en fryd for øjet. EyeEm tilbyder en mobilapp, som fotografer kan bruge til at identificere de mest æstetisk tiltalende og kommercielt brugbare billeder på deres smartphones og derefter uploade dem til virksomhedens online markedsplads, hvor de (takket være computervision) effektivt kan søges frem og købes af stockfotokunder. Hvordan fungerer denne ambitiøse, kunstneriske tilgang til computervision, og hvorfor bør alle fotografer eller billedredaktører bruge den for henholdsvis at blive fundet som eller finde den næste Vivian Maier? Vi bad Lorenz Aschoff, den Berlin-baserede grundlægger og CEO af EyeEm, om at give os en gennemgang af, præcis hvordan EyeEm fungerer.


Hvad laver EyeEm?


Vi udvikler kunstig intelligens, der forstår æstetik og skønhed. Her er det problem, vi forsøger at løse: Siden opfindelsen af digital fotografering har folk taget billioner af billeder, og der hober sig en enorm mængde data op. Det bliver stadig sværere at finde relevans blandt alle disse billeder, og vi mangler faktisk en måde at gennemgå og udvælge dem effektivt på. Dette er lige så meget et problem for den enkelte forbruger som for dem i den professionelle verden. Derfor har vi udviklet en Android- og iOS-app med et netværk på cirka 22 millioner fotografer, både amatører og professionelle, som uploader deres billeder dertil. Derefter gennemgår vores egenudviklede computer vision- og machine learning-teknologi de indsendte billeder og udvælger de bedste, både æstetisk set og med hensyn til kommerciel værdi. Produktet henvender sig ikke kun til fotografer – både amatører og professionelle – der ønsker at tjene penge på de billeder, de uploader, men også til billedredaktører hos medievirksomheder og marketingafdelinger, der har brug for at finde relevante billeder. Appen hjælper dig også med hurtigere at finde den type fotos, du leder efter, på din telefon.


Den sidste funktion lyder meget som Google Fotos – hvordan adskiller EyeEm sig fra det?


Det vigtigste er jo, at vi fokuserer på stockfotografi – det er vores forretningsmodel i modsætning til Google Fotos, der henvender sig til forbrugere – men en afgørende forskel med hensyn til, hvordan vores teknologi fungerer, er, at vi fokuserer på æstetik og på at forstå skønheden i billederne frem for blot indholdet. Vi arbejder meget med nøgleord på samme måde som Google Fotos – vi mærker billeder, der indeholder bjerge, ansigter, dyr, genstande og så videre – men vores nøgleord vedrører ofte æstetik og billedkomposition snarere end basale objekter. For at forenkle det: Vi tager grundlæggende billeder fra verdens bedste fotografer og indlæser dem i systemet, som bruger deep learning til at finde fællestræk i disse æstetisk stærke billeder.


Vi gennemgår også nogle af disse billeder sammen med mennesker, så vi faktisk foretager en sammenligning. Med andre ord bruger vi teknologien til at finde perlerne, og den lærer systematisk at identificere højdepunkterne i alt, men så sammenligner vi, hvad mennesker kan lide, med hvad maskinen kan lide – nærmest som en slags forstærkning. Og det er nøglen til succes, især med deep learning. Derefter kan vi indsætte ethvert andet billede, du lige har taget, og vi kan i bund og grund sige: »Okay, hvor sandsynligt er det, set ud fra et æstetisk synspunkt, at dette billede vil falde i god smag hos dig, at du måske vil synes, det er smukt?« Denne grundlæggende teknologi kan så anvendes til for eksempel at scanne billederne på din telefon og fremhæve de smukkeste billeder, du har på din telefon, eller også fortælle dig, hvilken version af det samme billede – som du måske har taget fem eller seks gange – der er den bedste.


Er det faktisk maskinen, der udarbejder de æstetiske regler?


Ikke i klassisk forstand, og den lærer hele tiden. Dette er et godt eksempel på, hvordan menneskers opfattelse af æstetiske definitioner står i kontrast til, hvordan en maskine fungerer og forstår æstetik. I modsætning til mennesker har maskiner ingen regler og tænker ikke i æstetiske begreber som »symmetri er smukt« eller »det gyldne snit er smukt«. Det er langt mere abstrakt end som så. Vi mennesker er måske ikke i stand til at forstå, hvorfor noget er smukt – vi ved det bare – men maskinen er i stand til at identificere mønstre, der korrelerer med det, der ville blive betragtet som æstetiske kvaliteter. Til sidst vil den finde symmetriske billeder og billeder baseret på det gyldne snit, og den vil gøre det hurtigt og i stor skala, men præcis hvordan det fungerer, kan ikke sættes på ord, da maskiner lærer på en ikke-eksakt, heuristisk måde, hvilket er frustrerende for mange mennesker.


Det kan også være frustrerende for nogle billedredaktører hos magasiner, hjemmesider og marketingafdelinger.


Nå, nogle mennesker er helt klart irriterede over tanken om, at der findes en teknologi, der faktisk kan hjælpe dem med at styrke det, de gør, og det skyldes desværre, at en stor del af debatten om AI og arbejdspladsen er lidt forenklet. Men som jeg nævnte, er en af de største udfordringer i både redaktionel og markedsføringsmæssig sammenhæng, at når man søger efter fotos eller videoer i billedbanker, kan æstetikken være meget uensartet. Nogle gange er søgeresultaterne virkelig uautentiske, og det tager enormt lang tid at finde det, der rent faktisk er relevant for dig. Vores teknologi sikrer, at du kun ser det indhold, der æstetisk stemmer overens med det, du leder efter. Det giver dig mulighed for at arbejde med flere resultater på én gang og reducere den tid, du bruger på at søge og frasortere det, der ikke passer til dig, hvilket giver dig mulighed for at fokusere på andre opgaver og virkelig komme i gang med at udvælge det rigtige indhold.


Og når det gælder om at berolige de professionelle fotografer, der måske føler sig truet af AI-værktøjer som EyeEm, mener vi, at meget af det har at gøre med brugergrænsefladen. Man skal bare komme med forslag, og så kan brugerne vælge at følge dem eller lade være. Vi siger aldrig: »Det her er det bedste billede lige nu«, men i stedet: »Hvad med det her?« eller »Hvad synes du om det her?«, så det er en meget uforceret opfordring.


Så hvordan sorteres søgeresultaterne egentlig? Skønhed ligger jo i betragterens øjne.


Jeg tror, at et af de vigtigste budskaber, vi skal få frem om vores værktøj, er, at billedredaktører, fotografer, mærker og så videre kan træne og styre værktøjet ud fra det indhold, de indlæser. Du kan træne det til netop den æstetik, du ønsker. Så hvis du for eksempel kun indlæser portrætter, får du kun portrætter tilbage. Eller du kan indsnævre søgningen efter dybdeskarphed, nærbilleder eller udelukkende sort-hvid-fotografi. Det kan være en enorm tidsbesparelse for mærker, der har et specifikt æstetisk udtryk.


En af vores kunder er Boston Consulting Group. Virksomheden har omkring 8.000 konsulenter over hele verden, og den har brug for, at de forstår det visuelle sprog, de bør anvende i præsentationer, brochurer eller enhver anden form for interaktion med kunderne set ud fra et visuelt perspektiv. Og selvom konsulenterne måske er meget dygtige inden for rådgivning og forretning, har de ikke nødvendigvis en intuitiv forståelse for æstetik – især ikke den æstetik, der skal være i tråd med brandet.


BCG’s marketingteam har altså stillet en række på omkring 30 billeder til rådighed for os, der dækker forskellige emner, scener og så videre, og som er i tråd med den nylige rebranding, som firmaet har gennemført. Vi har derefter brugt vores æstetiske teknologi til at oprette et personaliseret søgemaskinefilter ud fra det input, som marketingteamet har leveret, så hver gang der foretages en billedsøgning efter fotografier via vores platform, vil BCG-konsulenterne få vist indhold, der er i tråd med brandets nye æstetik.


Du nævnte tidligere, at EyeEm også kan søge efter billeder med kommerciel værdi. Hvordan fungerer det?


Vi arbejder i øjeblikket på en række forskellige tilgange. Vi har for eksempel netop udviklet et værktøj kaldet IM Social, hvor vi visuelt kan analysere et brands Instagram-konto: hvad de tidligere har lagt op, hvilken genklang disse indlæg fik, og på baggrund heraf kan vi forstå den æstetiske stil, der falder i god jord hos følgerne, og derefter begynde at forudsige eller foreslå billeder, som brandets følgere sandsynligvis vil engagere sig i fremover. Vi arbejder også på at bruge denne teknologi til at levere intelligente anbefalinger til en annoncekampagne, uanset om det er på Instagram, Facebook eller online. Med udgangspunkt i den samme idé kan man også berige de æstetiske data med konverteringsdata fra faktiske annoncer, hvilket gør det muligt ikke blot at forudsige billeder, der passer til dit brand, men også billeder, der vil give gode konverteringsresultater.


Hvad er de næste skridt for EyeEm?


Vi er lige begyndt at arbejde med video, men det er langt mere kompliceret, fordi videoer indeholder flere scener og perspektiver, så der er mange udfordringer, der skal løses her. I sidste ende gør vi det som en række fotos. Vi arbejder også på en prototype, der skal kunne give maskinbaseret æstetisk kritik. Med andre ord forslag til, hvordan man kan indfange og justere kompositionen i fotos på bestemte måder, eller hvilke slags filtre og farvejusteringer man kan anvende for at hæve billedets æstetiske kvalitet. Det er ikke rigtig vores hovedmål lige nu, men det vil helt sikkert være en interessant udfordring at oversætte den abstrakte måde, hvorpå en maskine forstår æstetik, til menneskelige termer og konkrete handlingsord, der giver mening. Det er meget komplekst, dette krydsfelt mellem, hvad den rigtige grænseflade mellem AI og mennesker er, og ingen har helt perfektioneret det endnu.


af Marina Esmeraldo

Indsigt, forskning og praktisk tænkning.