Dirbtinio intelekto modeliai daugelį metų galėjo žiūrėti į vaizdus ir pasakyti, ką jie gali matyti vaizdo viduje, tačiau pavasario atnaujinimas OpenAI pakėlė viską į naują lygį.
Įdiegus GPT-4o į ChatGPT – net ir be garso ir vaizdo funkcijų – OpenAI pristatė vieną geriausių iki šiol išleistų AI matymo modelių.
Jo sėkmę iš dalies lėmė tai, kad tai daugialypės terpės, giliau suvokianti vaizdus, vaizdo įrašus, garsą ir tekstą. Jis gali reikšti vaizdą, kalbą, vaizdo įrašą ir tekstą, kai kitos formos pirmiausia konvertuojamos į tekstą.
Norėdamas išbandyti jo sugebėjimus, padaviau jam nuotraukų seriją ir paprašiau apibūdinti, ką jis gali pamatyti. Kuo tikslesnis modelis. Dažnai dirbtinio intelekto modeliai, įskaitant GPT-4, praleidžia vieną ar du objektus arba gauna neteisingą aprašymą.
GPT-4o regėjimo testas
Kiekviename bandyme ChatGPT-4o buvo pateiktas vaizdas ir raginimas „Kas tai?” Be jokio konteksto ar papildomos informacijos. Tai artimesnė tam, kaip žmonės gali naudotis šia galimybe realiame pasaulyje ir kaip aš neseniai ja pasinaudojau renginyje Paryžiuje.
Tikslas yra pamatyti, kaip gerai išanalizuotas vaizdas. Kiekvieną kartą stebėjau, ar jis gali nustatyti, ar vaizdas buvo sukurtas dirbtiniu intelektu, ar ne. Jie visi sukurti naudojant ideogramą iš Claude 3 sukurto aprašymo – taigi, visiškai dirbtinis intelektas.
Po poros pirmųjų nuotraukų pokalbyje jis spontaniškai pradėjo man sakyti, ar, jo manymu, nuotrauka buvo sukurta dirbtinio intelekto, ar ne, man neklausinėdamas.
Pradėjau nuo „ChatGPT Desktop“ programos, bet ji pradėjo nereaguoti, todėl persikėliau į žiniatinklį ir ji veikė gerai.
1. Objektų atpažinimas
Šiam pirmam vaizdui sukūriau raudono keraminio puodelio, pripildyto karšta kava, vaizdą. Jis buvo padėtas ant lėkštės ant medinio stalo kavinėje, bet kavinė buvo neaiški. Idėja yra pamatyti, kaip GPT-4o interpretuoja foną ir scenarijų.
GPT-4o rašė: „Šiame paveikslėlyje pavaizduotas garuojantis kavos puodelis raudoname puodelyje ir lėkštėje, pastatytas ant kaimiško medinio stalo. Fonas neryškus, vaizduojama jauki patalpų aplinka, kurioje žmonės sėdi ir kalbasi tarsi urve. kaip kavinė ar unikalus interjeras su akmeninėmis sienomis.” Dėmesys skiriamas kavos puodeliui, išryškinant iš karšto gėrimo kylančius garus.
Tai yra kuo tikslesnė ir aprašomesnė. Net ir nupiešti scenos vaizdą neapsiriboja paprastu apibūdinimu. Juokaudamas aš jo paklausiau: „Apibūdink žmogaus, sėdinčio prie stalo su šia paruošta kava, mintis“.
Ji atsakė gana apibūdindama, tačiau ši eilutė išsiskyrė: „Ši kava yra daugiau nei tik gėrimas; Tai ritualas, brangi vienatvės ir apmąstymų akimirka kasdienybės šurmulyje.
2. Optinis simbolių atpažinimas (OCR)
Optinis simbolių atpažinimas (OCR) yra tokia pat sena technologija kaip kompiuterija, todėl ji turėtų būti nereikšminga bet kuriam regėjimo modeliui, net išmanieji telefonai tai atlieka įrenginyje. Daviau jai paprastą nuotrauką, kurioje stambiu planu pavaizduotas senas medinis ženklas, senoviniu ranka parašyta „Sveiki atvykę į Oakvilį“. Noriu daugiau nei tik teksto iš AI.
GPT-4o pristatytas; Rašoma: „Šioje nuotraukoje pavaizduotas vintažiškai atrodantis ženklas su užrašu „Sveiki atvykę į Oakvilį”. Iškabas atrodo sugadintas, su sena kaimiška apdaila, o tai rodo, kad jis kurį laiką buvo veikiamas elementų. Tekstas paryškintas baltu šriftu raudoname fone, su tam tikrais nusidėvėjimo ženklais, suteikiančiais nostalgiško žavesio. Ženklas iš dalies apsuptas žalumos, o tai rodo, kad jis galėjo būti pastatytas lauke, galbūt prie įėjimo į miestą ar bendruomenę, vadinamą Oakville.
Tekstas ne tik perskaitytas taisyklingai, bet ir pasiūlyta detaliau apie vietą, identifikuoti galimą miestą ar gyvenvietę bei ištraukti paties ženklo detales.
3. Veido atpažinimas
Tai prieštaringai vertinamas AI technologijos naudojimas ir Europos Sąjungoje yra šiek tiek uždraustas. Tačiau kaip gerai GPT-4o gali apibūdinti veidą? Vaizdas buvo dirbtinio intelekto sukurtas 40 metų moters tamsiais plaukais ir šiltomis rudomis akimis vaizdas. Ji turėjo draugišką šypseną.
GPT-4o apibūdino taip: „Šis vaizdas yra stambiu planu, kuriame vaizduojama besišypsanti moteris su tamsiais garbanotais plaukais draugiška išraiška, o jos akys žiūri tiesiai į kamerą. Fonas yra neryškus, sutelkiant dėmesį į temą.
Norėjau šiek tiek daugiau, įskaitant tam tikrą amžių. Paklausiau jos: „Kiek šiam žmogui metų ir kokia jos emocinė būsena? Ji atsakė tuo, kad jai yra maždaug 30–40 metų ir jos savijauta teigiama, ir paaiškino: „Bendras įspūdis toks, kad emociškai ji yra geroje vietoje ir tikriausiai jaučiasi gerai ir patogiai.
4. Jausmų atskleidimas
Toliau norėjau pamatyti, kaip gerai GPT-4o tiktų su liūdnos išraiškos seno žmogaus atvaizdu. Ar jis ketina tai užfiksuoti, ar tiesiog aprašyti sceną? Atminkite, kad vienintelė įvestis buvo „kas tai yra“ ir vaizdas.
GPT-4o veikė gerai. Nuotraukoje buvo parašyta: „Ši nuotrauka yra pagyvenusio vyro, sėdinčio ant suoliuko, lauke, greičiausiai parke, nuotrauka mąslus, su šiek tiek melancholiško ar kontempliatyvaus užuomina. Jis dėvi marškinius su apykakle ir švarkelį, o fonas yra neryškus, sutelkiant dėmesį į vyrą ir sukuriant malonią, natūralią aplinką.
Dirbtinio intelekto modelis padarė būtent tai, ko tikėjausi: aprašė sceną ir pateikė pasiūlymus, ką vyras gali jaustis tuo metu.
5. Supraskite sceną
Kaip gerai GPT-4o gali apibūdinti sceną iš vaizdo ir identifikuoti scenos elementus? Tai naudingas įgūdis, nes AI modeliai vis dažniau naudojami padėti apibūdinti realų pasaulį. Tai viena iš pagrindinių naujojo ChatGPT garso režimo funkcijų.
„Šioje nuotraukoje pavaizduotas gyvas ūkininkų turgus saulėtą dieną“, – paskelbė GPT-4o. „Po palapinėmis buvo pastatyta daugybė šviežių produktų, įskaitant vaisius, daržoves ir kitas prekes. Naršyti, apsipirkti ir bendrauti su pardavėjais.
Nelabai ką pasakyti. Jis tiksliai apibūdino nuotrauką ir situaciją. Pateikėte daugiau informacijos, nei tikėjausi, ir pabrėžėte kai kuriuos parduodamus produktus.
6. Vaizdo kokybės vertinimas
Paprašiau „Ideogram“ tinklelyje sukurti keturis beveik identiškus vaizdus, tačiau kiekvienam suteiktų skirtingą skiriamąją gebą arba kompozicijos lygį. Norėjau pamatyti, kaip tai apibūdintų GPT-4o. Jis gali apdoroti pagrindinį vaizdą, bet kaip apie keturis iš jų, kurių kiekvienas šiek tiek skiriasi?
„Vaizdas yra keturių peizažo nuotraukų, išdėstytų tinklelyje, rinkinys, iš kurių kiekvienoje matyti nuostabus vaizdas į kalnus, padengtus žalia žole ir lauko gėlėmis po debesų pilnu dangumi“, – rašė GPT-4o. Kol kas viskas gerai.
Toliau: „Viršutinėje kairėje nuotraukoje pavaizduotas švelniai rausvas ir mėlynas gradiento dangus, siūlantis aušrą arba sutemą, su šilta auksine šviesa besimaudančiomis kalvomis, paryškinančiomis ryškią žalią žolę ir geltonas bei baltas gėles. Viršutinėje dešinėje nuotraukoje pavaizduota panaši scena, bet nutildytais tonais, nurodant… Ankstyvas rytas arba vėlyva popietė. Apatiniame kairiajame vaizde yra vėsesnės spalvos ir aiškesnis mėlynas dangus, todėl apatinis dešinysis vaizdas yra šiltesnis ir sodresnis, danguje yra rausvos spalvos , rodo saulėlydžio šviesą Šilta Šie apšvietimo ir spalvų tonų skirtumai iliustruoja, kaip skirtingas paros laikas ir fotografavimo technika gali paveikti tos pačios gamtos vaizdų nuotaiką ir išvaizdą.
Nors ji nesuprato keturių vaizdų tinklelio tikslo – palyginti kompoziciją, tačiau sugebėjo apibūdinti kiekvieną atskirai, o tai buvo įspūdinga. Ji iš tikrųjų palygino nuotraukas.
7. Kelių objektų aptikimas
Galiausiai, yra svarbus testas, ar modelis turi būti naudingas kaip pritaikymo neįgaliesiems įrankis – ar gerai jis aptinka objektus perpildytoje scenoje. Tas pats reikalavimas kaip ir kiti. Nuotraukoje pavaizduotas netvarkingas stalas ir tikiuosi, kad jis ištrauks bent vieną smulkmeną.
GPT-4o rašė: „Nuotraukoje pavaizduota moderni, sutvarkyta biuro darbo vieta, kurios fone pro didelius langus matomas miestas. Rašomasis stalas yra tvarkingai išdėstytas su daugybe daiktų, paprastai sutinkamų produktyvioje darbo aplinkoje, įskaitant nešiojamąjį kompiuterį centriniame, metalinė stalinė lempa ir kavos puodelis rodo atpalaiduojančią, tačiau susikaupusią atmosferą tarnauja kaip šaltinis Motyvacijai Darbo erdvė užpildyta biuro reikmenimis, pvz., rašikliais, pieštukais ir rašikliais, todėl miesto panorama su moderniais aukštybiniais pastatais sukuria dinamišką ir įkvepiančią aplinką.
Pavyko. Nusprendžiau sekti ir paprašyti, kad jis man pasakytų vazono spalvą, ir tai iškart pasiteisino. Taigi paprašiau jo surasti mano akinius nuotraukoje, ir jis teisingai pasakė: „Jūsų akiniai yra ant stalo dešinėje nuo nešiojamojo kompiuterio, sėdi ant užrašų knygelės“.
santrauka
Kiekvienas regėjimo modelis, kurį naudoju praeityje, padarė bent vieną klaidą, dažniausiai didelę klaidą, pvz., klaidingą objekto atpažinimą arba spalvos ar prekės ženklo neparinkimą.
GPT-4o gauna kiekvieną iš šių taškų. Perėjimas prie tikro multimodalumo pakeitė OpenAI žaidimą.
Tai taip pat parodo potencialią išmaniųjų akinių, kaip tikrosios duomenų sąveikos ateities, vertę. Pamirškite išmanųjį telefoną, pasinaudokime vizija, kad sujungtume tikrąjį ir skaitmeninį.
Daugiau iš Tomo vadovo
„Organizatorius. Rašytojas. Blogio kavos vėpla. Bendras maisto evangelistas. Visą gyvenimą alaus gerbėjas. Verslininkas.”