Merkkaamattoman kuvadatan hyödyntäminen DINO-tekoälyarkkitehtuurilla

Tietokonenäkö on yksi niistä syväoppimisen alueista, jotka ovat edistyneet nopeasti. Tietokonenäön syväoppiminen auttaa itseajavia autoja selviämään liikenteestä siten, että autot osaavat välttää muut autot sekä jalankulkijat. Se myös pystyy tunnistamaan kasvot paljon paremmin kuin ennen, joten matkapuhelimen tai oven aukaiseminen saattaa pian tapahtua vain näyttämällä kasvoja. Tietokonenäköön ja kuvantunnistukseen liittyvien syväoppimisen ja neuroverkkojen nopea kehittyminen mahdollistaa yhä uusien sovellusten innovoinnin ja kehittämisen.

Kirjoittajat: Joel Pesu & Minna Asplund

Pesun (2022) opinnäytetyössä ”Tekoälypohjainen videodatan indeksointi” tutkittiin eri neuroverkkoarkkitehtuureja ja niiden soveltuvuutta videodatan indeksointia varten. Indeksoinnilla tarkoitetaan tiedostojen hakua helpottavaa toimintaa, jossa tiedostojen sisältöä luetteloidaan. Videodatan indeksointi voidaan muotoilla kuvantunnistusongelmaksi, sillä videot koostuvat sarjoista kuvia. Kuvadatasta luokkien tunnistaminen ja niiden lokalisointi on ollut mahdollista jo yli vuosikymmenen. Tekoälymallit, kuten konvoluutioneuroverkot, ovat olleet merkittävä tekijä alan kehittyessä. Näiden mallien sovittaminen vaatii kuitenkin merkittävän määrän dataa. Suuret määrät kuvadataa ei yksikseen riitä mallien sovittamiseen, vaan käytöstä riippuen kuvat vaativat parikseen erilaisia vastemerkkauksia, eli Labeleita, kuten luokittelussa vaaditut kategoriamerkkaukset, lokalisoinnissa kuvakoordinaatit, tai segmentoinnissa ääriviivat. Esimerkiksi sovitettaessa tekoälymallia tunnistamaan kuvista autot ja niiden koordinaatit, tulisi datan sisältää tuhansia kappaleita kuvia autoista, joista jokaisesta olisi myös vastemerkitty missä koordinaatissa kuvaa auto sijaitsee. Tämä suuren merkatun datamäärän edellytys on este monille mukautetummille kuvantunnistusmenetelmille, sillä datan keräys ja etenkin vastemerkkaus on tehtävä ihmisen toimesta. Opinnäytetyössä esiteltiin yhtenä jatkotutkimuksen kohteena Meta AI:n vuonna 2021 kehittämä arkkitehtuuri DINO. DINO on merkittävä edistysaskel sen hyödyntäessä täysin merkkaamatonta kuvadataa.

DINO:n toiminta lyhykäisyydessään

DINO:n tutkimuksessa todettiin että Vision Transformerit tuottivat parempia piirrerepresentaatioita, eli numeerista esitysmuotoa löydetyistä piirteistä, perinteisiin konvoluutiokerroksiin verrattuna (Caron ym. 2021, 1). Konvoluutiokerroksissa piirteiden erottelu tapahtuu liu’uttamalla ns. Filteriä kuvan läpi ja kirjaamalla samankaltaisuus Filterin ja kuvan välillä pistetulolla. Vision Transformerit ovat kuvadatalle kehitetty Transformer-arkkitehtuuri. Vision Transformer eroaa tunnetuista Transformerista siinä, että kuvadataa varten kuvat pitää ensin muuttaa Transformer-arkkitehtuurille yhteensopivaksi (Kuva 1). Tähän kuuluu mm. kuvien pilkkominen osiin, eli Patcheihin, ja Patchikohtaisten piirrevektorien erottelu lineaarisella projektiolla (Dosovitskiy ym. 2021, 1-3).

Kuva 1. Vision Transformerin arkkitehtuuri (Dosovitskiy ym. 2021, 3).

DINO:n sovitusaikana käytetään kahta mallia joista yhtä kutsutaan Studentiksi ja toista Teacheriksi (Kuva 2). Ainoastaan Student-mallia sovitetaan itse sovitusdataan. Teacher sen sijaan päivitetään Studentista aika-ajoin.

Kuva 2. Student ja Teacher (Caron ym. 2021, 2)

Jokaisesta sovitusaikana syötetystä kuvasta otetaan kahdenlaisia rajauksia: ns. globaaleja ja lokaaleja rajauksia. Globaalit rajaukset sisältävät yli 50 % koko kuvasta ja lokaalit alle 50 %. Teacher-mallille syötetään vain globaaleja rajauksia ja Studentille syötetään sekä globaaleja että lokaaleja rajauksia. Molemmat malleista tuottavat syötteistä omat todennäköisyysjakaumat ja näiden tulosteiden ero pyritään minimoimaan. Tulosteiden kollapsoitumista, eli tilannetta jossa mallit oppivat tulostamaan vain yhtä arvoa, estetään Teacher-verkon todennäköisyysjakauman huipun terävöittämisellä (Caron ym. 2021, 9). Mallien kollapsoituessa molemmat malleista tulostavat samaa ja täten mallien välinen virhe on aina 0, mikä tarkoittaa että mallit eivät opi mitään.

Tämän seurauksena DINO:n tutkimuksen mukaan arkkitehtuuri oppii kolme mielenkiintoista ominaisuutta (Caron ym. 2021, 5-7):

Klusterointi: DINO:n kuvista erottelemista piirrevektoreista voidaan tutkimuksen mukaan tehdä tarkka klusterointi.
Similariteetti: DINO:n tuottaman hyvän klusteroinnin avulla tutkimuksessa todettiin, että kuvien välisten samankaltaisuuksien etsiminen on myös mallilla mahdollista.
Segmentointi: Self-Attention Headeista saadaan käyttökelpoisia Heatmapeja, joiden avulla tunnistettavia objekteja voidaan lokalisoida, tai maskata. Self-Attention Headien tuloste on visualisoituna kuvassa 3.

Kuva 3. Esimerkki DINO:n Self-Attention Headien tuottamista Heatmapeista (Caron ym. 2021, 1)

Lähteet

Caron, M., Touvron, H., Misra, I., Jegou, H., Mairal, J., Bojanowski, P. & Joulin, A. 2021. Self-attention from a Vision Transformer with 8 × 8 patches trained with no supervision. Teoksessa Caron, M., Touvron, H., Misra, I., Jegou, H., Mairal, J., Bojanowski, P. & Joulin, A. Emerging Properties in Self-Supervised Vision Transformers. Cornell University. arXiv e-Print archive. Viitattu 2.10.2022. Saatavissa https://arxiv.org/pdf/2104.14294.pdf

Dosovitskiy, A., Beyer, L., Kolesnikov, A., Weissenborn, D., Zhai, X., Unterthiner, T., Dehghani, M., Minderer, M., Heigold, G., Gelly, S., Uszkoreit, J. & Houlsby, N. 2021. An Image Is Worth 16×16 Words: Transformers For Image Recognition At Scale. Viitattu 1.10.2022. Saatavissa https://arxiv.org/pdf/2010.11929.pdf

Pesu, J. 2022. Tekoälypohjainen videodatan indeksointi. YAMK-opinnäytetyö. LAB-ammattikorkeakoulu, tekniikan ala. Lahti. Viitattu 2.10.2022. Saatavissa https://urn.fi/URN:NBN:fi:amk-2022100120712

Kirjoittajat

Joel Pesu on LAB-ammattikorkeakolun opiskelija IoT:stä tekoälyyn YAMK-koulutuksessa. Hän on työskennellyt yli 6 vuotta ohjelmistokehitystehtävissä, joihin on mahtunut myös muutamia tekoälysovelluksia.

Minna Asplund, TkL, toimii LAB-ammattikorkeakoulussa lehtorina sekä koordinaattorina insinööri (ylempi AMK) IoT:stä tekoälyyn -koulutuksessa.

Artikkelikuva: Tekoälyn DALL-E illustraatio datamerestä (Kuva: Joel Pesu)

Julkaistu 23.11.2022