Mallin tarkkuus

Koulutimme monikerroksisen syöttöennakkoluennan (ConvNet). Malli ottaa syötteenä älypuhelimen etukameran RGB-kuvan, joka on rajattu silmäalueille, ja soveltaa kolmea konvoluutiokerrosta katseen piirteiden poimimiseen. Ominaisuudet yhdistetään lisäkerroksissa automaattisesti poimittuihin silmänkulman kiintopisteisiin, jotka osoittavat silmän sijainnin kuvassa, jotta saadaan lopullinen katsearvio näytöllä. Tämä perusmalli koulutettiin ensin käyttäen julkisesti saatavilla olevaa GazeCapture-tietokokonaisuutta37 , minkä jälkeen sitä hienosäädettiin kalibrointitietojen avulla ja personoitiin sovittamalla ylimääräinen regressiomalli (yksityiskohdat kohdassa ”Menetelmät”) ConvNetin tuottamiin katseominaisuuksiin, jotka kuvataan jäljempänä.

Kalibroinnin aikana osallistujia pyydettiin kiinnittämään katse vihreään ympyränmuotoiseen ärsykkeeseen, joka ilmestyi mustalle näytölle. Ärsyke ilmestyi satunnaisiin kohtiin ruudulla. Etukameran kuvat tallennettiin 30 Hz:n taajuudella ja aikaleimat synkronoitiin merkin sijainnin kanssa. ML-terminologiassa kuvia ja merkkien sijainteja käytettiin vastaavasti syötteinä ja kohteina. Päättelyn aikana kameran kuvat syötettiin peräkkäin hienosäädettyyn perusmalliin, jonka toiseksi viimeinen kerros toimi syötteenä regressiomallille lopullisen, personoidun katse-estimaatin saamiseksi. Mallin tarkkuutta arvioitiin kaikilla osallistujilla laskemalla kalibrointitehtävistä saatujen ärsykepaikkojen (perustotuus) ja estimoitujen katsepaikkojen välinen cm:n virhe.

Testaamaan personoinnin vaikutusta mallin tarkkuuteen keräsimme tietoja 26 osallistujalta, kun he katselivat ärsykkeitä puhelimella, joka oli asennettu laitetelineeseen. Samoin kuin tyypillisissä työpöydällä tehtävissä katseenseurantatutkimuksissa, keskityimme lähes frontaaliseen pääasentoon (ei kallistusta/pyyhkäisyä/pyöritystä; katso ”Menetelmät”, tutkimus 1). Kuvassa 1 esitetään, miten tarkkuus vaihtelee kalibrointikehysten määrän mukaan. Vaikka perusmallin virhe on suuri, 1,92 ± 0,20 cm, personointi ~100 kalibrointikehyksellä johti lähes nelinkertaiseen virheen pienenemiseen, jonka tuloksena oli 0,46 ± 0,03 cm (t(25) = 7,32, p = 1,13 × 10-7). Huomaa, että 100 kalibrointikehystä eri näyttöpaikoissa vastaa <30 s:n dataa, mikä on varsin kohtuullista silmienseurantatutkimuksissa, joissa kalibrointi suoritetaan tyypillisesti kunkin tutkimuksen alussa (tai tutkimuksen aikana taukojen tai suurten asennonmuutosten huomioon ottamiseksi). Parhaalla osallistujalla oli 0,23 cm:n virhe, kun taas huonoimmalla osallistujalla oli 0,75 cm:n virhe (th-prosenttiilit olivat cm). Katseluetäisyydellä 25-40 cm tämä vastaa 0,6-1∘ tarkkuutta, mikä on parempi kuin aiemmissa töissä37,38 käytetty 2,44-3∘ tarkkuus.

Kuva 1: Älypuhelimen katseenseurantalaitteemme tarkkuus.

a Katseen arviointitarkkuus (keskiarvo ± s.e.m, n = 26 osallistujaa) paranee, kun # kalibrointikehykset personoidaan. b Virhe eri näyttöpaikoissa. Ympyrän säde osoittaa mallin keskimääräisen virheen kyseisessä näyttöpaikassa.

Parannukset aiempiin töihin verrattuna johtuvat paremman malliarkkitehtuurin, kalibroinnin/personalisoinnin ja optimaalisten UX-asetusten yhdistelmästä. Erityisesti mallin hienosäätö ja personointi käyttäen ~30 s kalibrointidataa optimaalisissa UX-asetuksissa (lähellä etupäätä, lyhyt katseluetäisyys 25-40 cm) johti suuriin tarkkuusparannuksiin (1,92-0,46 cm). Vaikka malliarkkitehtuurin muutokset johtivat vaatimattomiin parannuksiin tarkkuudessa (0,73 cm37 0,46 cm:iin omassamme, kun hienosäätöä ja personointia sovellettiin molempiin malleihin), ne vähensivät mallin monimutkaisuutta merkittävästi 50-kertaisesti (8 M vs. 170 K malliparametria), mikä tekee siitä sopivan laitteen sisäistä toteutusta varten. Näin ollen mallimme on sekä kevyt että tarkka.

Kuten kuvasta 1b käy ilmi, virheet olivat vertailukelpoisia puhelimen näytön eri paikoissa, ja virheet olivat hieman suurempia näytön alareunan paikoissa, koska silmät näyttävät yleensä osittain suljetuilta, kun osallistujat katsovat alaspäin (ks. täydentävä kuva 1). Vaikka nämä luvut on raportoitu Pixel 2 XL -puhelimille, personoinnin havaittiin auttavan myös muilla laitteilla (ks. täydentävä kuva 3a). Kuvissa 1a, b keskityttiin etupään asentoon siten, että kasvot peittivät noin kolmanneksen kameran kehyksestä. Testataksemme pääasennon ja etäisyyden vaikutusta tarkkuuteen analysoimme iPhonella GazeCapture37 -aineistoa, jossa pääasento/etäisyys oli monipuolisempi. Kuten täydentävistä kuvista 3b-e nähdään, paras suorituskyky saavutettiin, kun pään asento oli lähellä etupuolta ja etäisyys puhelimeen oli lyhyempi (jolloin silmän alue näytti suuremmalta), ja tarkkuus heikkeni, kun panoroinnin/kallistuksen/pyörityksen määrä kasvoi tai kun osallistujat siirtyivät kauemmas puhelimesta. Näin ollen kaikissa tämän asiakirjan tutkimuksissa keskityttiin optimaalisiin UX-asetuksiin, eli lähelle etupäätä suuntautuvaan asentoon ja lyhyeen katseluetäisyyteen 25-40 cm:n etäisyydelle puhelimesta. Vaikka tämä saattaa vaikuttaa rajoittavalta, on syytä huomata, että aiemmissa silmänliiketutkimuksissa yleisimmät silmienseuranta-asetukset8,12,14,16,18,29 edellyttävät usein kalliita laitteistoja ja kontrolloidumpia asetuksia, kuten leukatukea, hämärää sisävalaistusta ja kiinteää katseluetäisyyttä.

Vertailu erikoistuneisiin mobiiliin silmäseurantalaitteisiin

Ymmärtääksemme älypuhelimen silmäseurantalaitteemme ja huipputason kalliiden mobiilien silmäseurantalaitteiden välisen suorituskykyeron, vertasimme menetelmäämme Tobii Pro 2 -laseihin, jotka ovat päähän asennettavat silmäseurantalaitteet, joissa on neljä infrapunakameraa silmän lähellä. Valitsimme etupään asennon, koska Tobii-lasit toimivat parhaiten tässä ympäristössä. Kolmetoista käyttäjää suoritti kalibrointitehtävän neljässä tilanteessa – Tobii-lasien kanssa ja ilman niitä, kiinteällä laitetelineellä ja vapaasti puhelinta kädessä pitäen (ks. kuva 2). Kiinteän laitetelineen kanssa havaitsimme, että älypuhelimen silmäseurannan tarkkuus (0,42 ± 0,03 cm) oli verrattavissa Tobii-lasien tarkkuuteen (0,55 ± 0,06 cm, kaksinapainen parittainen t-testi, t(12) = -2,12, p = 0,06). Samankaltaisia tuloksia saatiin myös kädessä pidettävissä asetuksissa (0,59 ± 0,03 cm Tobii-lasilla vs. 0,50 ± 0,03 cm meidän lasillamme; t(12) = -1,53, p = 0,15). Käyttäjäkohtainen virhejakauma sekä laiteteline- että kädessä pidettävien asetusten osalta löytyy täydentävästä kuvasta 4.

Kuva 2: Tobii-lasien tarkkuuden vertailu vs. meidän mallimme.

Tutkimusasetelma kuvaa neljää koeolosuhdetta: Osallistuja (kirjailija havainnollistamistarkoituksessa) tarkastelee ärsykkeitä puhelimessa (joka on asennettu laitetelineeseen) Tobii-lasit päällään (a) ja ilman (b). c, d Samanlainen kuin edellä, mutta osallistuja pitää puhelinta kädessä. e, f Erikoistetun silmäseurantajärjestelmän (Tobii-lasit) vs. älypuhelimemme silmäseurantajärjestelmän tarkkuus (keskiarvo ± s.e.m., n = 13 osallistujaa) laitetelineessä ja kädessä pidettävissä asetuksissa. Tilastollinen vertailu osoittaa, että tarkkuudessa ei ole merkittävää eroa molemmissa asetuksissa (laiteteline: t(12) = -2.12, p = 0.06; kädessä pidettävissä: t(12) = -1.53, p = 0.15; kahden hännän parittainen t-testi).

On syytä huomioida, että erikoistuneet silmäseurantalaitteet, kuten Tobii Pro -lasit, edustavat korkeaa rimaa. Nämä ovat päähän kiinnitettävät lasit, joissa on neljä infrapunakameraa (kaksi kummankin silmän lähellä) ja yksi maailmankeskeinen kamera. Näin ollen syötteenä on korkearesoluutioisia infrapunakuvia silmien lähikuvista (5-10 cm:n etäisyydellä silmästä). Menetelmämme käyttää sitä vastoin älypuhelimen yhtä etupuolen RGB-kameraa suuremmalla katseluetäisyydellä (25-40 cm:n etäisyydellä silmästä), joten silmän alue näyttää pieneltä. Näistä haasteista huolimatta on lupaavaa, että älypuhelimen silmäseurantalaitteemme saavuttaa vastaavan tarkkuuden kuin nykyaikaiset mobiilit silmäseurantalaitteet.

Validointi tavallisilla okulomotorisilla tehtävillä

Tutkimuksellisena validointina testasimme, voisivatko aiempien silmänliiketutkimusten keskeiset havainnot, jotka on saatu okulomotorisista tehtävistä, joissa on käytetty suuria näyttöjä ja kalliita pöytätietokoneiden silmäseurantalaitteita, olla toistettavissa älypuhelinten pienillä näytöillä käyttämällä meidän menetelmää. Kaksikymmentäkaksi osallistujaa suoritti prosaccade-, smooth pursuit- ja visuaalisia hakutehtäviä alla kuvatulla tavalla (yksityiskohdat kohdassa ”Menetelmät”, tutkimus 2). Kuvassa 3a esitetään prosaccade-tehtävän asetelma. Laskimme sakkadin latenssin, joka on yleisesti tutkittu mittari, ajaksi ärsykkeen ilmestymisestä siihen, kun osallistuja siirsi silmiään. Kuten kuvasta 3b nähdään, keskimääräinen saccade-latenssi oli 210 ms (mediaani 167 ms), mikä vastaa aiemmissa tutkimuksissa havaittuja 200-250 ms:n arvoja41.

Kuva 3: Älypuhelimen katse tavanomaisia okulomotorisia tehtäviä varten.

a Prosaccade-tehtävä. Jokainen koe alkoi 800 ms:n keskusfiksaatiolla, jonka jälkeen kohde ilmestyi satunnaiseen paikkaan ja pysyi 1000 ms:n ajan. Osallistujia pyydettiin sakkadoimaan kohteeseen heti, kun se ilmestyi. b Sakkadin latenssijakauma prosaccade-tehtävässä. c Smooth pursuit -tehtävä. Osallistujia pyydettiin katsomaan vihreää pistettä, kun se liikkui ympyrää pitkin. d Mustalla esitetty yksittäisen käyttäjän esimerkkiskannaustie (ground truth vihreällä). e Populaatiotason lämpökartta kaikista käyttäjistä ja kokeista.

Sujuvan takaa-ajon (smooth pursuit) silmänliikkeitä tutkiakseen osallistujia pyydettiin suorittamaan kahta tyyppistä tehtävää: yksi, jossa objekti liikkui sujuvasti ympyrää pitkin, ja toinen, jossa kohde liikkui laatikkoa pitkin. Samankaltaisten tehtävien on äskettäin osoitettu olevan hyödyllisiä aivotärähdyksen havaitsemisessa42,43. Kuvissa 3c-e näytetään satunnaisesti valitun osallistujan katseen skannausreitti ja populaatiotason lämpökartta kaikista käyttäjistä ja kokeista sileää liikettä koskevan ympyrätehtävän osalta. Osallistujat suoriutuivat tästä tehtävästä hyvin, ja seurantavirhe oli pieni (0,39 ± 0,02 cm), mikä vastaa aiempaa kirjallisuutta työpöydistä. Samanlaisia tuloksia saatiin smooth pursuit -laatikkotehtävässä (ks. täydentävä kuva 5).

Yksinkertaisten oculomotoristen tehtävien lisäksi tutkimme visuaalista hakua, joka on ollut tarkkaavaisuustutkimuksen keskeinen painopistealue 1980-luvulta lähtien12,44,45. Kaksi tunnettua ilmiötä tässä yhteydessä ovat: (1) kohteen näkyvyyden (kohteen ja sitä ympäröivien häiritsevien kohteiden, joita kutsutaan häiriötekijöiksi, välinen erilaisuus tai kontrasti näytössä)46,47; (2) ja joukon koon (kohteiden määrä näytössä)44,45 vaikutus visuaaliseen hakukäyttäytymiseen.

Testaamaan näiden vaikutusten esiintymistä puhelimissa mittasimme katsekuvioita, kun 22 osallistujaa suoritti sarjan visuaalisia hakutehtäviä. Vaihtelimme systemaattisesti kohteen värin voimakkuutta tai suuntausta suhteessa häiriötekijöihin. Kun kohteen väri (tai suuntaus) näytti samankaltaiselta kuin häiriötekijät (alhainen kohteen saliency), kohteen löytämiseen tarvittiin enemmän fiksaatioita (ks. Kuva 4a, c). Sitä vastoin, kun kohteen väri (tai orientaatio) näytti erilaiselta kuin häiriötekijät (korkea kohdesalienssi), tarvittiin vähemmän fiksaatioita (Kuva 4b, d). Havaitsimme, että kaikilla käyttäjillä ja kaikissa kokeissa kohteen löytämiseen tarvittavien fiksaatioiden määrä väheni merkittävästi, kun kohteen näkyvyys kasvoi (ks. kuva 4e, f värin voimakkuuden kontrastin osalta: F(3, 63) = 37.36, p < 10-5; orientaatiokontrastin osalta: F(3, 60) = 22.60, p < 10-5). Nämä tulokset vahvistavat aiemmin työpöytätutkimuksissa12,44,46,47 havaitun kohteen erottuvuuden vaikutuksen visuaaliseen hakuun.

Kuvio 4: Älypuhelimen katse visuaalisen haun aikana.

a, b, e Kohteen värikontrastin vaikutus visuaalisen haun suorituskykyyn. a Katseen skannausreitti silloin, kun kohteen kontrasti on matala (ts, samanlainen kuin häiriötekijät). b Skannauspolku, kun kohteen kontrasti on korkea (erilainen kuin häiriötekijöillä). e Kohteen löytämiseen tarvittavien fiksaatioiden määrä kohteen värikontrastin funktiona (kuvaaja esittää keskiarvon ± s.e.m., n = 44-65 koetta/kontrastitaso). c, d, f Samanlaiset kuvaajat orientaatiokontrastin osalta (kohteen ja häiriötekijöiden orientaatioero asteina, Δθ; n = 42-63 koetta/kontrastitaso). g Joukon koon vaikutus. Kohteen löytämiseen tarvittavien fiksaatioiden määrä, kun näytön kohteiden määrä vaihteli välillä 5, 10 ja 15; ja kohteen orientaatiokontrasti vaihteli matalasta (Δθ = 7∘) keskikorkeaan (Δθ = 15∘) ja erittäin korkeaan (Δθ = 75∘). Kuvaaja esittää fiksaatioiden lukumäärän keskiarvon ± s.e.m. (n = 42-63 koetta kullekin joukon koon ja Δθ:n yhdistelmälle).

Testaillaksemme joukon koon vaikutusta visuaaliseen etsimiseen varioimme esineiden lukumäärää näytössä 5, 10 ja 15 välillä. Kuva 4g osoittaa, että joukon koon vaikutus riippuu kohteen saliaatiosta. Kun kohteen saliaabelius on alhainen (kohteen ja häiriötekijöiden orientaatioero, Δθ = 7∘), kohteen löytämiseen tarvittavien fiksaatioiden määrä kasvoi lineaarisesti joukon koon myötä (kaltevuus = 0,17; yksisuuntainen toistettujen mittausten ANOVA F(2, 40) = 3,52, p = 0,04). Sitä vastoin, kun kohteen näkyvyys on keskikorkea (Δθ = 15∘), kohteen löytämiseen tarvittavien fiksaatioiden määrä ei vaihdellut merkittävästi joukon koon mukaan (F(2, 40) = 0.85, p = 0.44). Erittäin voimakkaasti erottuvien kohteiden (Δθ = 75∘) kohdalla havaittiin joukon koon negatiivinen vaikutus fiksaatioiden määrään (kaltevuus = -0,06; F(2, 40) = 4,39, p = 0,02). Nämä havainnot ovat yhdenmukaisia aiempien työpöytiä koskevien töiden47,48,49,50 kanssa. Yhteenvetona voidaan todeta, että tässä osiossa toistimme älypuhelimen silmäseurantalaitteellamme älypuhelimen silmäseurantalaitteella tärkeimmät havainnot okulomotorisista tehtävistä, kuten prosaccade-, smooth pursuit- ja visuaalisista hakutehtävistä.

Validointi luonnollisilla kuvilla

Validoimme menetelmäämme edelleen testaamalla, voisivatko aiemmat havainnot silmänliikkeistä rikkaille ärsykkeille, kuten luonnollisille kuville, jotka saatiin kalliilla työpöydän silmäseurantalaitteilla, joissa oli suuret näytöt, toistua pienillä näytöillä, kuten älypuhelimilla, käyttämällä menetelmäämme. Luonnollisiin kuviin kohdistuvaan katseeseen vaikuttavat tunnetusti seuraavat ilmiöt: a) suoritettava tehtävä (tämä tiedetään Yarbusin vuonna 1967 tekemistä klassisista silmienseurantakokeista30 lähtien), b) kohtauksen kohteiden erottuvuus (saliency) 19,51,52 ja c) taipumus fiksoitua lähelle kohtauksen keskipistettä51,53. Testataksemme, voiko älypuhelimen silmäseurantajärjestelmämme toistaa nämä havainnot, keräsimme tietoja 32 osallistujalta, kun he katselivat luonnollisia kuvia kahdessa eri tehtäväolosuhteessa: (1) vapaa katselu ja (2) kohteen visuaalinen haku (ks. ”Menetelmät”, tutkimus 3).

Odotetusti katsekuviot olivat hajanaisempia vapaan katselun aikana ja keskittyneempiä kohti kohdekohdetta ja sen todennäköisiä sijainteja visuaalisen haun aikana (ks. kuva 5). Esimerkiksi kuvion 5 kolmas rivi osoittaa, että vapaan katselun aikana osallistujat viettivät aikaa katsomalla henkilöä ja merkkiä, jota hän osoittaa kohtauksessa, kun taas ”auton” visuaalisen haun aikana osallistujat välttelivät merkkiä ja sen sijaan kiinnittyivät henkilöön ja autoon. Kaikissa kuvissa katseen entropian todettiin olevan merkittävästi korkeampi vapaassa katselussa kuin visuaalisessa haussa (16,94 ± 0,03 vs. 16,39 ± 0,04, t(119) = 11,14, p = 10-23). Visuaalisen haun suorituskyvyn lisäanalyysi osoitti, että aiempien havaintojen54 mukaisesti kohteen löytämiseen tarvittava fiksaation kokonaiskesto lyheni kohteen koon kasvaessa (r = -0,56, p = 10-11; n = 120 kuvaa), mikä vahvistaa, että suuremmat kohteet on helpompi löytää kuin pienemmät. Koon lisäksi havaitsimme, että kohteen saliaatiotiheydellä on merkittävä vaikutus kohteen löytämiseen kuluvaan aikaan (r = -0,30, p = 0,0011; n = 120 kuvaa), ts, salientimpia kohteita on helpompi löytää kuin vähemmän salientteja, mikä vastaa aiempaa kirjallisuutta19.

Kuva 5: Katse luonnollisiin kuviin riippuu suoritettavasta tehtävästä.

Pylväät viittaavat: a Alkuperäiseen kuvaan; b fiksaation lämpökarttaan vapaan katselun aikana; c esimerkkipyyhkäisyreittiin yksittäiseltä osallistujalta vapaassa katselussa; d fiksaation lämpökarttaan visuaalisen kohdehakutehtävän aikana kohteeseen kohdistuvan kohteen etsimisessä (määritetty kunkin kuvan otsikossa); e esimerkkipyyhkäisyreittiin yksittäiseltä osallistujalta visuaalisessa hakutehtävässä.

Toiseksi testasimme keskustendenssin olemassaoloa luonnollisten kuvien vapaan katselun aikana älypuhelimilla. Kuvassa 6a on esitetty katseen entropia kaikissa tämän tutkimuksen kuvissa. Esimerkkejä matalasta katseentropiasta ovat kuvat, jotka sisältävät yhden tai kaksi silmiinpistävää kohdetta kohtauksessa (esim. yksi henkilö tai eläin kohtauksessa), kun taas korkean entropiatason kuvat sisältävät useita kiinnostavia kohteita (esim. useita ihmisiä, sisätiloissa oleva huone huonekaluineen). Samanlaisia havaintoja on raportoitu erikoistuneilla työpöydän silmäseurantalaitteilla51,52. Älypuhelimen katseenseurantalaitteemme kaikkien käyttäjien ja kuvien fiksaatioiden keskiarvoistaminen paljasti keskipisteen vinoutuman (ks. kuva 6b), joka on yhdenmukainen aikaisemman pöytäkoneita koskevan kirjallisuuden kanssa51,53.

Kuva 6: Katseen entropia ja keskipisteen vinoutuma vapaassa katselussa puhelimilla.

a Histogrammi katseen entropiasta kaikkien kuvien välillä vapaassa katselussa yhdessä esimerkkien kanssa matalasta vs. keskipisteestä. high entropy images. b Fiksaatioiden keskiarvoistaminen kaikkien käyttäjien ja kuvien välillä paljastaa keskipisteen vinoutuman.

Viimeiseksi, koska saliaatiota on tutkittu laajasti työpöydän katseenseurantalaitteilla19,51,52, vertasimme suoraan älypuhelimen katseenseurantalaitteella saamiamme katseenmalleja erikoistuneilla työpöydän katseenseurantalaitteilla, kuten Eyelink 1000:lla, saatuihin katseenmuotoiluihin (OSIE-tietokokonaisuutta52 käyttäen). Huomaa, että tämä vertailu asettaa riman korkealle. Sen lisäksi, että EyeLink 1000:n työpöytäasennuksessa käytettiin erikoistunutta laitteistoa, jossa oli infrapunavalonlähde ja infrapunakamerat lähellä silmää ja jolla oli korkea spatio-temporaalinen resoluutio (jopa 2000 Hz), siinä käytettiin myös erittäin valvottuja asetuksia, joissa oli leukatuki (ja hämärät valaistusolosuhteet), ja kuva näytettiin suurella kuvaruudulla (22″, katselukulma 33 × 25∘). Sitä vastoin tutkimusasetelmassamme käytettiin älypuhelimen nykyistä selfie-kameraa (RGB) luonnollisemmissa olosuhteissa (luonnollinen sisävalaistus, ei leuan lepuutusta, vain jalusta puhelimelle), ja kuvia katsottiin pienellä matkapuhelimen näytöllä (6″, mediaanikatselukulma 12 × 9∘). Näin ollen nämä kaksi asetelmaa eroavat toisistaan monin tavoin (suuri pöytätietokoneen näyttö vs. pieni matkapuhelimen näyttö, kontrolloidut asetukset, katseenseurantalaitteen kustannukset, näytteenottotaajuus).

Näistä eroavaisuuksista huolimatta havaitsimme, että katseen lämpökartat näistä kahdesta asetelmasta ovat laadullisesti samanlaisia. Kuvassa 7 esitetään samankaltaisimmat ja erilaisimmat lämpökartat työpöydältä vs. mobiililaitteesta (samankaltaisuus mitattuna Pearsonin korrelaation avulla). Älypuhelimen katseenseurantalaitteemme pystyi havaitsemaan samankaltaisia katseen hotspotteja kuin kalliit pöytätietokoneen vastineet, mutta keskeinen ero on se, että mobiilin katseen lämpökartat näyttävät epäselvemmiltä (katso lisäanalyysi täydentävästä keskustelusta). Sumeus johtuu matkapuhelimen näytön pienestä koosta ja älypuhelimen katseenseurantalaitteen alhaisemmasta tarkkuudesta/kohinasta (ei leukatukea, ei infrapunakameroita silmän lähellä). Sumeutta lukuun ottamatta työpöydän ja matkapuhelimen katseen lämpökartat korreloivat voimakkaasti sekä pikselitasolla (r = 0,74) että objektitasolla (r = 0,90, ks. taulukko 1). Tämä viittaa siihen, että älypuhelimen katseenseurantajärjestelmäämme voitaisiin käyttää mobiilisisällön saliency-analyysien skaalaamiseen sekä staattisten kuvien että dynaamisen sisällön osalta (kun osallistujat selaavat ja ovat vuorovaikutuksessa sisällön kanssa tai katsovat videoita).

Kuva 7: Mobiilin ja työpöydän katseiden vertailu luonnollisessa kuvien katselussa.

Vasemmalla näkyvät samankaltaisimmat mobiili- vs. työpöytätason katseen lämpökartat ja oikealla vähiten samankaltaisimmat lämpökartat. Sarakkeet viittaavat: a ja d alkuperäiseen kuvaan; b ja e mobiilin katseen lämpökarttaan, jonka sumeusleveys on 24 px; c ja f työpöydän katseen lämpökarttaan, jonka sumeusleveys on 24 px (vastaa 1∘ työpöydän katselukulmaa). Katso täydentävä kuva 9 ja täydentävä taulukko 1 vastaavista tuloksista suuremmalla 67 px:n sumeusleveydellä (vastaa 1∘ mobiilin katselukulmaa).

Taulukko 1 Mobiilin ja työpöydän katseen väliset korrelaatiot.

Testaus luetun ymmärtämistehtävässä

Tutkimusvalidoinnin lisäksi okulomotorisilla tehtävillä ja luonnollisilla kuvilla testasimme, voisiko älypuhelimen katseenseurantalaitteemme auttaa havaitsemaan lukemisen ymmärtämisvaikeuksia, kun osallistujat selasivat ja lukivat luonnollisesti tekstikohtia puhelimessa. Seitsemäntoista osallistujaa luki SAT:n kaltaisia kohtia puhelimessa (vieritysvuorovaikutuksella) ja vastasi kahteen monivalintakysymykseen (ks. ”Menetelmät”, tutkimus 4). Toinen kysymyksistä oli asiallinen, ja siihen voitiin vastata etsimällä asiaankuuluva katkelma tekstistä. Toisessa kysymyksessä piti tulkita tekstiä yksityiskohtaisemmin – kutsumme tätä ”tulkinnalliseksi” tehtäväksi. Kuten odotettua, havaitsimme, että katsekuviot ovat erilaiset tosiasioihin perustuvissa ja tulkitsevissa tehtävissä. Katsekuviot olivat keskittyneempiä tiettyihin tekstin osiin faktatehtävissä ja hajanaisempia eri puolilla tekstiä tulkitsevissa tehtävissä (ks. kuvio 8). Kaikilla käyttäjillä ja tehtävillä katseen entropian havaittiin olevan korkeampi tulkinnallisissa tehtävissä kuin faktatehtävissä (8,14 ± 0,16 vs. 7,71 ± 0,15; t(114) = 1,97, p = 0,05).

Kuva. 8: Erilaiset katsekuviot fakta- vs. tulkintatehtävissä.

a Esimerkkikappale, joka näytettiin osallistujalle (varsinainen teksti korvattu tekijänoikeudellisista syistä tekstiteksteillä). Vihreä rajauslaatikko korostaa faktatehtävän kannalta merkityksellistä otetta (laatikko näytetään vain havainnollistamistarkoituksessa, osallistujat eivät nähneet sitä). b Väestötason katseen lämpökartta faktatehtävää varten kohdassa (a) esitetylle tekstikatkelmalle. c Tulkintatehtävän lämpökartta kohdassa (a) esitetylle tekstikatkelmalle. d-f Samanlainen kuin kohdat (a-c), paitsi että faktatehtävä ilmestyi tulkintatehtävän jälkeen. Molemmissa esimerkeissä katse oli hajanaisempi koko tekstikohdassa tulkinnallisissa kuin faktatehtävissä.

Faktatehtävissä tarkastelimme, onko katsekuvioissa eroja silloin, kun osallistujat vastasivat kysymykseen oikein vs. eivät. Hypoteesimme, että katseen tulisi keskittyä asiaankuuluvaan otteeseen tekstikohdassa niiden osallistujien kohdalla, jotka vastasivat oikein, ja katseen tulisi olla hajanaisempi tai keskittyä tekstikohdan muihin osiin väärien vastausten kohdalla. Kuvio 9a osoittaa, että osallistujat viettivät huomattavasti enemmän aikaa kiinnittymällä asiaankuuluviin kuin asiaankuulumattomiin osioihin, kun he vastasivat oikein (62,29 ± 3,63 % ajasta asiaankuuluviin vs. 37,7 ± 3,63 % asiaankuulumattomiin osioihin; t(52) = 3,38, p = 0,001). Tämä suuntaus oli päinvastainen väärien vastausten kohdalla, vaikkakaan ei merkitsevä (41,97 ± 6,99 % asiaankuuluvalla vs. 58,03 ± 6,99 % asiaankuulumattomalla; t(12) = -1,15, p = 0,27).

Seuraavaksi tutkittiin tehtävän vaikeustason vaikutusta katseeseen ja vastaamiseen kuluvaan aikaan. Kvantifioimme tehtävän vaikeuden prosentuaalisesti virheellisinä vastauksina tehtävää kohti (ks. täydentävät kuvat 6-7 tehtävien vaikeuden lisämittareista, joissa otetaan huomioon aika ja tarkkuus). Kuvissa 9b-f on esimerkkejä katseen lämpökartoista helppojen ja vaikeiden tehtävien välillä ja vastaavat eri mittareiden hajontakuviot tehtävän vaikeuden funktiona. Odotetusti vastaamiseen kulunut aika kasvoi tehtävän vaikeuden myötä, vaikkakaan ei merkittävästi (Spearmanin korrelaatio r = 0,176, p = 0,63). Kohtaan kiinnitettyjen silmien määrä kasvoi tehtävän vaikeuden myötä (r = 0,67, p = 0,04). Tarkempi tarkastelu osoitti, että paras ennustaja oli kyseiseen otteeseen käytetyn katseluajan osuus (normalisoitu korkeuden mukaan), joka korreloi voimakkaasti negatiivisesti tehtävän vaikeuden kanssa (r = -0,72, p = 0,02). Toisin sanoen, kun tehtävän vaikeusaste kasvoi, osallistujat käyttivät enemmän aikaa katsomalla kulkukohdan epäolennaisia otteita ennen kuin löysivät vastauksen sisältävän olennaisen otteen. Nämä tulokset osoittavat, että älypuhelimeen perustuva katse voi auttaa havaitsemaan luetun ymmärtämisen vaikeuden.

Kuvio 9: Luetun ymmärtämisen vaikeuden vaikutus katseeseen tosiasioihin liittyvissä tehtävissä.

a Pylväsdiagrammi kuvaa fiksaation %:n mittaista kestoa asiaankuuluvaan katkelman osaan kiinnittyneenä (korkeuden mukaan normalisoituna), kun osallistujat vastasivat tosiasioihin perustuvaan kysymykseen oikein vs. väärin. Virhepalkit kuvaavat keskiarvoa ± s.e.m. (n = 53, 13 tehtävää oikein vs. väärin). b Esimerkki fiksaation lämpökartasta helpossa faktatehtävässä; c vaikeassa faktatehtävässä. d-f Hajontakaaviot, joissa näkyvät eri mittarit tehtävän vaikeuden funktiona. d Kysymykseen vastaamiseen kulunut aika sekunteina (sisältää kysymyksen ja tekstikappaleen lukemiseen käytetyn ajan); e tekstikappaleen fiksaatioiden lukumäärän; f asiaankuuluvalla alueella vietetyn ajan prosentuaalinen osuus (%), joka on saatu laskemalla %:lla fiksaatioiden kesto asiaankuuluvaan tekstikappaleeseen (normalisoitu korkeuden mukaan). Tilastollinen korrelaatio ilmoitetaan Spearmanin järjestyskorrelaatiokertoimena (n = 10 tehtävää); kaksihaarainen yhden otoksen t-testi. Luottamusvyöhyke edustaa bootstrapattua 68 prosentin luottamusväliä.

Vastaa

Sähköpostiosoitettasi ei julkaista.