Modellens nøjagtighed
Vi trænede et flerlags feed-forward convolutional neural network (ConvNet). Modellen tager som input et RGB-billede fra en smartphones frontkamera, der er beskåret til øjenregionerne, og anvender tre lag af konvolution for at udtrække blikfunktioner. Funktionerne kombineres i yderligere lag med automatisk udtrækkede øjenhjørner, der angiver øjets position i billedet, for at opnå en endelig vurdering af øjenblikket på skærmen. Denne basismodel blev først trænet ved hjælp af det offentligt tilgængelige GazeCapture-datasæt37 og derefter finjusteret ved hjælp af kalibreringsdata og personliggjort ved at tilpasse en yderligere regressionsmodel (detaljer i afsnittet “Metoder”) til gaze-funktionens output fra ConvNet, beskrevet nedenfor.
Ved kalibreringen blev deltagerne bedt om at fikserer på en grøn cirkulær stimulus, der dukkede op på en sort skærm. Stimulusen optrådte på tilfældige steder på skærmen. Billeder fra det frontvendte kamera blev optaget med 30 Hz, og tidsstempler blev synkroniseret med markørens placering. I ML-terminologi fungerede billeder og markørplaceringer som henholdsvis input og mål. Under inferensen blev kamerabillederne i rækkefølge sendt til den finjusterede basismodel, hvis næstsidste lag tjente som input til regressionsmodellen for at få det endelige, personlige blikestimat. Modellens nøjagtighed blev evalueret på tværs af alle deltagere ved at beregne fejlen i cm mellem stimulusplaceringer fra kalibreringsopgaverne (ground truth) og de estimerede blikplaceringer.
For at teste effekten af personalisering på modellens nøjagtighed indsamlede vi data fra 26 deltagere, mens de så stimuli på telefonen, monteret på et enhedsstativ. I lighed med typiske eye tracking-undersøgelser på skrivebordet fokuserede vi på en nær frontal hovedposition (ingen tilt / pan / roll; se “Metoder”, undersøgelse 1). Figur 1 viser, hvordan nøjagtigheden varierer med antallet af kalibreringsrammer. Mens basismodellen har en høj fejl på 1,92 ± 0,20 cm, førte personalisering med ~100 kalibreringsrammer til en næsten firedobbelt reduktion i fejlen, hvilket resulterede i 0,46 ± 0,03 cm (t(25) = 7,32, p = 1,13 × 10-7). Bemærk, at 100 kalibreringsrammer på tværs af forskellige skærmplaceringer svarer til <30 s data, hvilket er ganske rimeligt for eye tracking-undersøgelser, hvor kalibrering typisk udføres i begyndelsen af hvert studie (eller i løbet af studiet for at tage højde for pauser eller store ændringer i positur). Den bedste deltager havde en fejl på 0,23 cm, mens den dårligste deltager havde en fejl på 0,75 cm (th percentiler var cm). Ved en synsafstand på 25-40 cm svarer dette til 0,6-1∘ nøjagtighed, hvilket er bedre end 2,44-3∘ for tidligere arbejde37,38.
Forbedringerne i forhold til tidligere arbejde skyldes en kombination af bedre modelarkitektur, kalibrering/personalisering og optimale UX-indstillinger. Især finjustering og personalisering af modellen ved hjælp af ~30 s kalibreringsdata under optimale UX-indstillinger (nær frontal hovedposition, kort synsafstand på 25-40 cm) førte til store forbedringer af nøjagtigheden (1,92-0,46 cm). Mens ændringer i modelarkitekturen førte til beskedne forbedringer i nøjagtigheden (0,73 cm37 til 0,46 cm for vores, med finjustering og personalisering anvendt på begge modeller), reducerede de modelkompleksiteten betydeligt med 50× (8 M vs. 170 K modelparametre), hvilket gør den egnet til implementering på enheden. Vores model er således både let og præcis.
Som vist i Fig. 1b var fejlene sammenlignelige på tværs af forskellige placeringer på telefonskærmen, med lidt større fejl mod de nederste skærmplaceringer, da øjnene har en tendens til at virke delvist lukkede, når deltagerne ser nedad (se supplerende Fig. 1). Mens disse tal er rapporteret for Pixel 2 XL-telefoner, blev det konstateret, at personalisering også hjalp på tværs af andre enheder (se Supplerende fig. 3a). Figur 1a, b fokuserede på den frontale hovedindstilling, således at ansigtet dækkede omkring en tredjedel af kamerarammen. For at teste effekten af hovedindstilling og afstand på nøjagtigheden analyserede vi GazeCapture37 -datasættet på iPhones, som gav mere variation i hovedindstilling/afstand. Som det fremgår af de supplerende figurer 3b-e, blev den bedste præstation opnået ved en næsten frontal hovedindstilling og kortere afstand til telefonen (hvor øjenområdet fremstod større), og nøjagtigheden faldt med stigende panorering/tiltning/rulning, eller efterhånden som deltagerne bevægede sig længere væk fra telefonen. Alle undersøgelser i denne artikel fokuserede derfor på de optimale UX-indstillinger, nemlig nær frontal hovedindstilling med korte synsafstande på 25-40 cm til telefonen. Selv om dette kan virke restriktivt, er det værd at bemærke, at den mest almindelige eye tracking-opsætning for tidligere øjenbevægelsesforskning8,12,14,16,18,29 ofte kræver dyrt hardware og mere kontrollerede indstillinger som f.eks. hagepude med svag indendørs belysning og fast betragtningsafstand.
Sammenligning med specialiserede mobile eye trackere
For at forstå forskellen i ydeevne mellem vores smartphone eye tracker og avancerede, dyre mobile eye trackere sammenlignede vi vores metode med Tobii Pro 2 briller, som er en hovedmonteret eye tracker med fire infrarøde kameraer nær øjet. Vi valgte den frontale hovedindstilling, da Tobii-brillen fungerer bedst i denne indstilling. Tretten brugere udførte en kalibreringsopgave under fire betingelser – med og uden Tobii-briller, med et fast stativ til enheden og med telefonen frit i hånden (se fig. 2). Med det faste enhedsstativ fandt vi, at smartphone eye trackerens nøjagtighed (0,42 ± 0,03 cm) var sammenlignelig med Tobii-briller (0,55 ± 0,06 cm, tosidet parret t-test, t(12) = -2,12, p = 0,06). Der blev opnået lignende resultater i den håndholdte indstilling (0,59 ± 0,03 cm på Tobii vs. 0,50 ± 0,03 cm på vores; t(12) = -1,53, p = 0,15). Fejlfordelingen pr. bruger for både enhedsstativ- og håndholdte indstillinger findes i supplerende figur 4.
Det er værd at bemærke, at specialiserede eye trackere som Tobii Pro-briller repræsenterer en høj bar. Det er hovedmonterede briller med fire infrarøde kameraer (to nær hvert øje) og et verdenscentreret kamera. Input er således infrarøde billeder i høj opløsning af nærbilleder af øjnene (inden for 5-10 cm afstand fra øjet). I modsætning hertil bruger vores metode smartphonens enkelt frontvendte RGB-kamera i større synsafstand (25-40 cm fra øjet), hvorfor øjenområdet forekommer lille. På trods af disse udfordringer er det lovende, at vores smartphone eye tracker opnår en nøjagtighed, der er sammenlignelig med state-of-the-art mobile eye trackere.
Validering på standard oculomotoriske opgaver
Som en forskningsvalidering testede vi, om de vigtigste resultater fra tidligere øjenbevægelsesforskning om oculomotoriske opgaver, der anvender store skærme og dyre desktop eye trackere, kunne replikeres på små smartphone-skærme ved hjælp af vores metode. Toogtyve deltagere udførte prosaccade, glat forfølgelse og visuelle søgeopgaver som beskrevet nedenfor (detaljer i “Metoder”, undersøgelse 2). Figur 3a viser opsætningen til prosaccade-opgaven. Vi beregnede saccade latenstid, en almindeligt studeret måling, som tiden fra stimulus syntes til, at deltageren flyttede øjnene. Som det fremgår af figur 3b, var den gennemsnitlige saccade latenstid 210 ms (median 167 ms), hvilket stemmer overens med 200-250 ms observeret i tidligere undersøgelser41.
For at undersøge glatte forfølgelsesøjenbevægelser blev deltagerne bedt om at udføre to typer opgaver – en, hvor objektet bevægede sig jævnt langs en cirkel, og en anden langs en kasse. Lignende opgaver er for nylig blevet vist at være nyttige til påvisning af hjernerystelse42,43. Figurerne 3c-e viser eksempler på blikscanbaner fra en tilfældigt udvalgt deltager og heatmap på populationsniveau fra alle brugere og forsøg for den glatte forfølgelsescirkelopgave. I overensstemmelse med tidligere litteratur om skriveborde klarede deltagerne sig godt i denne opgave med en lav sporingsfejl på 0,39 ± 0,02 cm. Lignende resultater blev opnået for den glatte forfølgelsesboksopgave (se Supplerende fig. 5).
Bortset fra simple oculomotoriske opgaver undersøgte vi visuel søgning, som har været et centralt fokusområde for opmærksomhedsforskning siden 1980’erne12,44,45. To velkendte fænomener her er: (1) effekten af målets saliency (ulighed eller kontrast mellem målet og omgivende distraherende elementer i displayet, kendt som distraktorer)46,47; (2) og effekten af sætstørrelse (antal elementer i displayet)44,45 på visuel søgeadfærd.
For at teste tilstedeværelsen af disse effekter på telefoner, målte vi blikmønstre, da 22 deltagere udførte en række visuelle søgeopgaver. Vi varierede systematisk målets farveintensitet eller orientering i forhold til distraktorer. Når målets farve (eller orientering) syntes at ligne distraktorerne (lav mål-salience), var der behov for flere fikseringer for at finde målet (se Fig. 4a, c). Når målets farve (eller orientering) derimod var forskellig fra distraktorerne (høj målsalience), var der behov for færre fixeringer (fig. 4b, d). Vi fandt, at på tværs af alle brugere og forsøg, faldt antallet af fikseringer for at finde målet signifikant, da målets saliency steg (se Fig. 4e, f for farveintensitetskontrast: F(3, 63) = 37.36, p < 10-5; for orienteringskontrast: F(3, 60) = 22.60, p < 10-5). Disse resultater bekræfter effekten af målets saliency på visuel søgning, der tidligere er set i skrivebordsundersøgelser12,44,46,47.
For at teste effekten af sætstørrelse på visuel søgning varierede vi antallet af elementer i displayet fra 5, 10 til 15. Figur 4g viser, at effekten af sætstørrelsen afhænger af målets saliency. Når målets saliency er lav (forskel i orientering mellem mål og distraktorer, Δθ = 7∘), steg antallet af fikseringer for at finde målet lineært med sætstørrelsen (hældning = 0.17; envejs ANOVA med gentagne foranstaltninger F(2, 40) = 3.52, p = 0.04). I modsætning hertil, når målets saliency er middelhøj (Δθ = 15∘), varierede antallet af fikseringer for at finde målet ikke signifikant med sætstørrelsen (F(2, 40) = 0.85, p = 0.44). For meget stærkt fremtrædende mål (Δθ = 75∘) fandt vi en negativ effekt af sætstørrelse på antallet af fikseringer (hældning = -0,06; F(2, 40) = 4,39, p = 0,02). Disse resultater er i overensstemmelse med tidligere arbejde på skriveborde47,48,49,50. For at opsummere, i dette afsnit replikerede vi i dette afsnit de vigtigste fund om oculomotoriske opgaver som prosaccade, glat forfølgelse og visuelle søgeopgaver ved hjælp af vores smartphone eye tracker.
Validering på naturlige billeder
Vi validerede yderligere vores metode ved at teste, om tidligere fund om øjenbevægelser for rige stimuli som naturlige billeder, opnået fra dyre desktop eye trackere med store skærme kunne replikeres på små skærme som smartphones ved hjælp af vores metode. Nogle velkendte fænomener om blikket på naturlige billeder er, at blikket påvirkes af (a) den opgave, der udføres (kendt siden de klassiske eye tracking-eksperimenter af Yarbus i 196730); (b) objekters salience i scenen19,51,52; og (c) tendensen til at fikseres nær midten af scenen51,53. For at teste, om vores smartphone eye tracker kan reproducere disse resultater, indsamlede vi data fra 32 deltagere, mens de så naturlige billeder under to forskellige opgavebetingelser: (1) fri visning og (2) visuel søgning efter et mål (se “Metoder”, undersøgelse 3).
Som forventet var blikmønstre mere spredt under fri visning og mere fokuseret mod målobjektet og dets sandsynlige placeringer under visuel søgning (se Fig. 5). For eksempel viser Fig. 5 tredje række, at deltagerne under fri visning brugte tid på at se på personen og det skilt, han peger på i scenen, mens deltagerne under visuel søgning efter en “bil” undgik skiltet og i stedet fikserede på personen og bilen. På tværs af alle billeder blev det konstateret, at blikentropien var signifikant højere ved fri visning end ved visuel søgning (16,94 ± 0,03 vs. 16,39 ± 0,04, t(119) = 11,14, p = 10-23). Yderligere analyse af den visuelle søgepræstation viste, at i overensstemmelse med tidligere resultater54 faldt den samlede fikseringstid for at finde målet med målets størrelse (r = -0,56, p = 10-11; n = 120 billeder), hvilket bekræfter, at større mål er lettere at finde end mindre mål. Ud over størrelsen fandt vi, at målets saliency-tæthed har en signifikant effekt på tiden til at finde målet (r = -0,30, p = 0,0011; n = 120 billeder), dvs, mere fremtrædende mål er lettere at finde end mindre fremtrædende mål, hvilket er i overensstemmelse med tidligere litteratur19.
For det andet testede vi eksistensen af den centrale tendens under fri visning af naturlige billeder på smartphones. Figur 6a viser blikentropien på tværs af alle billeder i denne undersøgelse. Eksempler på lav blikentropi er billeder, der indeholder et eller to fremtrædende objekter i scenen (f.eks. en enkelt person eller et dyr i scenen), mens de billeder med høj entropi indeholder flere interessante objekter (f.eks. flere personer, indendørs rum med møbler). Lignende resultater blev rapporteret med specialiserede desktop eye trackers51,52. Gennemsnitlig beregning af fikseringerne på tværs af alle brugere og billeder fra vores smartphone eye tracker afslørede en centerbias (se Fig. 6b), hvilket er i overensstemmelse med tidligere litteratur om desktops51,53.
Sluttelig, da saliency er blevet omfattende undersøgt ved hjælp af desktop eye trackers19,51,52, sammenlignede vi direkte de blikmønstre, der er opnået fra vores smartphone eye tracker, med dem, der er opnået fra specialiserede desktop eye trackers såsom Eyelink 1000 (ved hjælp af OSIE-datasættet52). Bemærk, at denne sammenligning lægger en høj bar. Ikke alene involverede desktopopsætningen med EyeLink 1000 specialiseret hardware med infrarød lyskilde og infrarøde kameraer i nærheden af øjet med høj rum-/temporal opløsning (op til 2000 Hz), men den anvendte også meget kontrollerede indstillinger med hagepude (og svage lysforhold) og viste billedet på en stor skærm (22″, 33 × 25∘ betragtningsvinkel). I modsætning hertil brugte vores undersøgelsesopsætning smartphonens eksisterende selfiekamera (RGB) i mere naturlige omgivelser (naturlig indendørs belysning, ingen hagepude, blot et stativ til telefonen) med billeder, der blev vist på en lille mobilskærm (6″, medianvisningsvinkel på 12 × 9∘). Således adskiller de to opsætninger sig på en række måder (desktop med stor skærm vs. mobil med lille skærm, kontrollerede indstillinger, omkostninger til eye tracker, samplingfrekvens).
Trods disse forskelle fandt vi, at blikvarmekort fra de to indstillinger er kvalitativt ens. Figur 7 viser de mest ensartede og uensartede heatmaps fra desktop vs. mobil (lighed målt ved hjælp af Pearsons korrelation). Vores smartphone eye tracker var i stand til at registrere lignende blikhotspots som de dyre desktop-modstykker, med en vigtig forskel, nemlig at de mobile blikvarmekort vises mere sløret (se Supplerende diskussion for yderligere analyse). Uklarheden skyldes en kombination af den lille skærmstørrelse på mobilskærmen og den lavere nøjagtighed/støj fra smartphone eye tracker (ingen hagepude, ingen infrarøde kameraer i nærheden af øjet). Bortset fra sløret er blikvarmekortene fra desktop og mobil i høj grad korreleret både på pixelniveau (r = 0,74) og objektniveau (r = 0,90, se tabel 1). Dette tyder på, at vores smartphone eye tracker kan bruges til at skalere saliencyanalyser på mobilt indhold, både for statiske billeder og dynamisk indhold (når deltagerne scroller og interagerer med indholdet eller ser videoer).
Test på læseforståelsesopgave
Overfor forskningsvalidering på oculomotoriske opgaver og naturlige billeder testede vi, om vores smartphone eye tracker kunne hjælpe med at opdage læseforståelsesvanskeligheder, da deltagerne naturligt scrollede og læste passager på telefonen. 17 deltagere læste SAT-lignende passager på telefonen (med scroll-interaktioner) og besvarede to multiple choice-spørgsmål (se “Metoder”, undersøgelse 4). Et af spørgsmålene var faktuel og kunne besvares ved at finde det relevante uddrag i passagen. Det andet spørgsmål krævede en mere detaljeret fortolkning af passagen – vi kalder dette for den “fortolkende” opgave. Som forventet fandt vi, at blikkemønstrene er forskellige for faktuelle og fortolkende opgaver. Blikkemønstrene var mere fokuseret på specifikke dele af passagen for faktuelle opgaver og mere spredt over hele passagen for fortolkningsopgaver (se fig. 8). På tværs af alle brugere og opgaver blev blikentropi fundet at være højere for de fortolkende opgaver end for de faktuelle opgaver (8,14 ± 0,16 vs. 7,71 ± 0,15; t(114) = 1,97, p = 0,05).
I faktuelle opgaver undersøgte vi, om der er forskelle i blikkemønstre, når deltagerne besvarede spørgsmålet korrekt vs. ikke. Vi antog, at blikket skulle være fokuseret på det relevante uddrag i passagen for deltagere, der svarede korrekt, og at blikket skulle være mere spredt eller fokuseret på andre dele af passagen for forkerte svar. Figur 9a viser, at deltagerne brugte signifikant mere tid på at fiksere inden for de relevante passageregioner end irrelevante regioner, når de svarede korrekt (62.29 ± 3.63% tid på relevante vs. 37.7 ± 3.63% på irrelevante; t(52) = 3.38, p = 0.001). Denne tendens var omvendt for forkerte svar, om end ikke signifikant (41.97 ± 6.99% på relevant vs. 58.03 ± 6.99% på irrelevant; t(12) = -1.15, p = 0.27).
Næst undersøgte vi effekten af opgavens sværhedsgrad på blikket og tiden til at svare. Vi kvantificerede opgavens vanskelighed som % forkerte svar pr. opgave (se Supplerende figurer 6-7 for yderligere mål for opgavens vanskelighed, der tager højde for tid og nøjagtighed). Figur 9b-f viser eksempler på blikvarmekort for lette vs. svære opgaver og de tilsvarende spredningsdiagrammer af forskellige målinger som en funktion af opgavens sværhedsgrad. Som forventet steg tiden til at svare med opgavens sværhedsgrad, om end ikke signifikant (Spearmans rangkorrelation r = 0,176, p = 0,63). Antallet af øjenfikseringer på passagen steg med opgavens sværhedsgrad (r = 0,67, p = 0,04). En nærmere undersøgelse viste, at den bedste forudsigelse var brøkdelen af den tid, som blikket blev brugt på det relevante uddrag (normaliseret efter højde), som var stærkt negativt korreleret med opgavens vanskelighed (r = -0,72, p = 0,02). Med andre ord, efterhånden som opgavens vanskelighed steg, brugte deltagerne mere tid på at kigge på de irrelevante uddrag i passagen, før de fandt det relevante uddrag, der indeholdt svaret. Disse resultater viser, at smartphone-baserede blikke kan hjælpe med at opdage læseforståelsesvanskeligheder.