Modellens noggrannhet
Vi tränade ett flerlagers feed-forward konvolutionellt neuralt nätverk (ConvNet). Modellen tar som indata en RGB-bild från en smartphones frontkamera beskuren till ögonregionerna och tillämpar tre lager av konvolution för att extrahera blickfunktioner. Funktionerna kombineras i ytterligare lager med automatiskt extraherade ögonhörnmarkeringar som anger ögats position i bilden för en slutlig uppskattning av blicken på skärmen. Denna basmodell tränades först med hjälp av det offentligt tillgängliga datasetet GazeCapture37 och finjusterades sedan med hjälp av kalibreringsdata och personaliserades genom att en ytterligare regressionsmodell (detaljer i avsnittet ”Metoder”) anpassades till utdata om blickfunktioner från ConvNet, som beskrivs nedan.
Under kalibreringen ombads deltagarna att fixera ett grönt, cirkulärt stimulus som visades på en svart skärm. Stimulansen dök upp på slumpmässiga platser på skärmen. Bilder från den främre kameran spelades in med 30 Hz och tidsstämplar synkroniserades med markörens placering. I ML-terminologin fungerade bilder och markörplatser som ingångar respektive mål. Under inferensen matades kamerabilderna i sekvens till den finjusterade basmodellen vars näst sista lager tjänade som indata till regressionsmodellen för att få fram den slutliga, personliga uppskattningen av blicken. Modellens noggrannhet utvärderades hos alla deltagare genom att beräkna felet i cm mellan stimulusplaceringar från kalibreringsuppgifterna (grundsanning) och de uppskattade blickplaceringarna.
För att testa personaliseringens effekt på modellens noggrannhet samlade vi in data från 26 deltagare när de tittade på stimuli på telefonen, monterad på ett enhetsstativ. I likhet med typiska eyetrackingstudier på skrivbordet fokuserade vi på en nära frontal headpose (ingen tilt/pan/roll; se ”Metoder”, studie 1). Figur 1 visar hur noggrannheten varierar med antalet kalibreringsramar. Medan basmodellen har ett högt fel på 1,92 ± 0,20 cm, ledde personalisering med ~100 kalibreringsramar till en nästan fyrfaldig minskning av felet vilket resulterade i 0,46 ± 0,03 cm (t(25) = 7,32, p = 1,13 × 10-7). Observera att 100 kalibreringsramar över olika skärmpositioner motsvarar <30 s data, vilket är ganska rimligt för eyetrackingstudier där kalibrering vanligtvis utförs i början av varje studie (eller under studiens gång för att ta hänsyn till pauser eller stora förändringar i posering). Den bästa deltagaren hade 0,23 cm fel, medan den sämsta deltagaren hade 0,75 cm fel (th percentiler var cm). Vid ett betraktningsavstånd på 25-40 cm motsvarar detta 0,6-1∘ noggrannhet, vilket är bättre än 2,44-3∘ för tidigare arbeten37,38.
Förbättringarna jämfört med tidigare arbete beror på en kombination av bättre modellarkitektur, kalibrering/personalisering och optimala UX-inställningar. Särskilt finjustering och personalisering av modellen med hjälp av ~30 s kalibreringsdata under optimala UX-inställningar (nära frontalt huvudläge, kort betraktningsavstånd på 25-40 cm) ledde till stora förbättringar av noggrannheten (1,92-0,46 cm). Medan förändringar i modellarkitekturen ledde till blygsamma förbättringar av noggrannheten (0,73 cm37 till 0,46 cm för vår, med finjustering och personalisering tillämpad på båda modellerna), minskade de avsevärt modellens komplexitet med 50× (8 M vs. 170 K modellparametrar), vilket gör den lämplig för implementering på en enhet. Vår modell är alltså både lättviktig och noggrann.
Som framgår av fig. 1b var felen jämförbara över olika platser på telefonskärmen, med något större fel mot de nedre skärmplatserna eftersom ögonen tenderar att verka delvis stängda när deltagarna tittar ner (se kompletterande fig. 1). Även om dessa siffror rapporteras för Pixel 2 XL-telefoner, visade sig personalisering vara till hjälp även på andra enheter (se kompletterande fig. 3a). Figurerna 1a, b fokuserade på den frontala huvudställningen så att ansiktet täckte ungefär en tredjedel av kameraramen. För att testa effekten av huvudställning och avstånd på noggrannheten analyserade vi datasetet GazeCapture37 på iPhones, som erbjöd mer variation i huvudställning/avstånd. Som framgår av de kompletterande figurerna 3b-e uppnåddes den bästa prestandan för huvudställning nära fronten och kortare avstånd till telefonen (där ögonområdet verkade större), och noggrannheten minskade med ökande panorering/tiltning/rullning, eller när deltagarna rörde sig längre bort från telefonen. Därför fokuserade alla studier i den här artikeln på de optimala UX-inställningarna, nämligen nära frontal huvudställning med korta betraktningsavstånd på 25-40 cm till telefonen. Även om detta kan verka restriktivt är det värt att notera att den vanligaste inställningen för eyetracking för tidigare forskning om ögonrörelser8,12,14,16,18,29 ofta kräver dyr hårdvara och mer kontrollerade inställningar som t.ex. hakstöd med dämpad inomhusbelysning och fast betraktningsavstånd.
För jämförelse med specialiserade mobila eyetrackers
För att förstå skillnaden i prestanda mellan vår eyetracker för smartphones och toppmoderna, dyra mobila eyetrackers jämförde vi vår metod mot Tobii Pro 2-glasögon som är en huvudmonterad eyetracker med fyra infraröda kameror nära ögat. Vi valde den frontala huvudställningen eftersom Tobiis glasögon fungerar bäst i den här inställningen. Tretton användare utförde en kalibreringsuppgift under fyra förhållanden – med och utan Tobii-glasögon, med ett fast stativ för enheten och med telefonen fritt i handen (se fig. 2). Med det fasta enhetsstället fann vi att smartphone eye trackerens noggrannhet (0,42 ± 0,03 cm) var jämförbar med Tobii-glasögon (0,55 ± 0,06 cm, tvåsidigt parat t-test, t(12) = -2,12, p = 0,06). Liknande resultat uppnåddes i den handhållna inställningen (0,59 ± 0,03 cm på Tobii jämfört med 0,50 ± 0,03 cm på våra; t(12) = -1,53, p = 0,15). Felfördelningen per användare för både inställningarna med enhetsstativ och handhållen finns i kompletterande figur 4.
Det är värt att notera att specialiserade eyetrackers som Tobii Pro-glasögon utgör en hög ribba. Dessa är huvudmonterade glasögon med fyra infraröda kameror (två nära varje öga) och en världscentrerad kamera. Indata är således högupplösta infraröda bilder av närbilder av ögonen (inom 5-10 cm avstånd från ögat). I vår metod används däremot smarttelefonens enda frontvända RGB-kamera på ett större betraktningsavstånd (25-40 cm från ögat), vilket gör att ögonområdet ser litet ut. Trots dessa utmaningar är det lovande att vår eyetracker för smartphones uppnår en jämförbar noggrannhet som de senaste mobila eyetrackers.
Validering på standard oculomotoriska uppgifter
Som forskningsvalidering testade vi om de viktigaste resultaten från tidigare forskning om ögonrörelser på oculomotoriska uppgifter med hjälp av stora bildskärmar och dyra desktop-ögonspårare, skulle kunna replikeras på små smartphone-skärmar med hjälp av vår metod. Tjugotvå deltagare utförde prosaccade-, smooth pursuit- och visuella sökuppgifter enligt beskrivningen nedan (detaljer i ”Metoder”, studie 2). Figur 3a visar uppställningen för prosaccadeuppgiften. Vi beräknade saccadelatens, ett allmänt studerat mått, som tiden från det att stimulus syntes till dess att deltagaren rörde ögonen. Som framgår av figur 3b var genomsnittlig saccadelatens 210 ms (median 167 ms), vilket stämmer överens med 200-250 ms som observerats i tidigare studier41.
För att undersöka ögonrörelser vid jämn förföljelse ombads deltagarna att utföra två typer av uppgifter – en där objektet rörde sig jämnt längs en cirkel, och en annan längs en box. Liknande uppgifter har nyligen visat sig vara användbara för att upptäcka hjärnskakning42,43. Figurerna 3c-e visar exempel på blickscanbanor från en slumpmässigt utvald deltagare och värmekartan på populationsnivå från alla användare och försök för uppgiften Smooth pursuit circle. I enlighet med tidigare litteratur om stationära datorer presterade deltagarna bra i denna uppgift, med ett lågt spårningsfel på 0,39 ± 0,02 cm. Liknande resultat erhölls för uppgiften Smooth pursuit box (se kompletterande figur 5).
Bortom enkla okulomotoriska uppgifter undersökte vi visuell sökning, vilket har varit ett viktigt fokusområde för uppmärksamhetsforskningen sedan 1980-talet12,44,45. Två välkända fenomen här är: (1) effekten av målets saliency (olikhet eller kontrast mellan målet och omgivande distraherande objekt i displayen, kända som distraktorer)46,47; (2) och effekten av setstorlek (antal objekt i displayen)44,45 på visuellt sökbeteende.
För att testa närvaron av dessa effekter på telefoner mätte vi blickmönster när 22 deltagare utförde en serie visuella sökuppgifter. Vi varierade systematiskt målets färgintensitet eller orientering i förhållande till distraktorerna. När målets färg (eller orientering) föreföll likartad med distraktorerna (låg målaliency) krävdes fler fixeringar för att hitta målet (se fig. 4a, c). När målets färg (eller orientering) däremot verkade annorlunda än distraktorerna (hög målsalighet) krävdes färre fixeringar (fig. 4b, d). Vi fann att över alla användare och försök minskade antalet fixeringar för att hitta målet avsevärt när målets saliency ökade (se fig. 4e, f för färgintensitetskontrast: F(3, 63) = 37,36, p < 10-5; för orienteringskontrast: F(3, 60) = 22,60, p < 10-5). Dessa resultat bekräftar effekten av målets saliency på visuell sökning, som tidigare setts i skrivbordsstudier12,44,46,47.
För att testa effekten av setstorlek på visuell sökning varierade vi antalet objekt i displayen från 5, 10 till 15. Figur 4g visar att effekten av setstorleken beror på målets framträdande. När målets saliency är låg (skillnad i orientering mellan mål och distraktorer, Δθ = 7∘) ökade antalet fixeringar för att hitta målet linjärt med setstorleken (lutning = 0,17; envägs ANOVA för upprepade åtgärder F(2, 40) = 3,52, p = 0,04). När målet däremot är medelhögt (Δθ = 15∘) varierade antalet fixeringar för att hitta målet inte signifikant med inställningsstorleken (F(2, 40) = 0,85, p = 0,44). För mycket starkt framträdande mål (Δθ = 75∘) fann vi en negativ effekt av uppsättningens storlek på antalet fixeringar (lutning = -0,06; F(2, 40) = 4,39, p = 0,02). Dessa resultat stämmer överens med tidigare arbete med skrivbordsmaskiner47,48,49,50. Sammanfattningsvis replikerade vi i det här avsnittet de viktigaste fynden om okulomotoriska uppgifter som prosaccade, smooth pursuit och visuella sökuppgifter med hjälp av vår eyetracker för smarttelefoner.
Validering på naturliga bilder
Vi validerade vår metod ytterligare genom att testa om tidigare fynd om ögonrörelser för rika stimuli, till exempel naturliga bilder, som erhållits från dyra desktop-ögonspårare med stora bildskärmar, skulle kunna replikeras på små bildskärmar, till exempel smarttelefoner, med vår metod. Några välkända fenomen om blickar på naturliga bilder är att blicken påverkas av a) den uppgift som utförs (känt sedan de klassiska eyetracking-experimenten av Yarbus 196730), b) hur framträdande objekten i scenen är19,51,52 och c) tendensen att fixera nära scenens centrum51,53. För att testa om vår eyetracker för smartphones kan reproducera dessa resultat samlade vi in data från 32 deltagare när de tittade på naturliga bilder under två olika uppgiftsförhållanden: (1) fri visning och (2) visuell sökning efter ett mål (se ”Metoder”, studie 3).
Som väntat var blickmönstren mer utspridda under fri visning och mer fokuserade mot målobjektet och dess troliga platser under visuell sökning (se fig. 5). Till exempel visar fig. 5 tredje raden att deltagarna under fri visning ägnade tid åt att titta på personen och den skylt han pekar på i scenen, medan deltagarna under visuell sökning efter en ”bil” undvek skylten och i stället fixerade sig på personen och bilen. I alla bilder visade sig blickentropin vara betydligt högre vid fri visning än vid visuell sökning (16,94 ± 0,03 jämfört med 16,39 ± 0,04, t(119) = 11,14, p = 10-23). Ytterligare analys av visuell sökning visade att i enlighet med tidigare resultat54 minskade den totala fixeringstiden för att hitta målet med målets storlek (r = -0,56, p = 10-11; n = 120 bilder), vilket bekräftar att större mål är lättare att hitta än mindre. Utöver storleken fann vi att målets saliency density har en signifikant effekt på tiden för att hitta målet (r = -0,30, p = 0,0011; n = 120 bilder), dvs, mer framträdande mål är lättare att hitta än mindre framträdande mål, vilket överensstämmer med tidigare litteratur19.
För det andra testade vi förekomsten av den centrala tendensen under fri visning av naturliga bilder på smartphones. Figur 6a visar blickentropin över alla bilder i den här studien. Exempel på låg blickentropi är bilder som innehåller ett eller två framträdande objekt i scenen (t.ex. en enda person eller ett djur i scenen), medan bilder med hög entropi innehåller flera intressanta objekt (t.ex. flera personer, inomhusrum med möbler). Liknande resultat har rapporterats med specialiserade desktop eye trackers51,52. Genom att beräkna medelvärdet av fixeringarna över alla användare och bilder från vår eyetracker för smarttelefoner framkom en centerbias (se fig. 6b), vilket stämmer överens med tidigare litteratur om stationära datorer51,53.
Slutligt, eftersom saliency har studerats ingående med hjälp av stationära ögonspårare19,51,52, jämförde vi direkt de blickmönster som erhållits från vår ögonspårare för smarttelefoner med de som erhållits från specialiserade stationära ögonspårare, t.ex. Eyelink 1000 (med hjälp av OSIE-dataset52). Observera att denna jämförelse sätter ribban högt. Inte bara involverade den stationära inställningen med EyeLink 1000 specialiserad hårdvara med infraröd ljuskälla och infraröda kameror nära ögat med hög spatiotemporal upplösning (upp till 2 000 Hz), utan den använde också mycket kontrollerade inställningar med hakstöd (och svaga belysningsförhållanden), och visade bilden på en stor skärm (22″, 33 × 25∘ betraktningsvinkel). I vår studieuppställning användes däremot smarttelefonens befintliga selfiekamera (RGB) i mer naturliga miljöer (naturlig inomhusbelysning, inget hakstöd, bara ett stativ för telefonen) med bilder som visades på en liten mobilskärm (6″, medianvisningsvinkel på 12 × 9∘). De två uppställningarna skiljer sig alltså åt på ett antal sätt (skrivbord med stor skärm jämfört med mobil med liten skärm, kontrollerade inställningar, kostnad för eyetracker, samplingsfrekvens).
Trots dessa skillnader fann vi att blickvärmekartorna från de två inställningarna är kvalitativt likartade. Figur 7 visar de mest likartade och olikartade värmekartorna från stationär vs. mobil (likhet mätt med Pearsons korrelation). Vår eyetracker för smartphones kunde upptäcka liknande gaze hotspots som de dyra motsvarigheterna på skrivbordet, med en viktig skillnad i att de mobila gaze heatmapsen verkar mer suddiga (se Supplementary Discussion för ytterligare analys). Oskärpan beror på en kombination av den lilla storleken på mobilskärmen och den lägre noggrannheten/bruset från smartphone eye tracker (inget hakstöd, inga infraröda kameror nära ögat). Bortsett från oskärpan är blickvärmekartorna från skrivbordet och mobilen starkt korrelerade både på pixelnivå (r = 0,74) och objektsnivå (r = 0,90, se tabell 1). Detta tyder på att vår eyetracker för smartphones kan användas för att skala saliencyanalyser på mobilt innehåll, både för statiska bilder och dynamiskt innehåll (när deltagarna scrollar och interagerar med innehållet eller tittar på videor).
Testning på läsförståelseuppgift
Bortom forskningsvalidering på okulomotoriska uppgifter och naturliga bilder testade vi om vår eyetracker för smarttelefoner kunde hjälpa till att upptäcka läsförståelsesvårigheter, när deltagarna på ett naturligt sätt bläddrade och läste passager på telefonen. Sjutton deltagare läste SAT-liknande avsnitt på telefonen (med scrollinteraktioner) och svarade på två flervalsfrågor (se ”Metoder”, studie 4). En av frågorna var faktabaserad och kunde besvaras genom att hitta det relevanta utdraget i avsnittet. Den andra frågan krävde en mer detaljerad tolkning av avsnittet – vi kallar detta för den ”tolkande” uppgiften. Som förväntat fann vi att blickmönstren skiljer sig åt för faktabaserade respektive tolkande uppgifter. Blickmönstren var mer fokuserade på specifika delar av avsnittet för faktauppgifter och mer utspridda över avsnittet för tolkningsuppgifter (se fig. 8). Över alla användare och uppgifter visade sig blickentropin vara högre för tolkningsuppgifter än för faktauppgifter (8,14 ± 0,16 mot 7,71 ± 0,15; t(114) = 1,97, p = 0,05).
Inom faktauppgifter undersökte vi om det finns skillnader i blickmönster när deltagarna besvarade frågan korrekt respektive inte. Vi antog att blicken skulle vara fokuserad på det relevanta utdraget i passagen för deltagare som svarade rätt, och att blicken skulle vara mer utspridd eller fokuserad på andra delar av passagen för felaktiga svar. Figur 9a visar att deltagarna tillbringade betydligt mer tid med att fixera inom de relevanta passageområdena än irrelevanta när de svarade korrekt (62,29 ± 3,63 % av tiden på relevanta jämfört med 37,7 ± 3,63 % på irrelevanta; t(52) = 3,38, p = 0,001). Denna trend var omvänd för felaktiga svar, även om den inte var signifikant (41,97 ± 6,99 % på relevant vs. 58,03 ± 6,99 % på irrelevant; t(12) = -1,15, p = 0,27).
Nästan undersökte vi effekten av svårighetsgrad på uppgiftsnivå på blick och tid för att svara. Vi kvantifierade uppgiftens svårighet som % felaktiga svar per uppgift (se kompletterande figurer 6-7 för ytterligare mått på uppgiftens svårighet som tar hänsyn till tid och noggrannhet). Figur 9b-f visar exempel på värmekartor över blicken för lätta respektive svåra uppgifter och motsvarande spridningsdiagram för olika mått som en funktion av uppgiftens svårighetsgrad. Som förväntat ökade svarstiden med uppgiftens svårighetsgrad, om än inte signifikant (Spearmans rangkorrelation r = 0,176, p = 0,63). Antalet ögonfixeringar på passagen ökade med uppgiftens svårighetsgrad (r = 0,67, p = 0,04). En närmare granskning visade att den bästa prediktoren var bråkdelen av den tid som blicken spenderades på det relevanta utdraget (normaliserad med höjden), som var starkt negativt korrelerad med uppgiftens svårighetsgrad (r = -0,72, p = 0,02). Med andra ord, när uppgiftens svårighetsgrad ökade tillbringade deltagarna mer tid med att titta på de irrelevanta utdragen i passagen innan de hittade det relevanta utdraget som innehöll svaret. Dessa resultat visar att smartphone-baserad blick kan hjälpa till att upptäcka läsförståelsesvårigheter.