Nauwkeurigheid van het model
We trainden een meerlaags feed-forward convolutioneel neuraal netwerk (ConvNet). Het model neemt als invoer een RGB-beeld van de front-facing camera van een smartphone bijgesneden tot de ogen regio’s, en past drie lagen van convolutie te halen gaze kenmerken. De kenmerken worden in extra lagen gecombineerd met automatisch geëxtraheerde ooghoekmarkeringen die de oogpositie in het beeld aangeven voor een uiteindelijke blikschatting op het scherm. Dit basismodel werd eerst getraind met behulp van de publiek beschikbare GazeCapture dataset37, vervolgens verfijnd met behulp van kalibratiegegevens en gepersonaliseerd door een aanvullend regressiemodel (details in de sectie “Methoden”) aan te passen aan de blikkenmerkoutput van het ConvNet, hieronder beschreven.
Tijdens de kalibratie werd de deelnemers gevraagd om te fixeren op een groene cirkelvormige stimulus die verscheen op een zwart scherm. De stimulus verscheen op willekeurige plaatsen op het scherm. Beelden van de front-facing camera werden opgenomen bij 30 Hz en timestamps gesynchroniseerd met de marker locatie. In ML terminologie, beelden en marker locaties dienden als inputs en doelstellingen, respectievelijk. Tijdens het bepalen werden de camerabeelden achtereenvolgens ingevoerd in het fijnafgestemde basismodel, waarvan de voorlaatste laag diende als invoer voor het regressiemodel om de uiteindelijke, gepersonaliseerde blikschatting te krijgen. Modelnauwkeurigheid werd geëvalueerd over alle deelnemers door de fout in cm te berekenen tussen stimuluslocaties van de kalibratietaken (grondwaarheid) en de geschatte gaze locations.
Om het effect van personalisatie op modelnauwkeurigheid te testen, verzamelden we gegevens van 26 deelnemers terwijl ze stimuli bekeken op de telefoon, gemonteerd op een apparaatstandaard. Vergelijkbaar met typische eyetracking-studies op het bureaublad, richtten we ons op een near frontal headpose (geen tilt/pan/roll; zie “Methoden”, studie 1). Figuur 1 toont hoe de nauwkeurigheid varieert met het aantal kalibratieframes. Terwijl het basismodel een hoge fout heeft van 1,92 ± 0,20 cm, leidde personalisatie met ~100 kalibratieframes tot een bijna viervoudige reductie van de fout, resulterend in 0,46 ± 0,03 cm (t(25) = 7,32, p = 1,13 × 10-7). Merk op dat 100 kalibratieframes over verschillende schermlocaties overeenkomt met <30 s van gegevens, wat heel redelijk is voor eyetracking-studies waar kalibratie meestal wordt uitgevoerd aan het begin van elke studie (of tijdens de studie om rekening te houden met pauzes of grote veranderingen in de houding). De beste deelnemer had een fout van 0,23 cm, terwijl de slechtste deelnemer een fout van 0,75 cm had (de percentielen waren cm). Bij een kijkafstand van 25-40 cm komt dit overeen met een nauwkeurigheid van 0,6-1∘, wat beter is dan 2,44-3∘ in eerder werk37,38.
De verbeteringen ten opzichte van eerder werk zijn te danken aan een combinatie van betere modelarchitectuur, kalibratie/personalisatie, en optimale UX-instellingen. Met name het verfijnen en personaliseren van het model met behulp van ~30 s kalibratiegegevens onder optimale UX-instellingen (dichtbij het frontale hoofd, korte kijkafstand van 25-40 cm) leidde tot grote verbeteringen in nauwkeurigheid (1,92-0,46 cm). Hoewel wijzigingen in de modelarchitectuur leidden tot bescheiden verbeteringen in de nauwkeurigheid (0,73 cm37 tot 0,46 cm voor het onze, met fijnafstelling en personalisering toegepast op beide modellen), verminderden ze de complexiteit van het model aanzienlijk met 50× (8 M vs. 170 K modelparameters), waardoor het geschikt werd voor on-device implementatie. Dus, ons model is zowel lichtgewicht als accuraat.
Zoals getoond in Fig. 1b, waren de fouten vergelijkbaar over verschillende locaties op het telefoonscherm, met iets grotere fouten in de richting van de onderste schermlocaties, omdat de ogen de neiging hebben om gedeeltelijk gesloten te lijken wanneer deelnemers naar beneden kijken (zie aanvullende Fig. 1). Hoewel deze cijfers worden gerapporteerd voor Pixel 2 XL-telefoons, bleek personalisatie ook te helpen op andere apparaten (zie Aanvullend Fig. 3a). Figuren 1a, b richtten zich op de frontale headpose, zodat het gezicht ongeveer een derde van het cameraframe besloeg. Om het effect van hoofdstand en afstand op nauwkeurigheid te testen, analyseerden we de GazeCapture37 dataset op iPhones, die meer diversiteit in hoofdstand/afstand bood. Zoals te zien in aanvullende Figs. 3b-e, werd de beste prestatie bereikt voor een bijna frontale hoofdhouding en een kortere afstand tot de telefoon (waar de oogzone groter leek), en de nauwkeurigheid nam af met toenemende pan/tilt/roll, of als deelnemers zich verder van de telefoon verwijderden. Daarom richtten alle studies in dit artikel zich op de optimale UX-instellingen, namelijk dichtbij de voorkant van het hoofd met korte kijkafstanden van 25-40 cm tot de telefoon. Hoewel dit beperkend kan lijken, is het vermeldenswaard dat de meest gebruikelijke oogvolgopstelling voor eerder oogbewegingsonderzoek8,12,14,16,18,29 vaak dure hardware en meer gecontroleerde instellingen vereist, zoals een kinsteun met schemerige binnenverlichting en een vaste kijkafstand.
Vergelijking met gespecialiseerde mobiele eyetrackers
Om de kloof in prestaties tussen onze smartphone eyetracker en state-of-the-art, dure mobiele eyetrackers te begrijpen, hebben we onze methode vergeleken met de Tobii Pro 2-bril, die een head mounted eyetracker is met vier infraroodcamera’s in de buurt van het oog. We kozen de frontale hoofdstand omdat de Tobii bril het best werkt in deze setting. Dertien gebruikers voerden een kalibratietaak uit onder vier omstandigheden: met en zonder Tobii bril, met een vaste apparaatstandaard en met de telefoon vrij in de hand (zie Fig. 2). Met de vaste standaard vonden we dat de nauwkeurigheid van de eyetracker van de smartphone (0,42 ± 0,03 cm) vergelijkbaar was met die van de Tobii-bril (0,55 ± 0,06 cm, gepaarde t-toets met twee staarten, t(12) = -2,12, p = 0,06). Vergelijkbare resultaten werden verkregen in de handheld-instelling (0,59 ± 0,03 cm op de Tobii vs. 0,50 ± 0,03 cm op de onze; t(12) = -1,53, p = 0,15). De foutverdeling per gebruiker voor zowel de apparaatstandaard- als de handheld-instelling is te vinden in aanvullende fig. 4.
Het is vermeldenswaard dat gespecialiseerde eyetrackers zoals de Tobii Pro-bril een hoge lat leggen. Dit is een op het hoofd gemonteerde bril met vier infraroodcamera’s (twee in de buurt van elk oog) en een wereldgecentreerde camera. De input bestaat dus uit hoge-resolutie infraroodbeelden van dichtbij de ogen (binnen 5-10 cm afstand van het oog). Onze methode daarentegen maakt gebruik van de enkele RGB-camera aan de voorzijde van de smartphone, op grotere kijkafstand (25-40 cm van het oog), waardoor de oogzone klein lijkt. Ondanks deze uitdagingen is het veelbelovend dat onze smartphone eye tracker een vergelijkbare nauwkeurigheid bereikt als state-of-the-art mobiele eye trackers.
Validatie op standaard oculomotorische taken
Als onderzoeksvalidatie hebben we getest of de belangrijkste bevindingen van eerder oogbewegingsonderzoek op oculomotorische taken met behulp van grote displays en dure desktop eye trackers, konden worden gerepliceerd op kleine smartphone displays met behulp van onze methode. Tweeëntwintig deelnemers voerden prosaccade, vloeiende achtervolging en visuele zoektaken uit zoals hieronder beschreven (details in “Methoden”, studie 2). Figuur 3a toont de opstelling voor de prosaccade taak. We berekenden de saccade latentie, een vaak bestudeerde maat, als de tijd vanaf het moment dat de stimulus verscheen tot wanneer de deelnemer zijn ogen bewoog. Zoals te zien is in Fig. 3b, was de gemiddelde saccade latentie 210 ms (mediaan 167 ms), consistent met 200-250 ms waargenomen in eerdere studies41.
Om vloeiende oogbewegingen te onderzoeken, werd deelnemers gevraagd twee soorten taken uit te voeren: één waarbij het object vloeiend langs een cirkel bewoog, en een andere langs een doos. Vergelijkbare taken zijn onlangs aangetoond nuttig te zijn voor het detecteren van hersenschudding42,43. Figuren 3c-e tonen een voorbeeld van het scanpad van de blik van een willekeurig geselecteerde deelnemer, en de heatmap op populatieniveau van alle gebruikers en trials voor de vloeiende achtervolging van de cirkel taak. In overeenstemming met eerdere literatuur over desktops, presteerden deelnemers goed in deze taak, met een lage tracking error van 0,39 ± 0,02 cm. Vergelijkbare resultaten werden verkregen voor de gladde achtervolging doos taak (zie Supplementary Fig. 5).
Naast eenvoudige oculomotorische taken, onderzochten we visueel zoeken, wat een belangrijk aandachtsgebied is van aandachtsonderzoek sinds 198012,44,45. Twee bekende fenomenen hier zijn: (1) het effect van target saliency (dissimilariteit of contrast tussen het doel en omringende afleidende items in de display, bekend als afleiders)46,47; (2) en het effect van set size (aantal items in de display)44,45 op visueel zoekgedrag.
Om de aanwezigheid van deze effecten op telefoons te testen, hebben we de blikpatronen gemeten terwijl 22 deelnemers een reeks visuele zoektaken uitvoerden. We varieerden systematisch de kleurintensiteit of oriëntatie van het doelwit ten opzichte van de afleiders. Wanneer de kleur (of oriëntatie) van het doelwit vergelijkbaar leek met de afleiders (lage doelwit saliëntie), waren meer fixaties nodig om het doelwit te vinden (zie Fig. 4a, c). In tegenstelling, wanneer de kleur (of oriëntatie) van het doelwit anders leek dan de afleiders (hoge doelsaliëntie), waren minder fixaties nodig (Fig. 4b, d). We vonden dat over alle gebruikers en trials, het aantal fixaties om het doel te vinden significant afnam naarmate de doelsaliëntie toenam (zie Fig. 4e, f voor kleurintensiteitcontrast: F(3, 63) = 37.36, p < 10-5; voor oriëntatiecontrast: F(3, 60) = 22.60, p < 10-5). Deze resultaten bevestigen het effect van target saliency op visueel zoeken, eerder gezien in desktop studies12,44,46,47.
Om het effect van setgrootte op visueel zoeken te testen, varieerden we het aantal items in de display van 5, 10 tot 15. Figuur 4g laat zien dat het effect van de set grootte is afhankelijk van het doel saliency. Wanneer de doelgerichtheid laag is (verschil in oriëntatie tussen doel en afleiders, Δθ = 7∘), neemt het aantal fixaties om het doel te vinden lineair toe met de grootte van de set (helling = 0,17; one-way repeated measures ANOVA F(2, 40) = 3,52, p = 0,04). Wanneer de doelwitpositie daarentegen middelhoog is (Δθ = 15∘), varieerde het aantal fixaties om het doelwit te vinden niet significant met de grootte van de set (F(2, 40) = 0,85, p = 0,44). Voor zeer opvallende doelen (Δθ = 75∘) vonden we een negatief effect van de grootte van de set op het aantal fixaties (helling = -0,06; F(2, 40) = 4,39, p = 0,02). Deze bevindingen zijn consistent met eerder werk op desktops47,48,49,50. Samenvattend hebben we in deze sectie de belangrijkste bevindingen over oculomotorische taken zoals prosaccade, vloeiende achtervolging en visuele zoektaken gerepliceerd met behulp van onze smartphone eyetracker.
Validatie op natuurlijke beelden
We hebben onze methode verder gevalideerd door te testen of eerdere bevindingen over oogbewegingen voor rijke stimuli zoals natuurlijke beelden, verkregen uit dure desktop eyetrackers met grote displays, gerepliceerd konden worden op kleine displays zoals smartphones, met behulp van onze methode. Enkele bekende fenomenen over blik op natuurlijke beelden zijn dat blik wordt beïnvloed door (a) de taak die wordt uitgevoerd (bekend sinds de klassieke eye tracking experimenten van Yarbus in 196730); (b) de saillantie van objecten in de scène19,51,52; en (c) de neiging om te fixeren in de buurt van het centrum van de scène51,53. Om te testen of onze smartphone eye tracker deze bevindingen kan reproduceren, verzamelden we gegevens van 32 deelnemers terwijl ze natuurlijke beelden bekeken onder twee verschillende taakcondities: (1) vrij kijken en (2) visueel zoeken naar een doel (zie “Methoden”, studie 3).
Zoals verwacht, waren de blikpatronen meer verspreid tijdens het vrij kijken, en meer gericht in de richting van het doelobject en zijn waarschijnlijke locaties tijdens het visueel zoeken (zie Fig. 5). Bijvoorbeeld, Fig. 5 derde rij laat zien dat tijdens het vrij kijken, deelnemers tijd besteedden aan het kijken naar de persoon, en het bord dat hij aanwijst in de scène, terwijl tijdens het visueel zoeken naar een “auto”, deelnemers het bord vermeden en in plaats daarvan gefixeerd waren op de persoon en de auto. Over alle afbeeldingen bleek de gaze entropy significant hoger te zijn voor vrij kijken dan voor visueel zoeken (16.94 ± 0.03 vs. 16.39 ± 0.04, t(119) = 11.14, p = 10-23). Aanvullende analyse van visuele zoekprestaties toonde aan dat, in overeenstemming met eerdere bevindingen54, de totale fixatieduur om het doel te vinden afnam met de grootte van het doel (r = -0.56, p = 10-11; n = 120 afbeeldingen), wat bevestigt dat grotere doelen makkelijker te vinden zijn dan kleinere. Naast de grootte, vonden we dat de dichtheid van de doelwit opvallendheid een significant effect heeft op de tijd om het doel te vinden (r = -0.30, p = 0.0011; n = 120 afbeeldingen), d.w.z, meer saillante doelen gemakkelijker te vinden zijn dan minder saillante doelen, in overeenstemming met eerdere literatuur19.
Ten tweede testten we het bestaan van de centrale tendens tijdens het vrij bekijken van natuurlijke beelden op smartphones. Figuur 6a toont de gaze entropie over alle beelden in deze studie. Voorbeelden van lage gaze entropie zijn beelden die een of twee saillante objecten in de scène bevatten (bijvoorbeeld een enkele persoon of dier in de scène), terwijl de hoge entropie beelden meerdere objecten van belang bevatten (bijvoorbeeld meerdere mensen, binnenkamer met meubels). Vergelijkbare bevindingen werden gerapporteerd met gespecialiseerde desktop eye trackers51,52. Het gemiddelde van de fixaties over alle gebruikers en beelden van onze smartphone eye tracker onthulde een centrum bias (zie Fig. 6b), consistent met eerdere literatuur over desktops51,53.
Finitief, aangezien saliëntie uitgebreid is bestudeerd met desktop eye trackers19,51,52, hebben we de oogbewegingspatronen verkregen met onze smartphone eye tracker direct vergeleken met die verkregen met gespecialiseerde desktop eye trackers zoals Eyelink 1000 (met behulp van de OSIE-dataset52). Merk op dat deze vergelijking een hoge lat legt. De desktopopstelling met EyeLink 1000 omvatte niet alleen gespecialiseerde hardware met een infrarode lichtbron en infraroodcamera’s in de buurt van het oog met een hoge spatio-temporele resolutie (tot 2000 Hz), maar er werd ook gebruik gemaakt van zeer gecontroleerde instellingen met kinsteun (en schemerige lichtomstandigheden), en het beeld werd weergegeven op een groot scherm (22″, 33 × 25∘ kijkhoek). In onze studie werd daarentegen gebruik gemaakt van de bestaande selfiecamera (RGB) van de smartphone in een meer natuurlijke omgeving (natuurlijke binnenverlichting, geen kinsteun, alleen een standaard voor de telefoon) met beelden die werden bekeken op een klein mobiel scherm (6″, mediane kijkhoek van 12 × 9∘). Dus, de twee opstellingen verschillen op een aantal manieren (groot-scherm desktop versus klein-scherm mobiel, gecontroleerde instellingen, eye tracker kosten, sampling rate).
Ondanks deze verschillen, vonden we dat de gaze heatmaps van de twee instellingen zijn kwalitatief vergelijkbaar. Figuur 7 toont de meest vergelijkbare en ongelijksoortige heatmaps van desktop versus mobiel (gelijkenis gemeten met behulp van Pearson’s correlatie). Onze smartphone eye tracker was in staat om soortgelijke gaze hotspots detecteren als de dure desktop tegenhangers, met een belangrijk verschil is dat de mobiele gaze heatmaps meer wazig lijken (zie Aanvullende Discussie voor verdere analyse). De onscherpte is te wijten aan een combinatie van het kleine scherm op het mobiele scherm, en de lagere nauwkeurigheid/ruis van de smartphone eyetracker (geen kinsteun, geen infrarood camera’s in de buurt van het oog). Afgezien van de onscherpte zijn de ooghittemaps van desktop en mobiel sterk gecorreleerd, zowel op pixelniveau (r = 0,74) als op objectniveau (r = 0,90, zie tabel 1). Dit suggereert dat onze smartphone eyetracker kan worden gebruikt voor saliency-analyses op mobiele content, zowel voor statische afbeeldingen als dynamische content (als deelnemers scrollen en interacteren met de content, of video’s bekijken).
Test op taak voor begrijpend lezen
Naast de validatie van onderzoek op oculomotorische taken en natuurlijke beelden, hebben we getest of onze smartphone eyetracker kon helpen bij het detecteren van moeilijkheden met begrijpend lezen, terwijl deelnemers op natuurlijke wijze scrolden en passages lazen op de telefoon. Zeventien deelnemers lazen SAT-achtige passages op de telefoon (met scroll interacties), en beantwoordden twee meerkeuzevragen (zie “Methoden”, studie 4). Een van de vragen was feitelijk en kon beantwoord worden door het relevante fragment in de passage te vinden. De andere vraag vereiste het interpreteren van de passage in meer detail – we noemen dit de “interpretatieve” taak. Zoals verwacht, vonden we dat de blikpatronen verschillend zijn voor feitelijke versus interpretatieve taken. Kijkpatronen waren meer gericht op specifieke delen van de passage voor feitelijke taken, en meer verspreid over de passage voor interpretatieve taken (zie Fig. 8). Bij alle gebruikers en taken bleek de blikentropie hoger te zijn voor de interpretatieve taken dan voor de feitelijke taken (8,14 ± 0,16 vs. 7,71 ± 0,15; t(114) = 1,97, p = 0,05).
Binnen feitelijke taken hebben we onderzocht of er verschillen zijn in de blikpatronen wanneer deelnemers de vraag correct beantwoorden en wanneer niet. De hypothese was dat de blik gericht zou moeten zijn op het relevante fragment in de passage voor deelnemers die de vraag juist beantwoordden, en dat de blik meer verspreid of gericht zou moeten zijn op andere delen van de passage voor incorrecte antwoorden. Figuur 9a laat zien dat deelnemers significant meer tijd doorbrachten met fixeren binnen de relevante passage-regio’s dan irrelevante wanneer ze correct antwoordden (62.29 ± 3.63% tijd op relevant vs. 37.7 ± 3.63% op irrelevant; t(52) = 3.38, p = 0.001). Deze trend was omgekeerd voor foute antwoorden, hoewel niet significant (41.97 ± 6.99% op relevant vs. 58.03 ± 6.99% op irrelevant; t(12) = -1.15, p = 0.27).
Volgende, onderzochten we het effect van taak-niveau moeilijkheid op blik en tijd-tot-antwoord. We gekwantificeerd taak moeilijkheid als het %incorrect antwoorden per taak (zie Supplementary Figs. 6-7 voor aanvullende maatregelen van de taak moeilijkheid die tijd en nauwkeurigheid in aanmerking te nemen). Figuur 9b-f toont voorbeelden van heatmaps voor gemakkelijke versus moeilijke taken, en de bijbehorende scatterplots van verschillende metingen als functie van de moeilijkheidsgraad van de taak. Zoals verwacht, nam de tijd om te antwoorden toe met de moeilijkheidsgraad van de taak, hoewel niet significant (Spearman’s rangcorrelatie r = 0,176, p = 0,63). Het aantal oog fixaties op de passage nam toe met taak moeilijkheid (r = 0.67, p = 0.04). Bij nadere beschouwing bleek dat de beste voorspeller de fractie van de bliktijd was die aan het relevante fragment werd besteed (genormaliseerd naar hoogte), die sterk negatief gecorreleerd was met de taakmoeilijkheid (r = -0,72, p = 0,02). Met andere woorden, naarmate de moeilijkheidsgraad van de taak toenam, besteedden deelnemers meer tijd aan het kijken naar de irrelevante fragmenten in de passage voordat ze het relevante fragment vonden dat het antwoord bevatte. Deze resultaten tonen aan dat smartphone-gebaseerde blik kan helpen bij het detecteren van moeite met begrijpend lezen.