Accuratezza del modello
Abbiamo addestrato una rete neurale convoluzionale a più strati feed-forward (ConvNet). Il modello prende come input un’immagine RGB dalla fotocamera frontale di uno smartphone ritagliata nelle regioni degli occhi e applica tre strati di convoluzione per estrarre le caratteristiche dello sguardo. Le caratteristiche sono combinate in strati aggiuntivi con punti di riferimento dell’angolo dell’occhio estratti automaticamente che indicano la posizione dell’occhio all’interno dell’immagine per una stima finale dello sguardo sullo schermo. Questo modello di base è stato prima addestrato utilizzando il set di dati pubblicamente disponibile GazeCapture37, poi messo a punto utilizzando i dati di calibrazione e personalizzato adattando un modello di regressione aggiuntivo (dettagli nella sezione “Metodi”) per l’uscita caratteristica sguardo dal ConvNet, descritto di seguito.
Durante la calibrazione, i partecipanti è stato chiesto di fissare su uno stimolo verde circolare che è apparso su uno schermo nero. Lo stimolo è apparso in posizioni casuali sullo schermo. Le immagini della telecamera frontale sono state registrate a 30 Hz e i timestamp sono stati sincronizzati con la posizione del marker. Nella terminologia ML, le immagini e le posizioni dei marcatori servivano rispettivamente come input e target. Durante l’inferenza, le immagini della telecamera sono state alimentate in sequenza al modello di base messo a punto il cui penultimo strato serviva come input al modello di regressione per ottenere la stima finale e personalizzata dello sguardo. L’accuratezza del modello è stata valutata su tutti i partecipanti calcolando l’errore in cm tra le posizioni dello stimolo dai compiti di calibrazione (verità di base) e le posizioni stimate dello sguardo.
Per verificare l’effetto della personalizzazione sull’accuratezza del modello, abbiamo raccolto dati da 26 partecipanti mentre guardavano gli stimoli sul telefono, montato su un supporto del dispositivo. Simile ai tipici studi di eye tracking sul desktop, ci siamo concentrati su un headpose quasi frontale (senza tilt/pan/roll; vedi “Metodi”, studio 1). La figura 1 mostra come la precisione varia con il numero di fotogrammi di calibrazione. Mentre il modello di base ha un errore elevato di 1,92 ± 0,20 cm, la personalizzazione con ~100 fotogrammi di calibrazione ha portato a una riduzione di quasi quattro volte dell’errore con conseguente 0,46 ± 0,03 cm (t(25) = 7,32, p = 1,13 × 10-7). Si noti che 100 fotogrammi di calibrazione in diverse posizioni dello schermo corrispondono a <30 s di dati, che è abbastanza ragionevole per gli studi di eye tracking in cui la calibrazione viene in genere eseguita all’inizio di ogni studio (o durante lo studio per tenere conto di pause o grandi cambiamenti di posa). Il miglior partecipante ha avuto 0,23 cm di errore, mentre il peggior partecipante ha avuto 0,75 cm di errore (i percentili erano cm). A una distanza di osservazione di 25-40 cm, questo corrisponde a 0,6-1∘ di precisione, che è meglio di 2,44-3∘ per il lavoro precedente37,38.
I miglioramenti rispetto al lavoro precedente sono dovuti a una combinazione di migliore architettura del modello, calibrazione/personalizzazione e impostazioni UX ottimali. In particolare, la messa a punto e la personalizzazione del modello utilizzando ~30 s di dati di calibrazione con impostazioni UX ottimali (vicino alla posizione frontale della testa, breve distanza di visualizzazione di 25-40 cm) ha portato a grandi miglioramenti di precisione (1,92-0,46 cm). Mentre i cambiamenti nell’architettura del modello hanno portato a modesti miglioramenti nell’accuratezza (da 0,73 cm37 a 0,46 cm per il nostro, con la messa a punto e la personalizzazione applicate a entrambi i modelli), hanno ridotto significativamente la complessità del modello di 50× (8 M contro 170 K parametri del modello), rendendolo adatto all’implementazione su dispositivo. Quindi, il nostro modello è sia leggero che accurato.
Come mostrato in Fig. 1b, gli errori erano comparabili tra le diverse posizioni sullo schermo del telefono, con un errore leggermente più grande verso le posizioni dello schermo inferiore poiché gli occhi tendono ad apparire parzialmente chiusi quando i partecipanti guardano in basso (vedi Fig. 1 supplementare). Mentre questi numeri sono riportati per i telefoni Pixel 2 XL, la personalizzazione è stata trovata per aiutare anche su altri dispositivi (vedi Fig. 3a supplementare). Le figure 1a, b si sono concentrate sulla disposizione frontale della testa in modo che il viso coprisse circa un terzo dell’inquadratura della fotocamera. Per testare l’effetto della disposizione della testa e della distanza sulla precisione, abbiamo analizzato il set di dati GazeCapture37 su iPhone, che ha offerto una maggiore diversità nella disposizione della testa/distanza. Come si vede nelle figure supplementari 3b-e, le migliori prestazioni sono state ottenute per una posizione della testa quasi frontale e una distanza minore dal telefono (dove la regione dell’occhio appariva più grande), e l’accuratezza decadeva con l’aumento di pan/tilt/roll, o quando i partecipanti si allontanavano ulteriormente dal telefono. Così, tutti gli studi in questo documento si sono concentrati sulle impostazioni ottimali di UX, vale a dire vicino alla posizione frontale della testa con brevi distanze di visualizzazione di 25-40 cm dal telefono. Anche se questo può sembrare restrittivo, vale la pena notare che l’impostazione di eye tracking più comune per la ricerca precedente sul movimento degli occhi8,12,14,16,18,29 spesso richiede hardware costoso e impostazioni più controllate come la mentoniera con illuminazione interna fioca e distanza di osservazione fissa.
Confronto con gli eye tracker mobili specializzati
Per capire il divario di prestazioni tra il nostro eye tracker per smartphone e i costosi eye tracker mobili all’avanguardia, abbiamo confrontato il nostro metodo con gli occhiali Tobii Pro 2 che è un eye tracker montato sulla testa con quattro telecamere a infrarossi vicino all’occhio. Abbiamo selezionato la posizione frontale della testa poiché gli occhiali Tobii funzionano meglio in questo contesto. Tredici utenti hanno eseguito un compito di calibrazione in quattro condizioni: con e senza gli occhiali Tobii, con un supporto fisso del dispositivo e tenendo liberamente il telefono in mano (vedi Fig. 2). Con il supporto fisso del dispositivo, abbiamo trovato che la precisione dell’eye tracker dello smartphone (0,42 ± 0,03 cm) era paragonabile agli occhiali Tobii (0,55 ± 0,06 cm, test t a due code, t(12) = -2,12, p = 0,06). Risultati simili sono stati ottenuti nell’impostazione manuale (0,59 ± 0,03 cm su Tobii contro 0,50 ± 0,03 cm sui nostri; t(12) = -1,53, p = 0,15). La distribuzione dell’errore per utente sia per il supporto del dispositivo che per le impostazioni manuali può essere trovata nella Fig. 4 supplementare.
E’ da notare che gli eye tracker specializzati come gli occhiali Tobii Pro rappresentano una barra alta. Questi sono occhiali montati sulla testa con quattro telecamere a infrarossi (due vicino a ciascun occhio) e una telecamera centrata sul mondo. Così l’input è immagini a infrarossi ad alta risoluzione del primo piano degli occhi (entro 5-10 cm di distanza dall’occhio). Al contrario, il nostro metodo utilizza la singola fotocamera RGB frontale dello smartphone, a una distanza di visualizzazione maggiore (25-40 cm dall’occhio), quindi la regione dell’occhio appare piccola. Nonostante queste sfide, è promettente che il nostro eye tracker per smartphone raggiunga un’accuratezza paragonabile a quella dei più moderni eye tracker mobili.
Convalida su compiti oculomotori standard
Come convalida della ricerca, abbiamo testato se i risultati chiave delle precedenti ricerche sui movimenti oculomotori utilizzando grandi display e costosi eye tracker desktop, potevano essere replicati su piccoli display per smartphone utilizzando il nostro metodo. Ventidue partecipanti hanno eseguito compiti di prosaccade, smooth pursuit e ricerca visiva come descritto di seguito (dettagli in “Metodi”, studio 2). La figura 3a mostra la configurazione per il compito di prosaccade. Abbiamo calcolato la latenza della saccade, una misura comunemente studiata, come il tempo da quando lo stimolo è apparso a quando il partecipante ha mosso gli occhi. Come si vede nella Fig. 3b, la latenza media della saccade era di 210 ms (mediana 167 ms), coerente con i 200-250 ms osservati in studi precedenti41.
Per studiare i movimenti oculari di smooth pursuit, ai partecipanti è stato chiesto di eseguire due tipi di compiti: uno in cui l’oggetto si muoveva dolcemente lungo un cerchio e un altro lungo una scatola. Compiti simili hanno recentemente dimostrato di essere utili per rilevare la commozione cerebrale42,43. Le figure 3c-e mostrano un esempio di percorso di scansione dello sguardo da un partecipante selezionato a caso, e la heatmap a livello di popolazione da tutti gli utenti e le prove per il compito del cerchio di inseguimento regolare. Coerentemente con la letteratura precedente sui desktop, i partecipanti hanno eseguito bene in questo compito, con un basso errore di inseguimento di 0,39 ± 0,02 cm. Risultati simili sono stati ottenuti per il compito della scatola ad inseguimento liscio (vedi Fig. 5 supplementare).
Oltre ai semplici compiti oculomotori, abbiamo indagato la ricerca visiva che è stata un’area chiave della ricerca sull’attenzione dagli anni ‘8012,44,45. Due fenomeni ben noti qui sono: (1) l’effetto della salienza del bersaglio (dissimilarità o contrasto tra il bersaglio e gli elementi di distrazione circostanti nel display, noti come distrattori)46,47; (2) e l’effetto della dimensione del set (numero di elementi nel display)44,45 sul comportamento di ricerca visiva.
Per verificare la presenza di questi effetti sui telefoni, abbiamo misurato i modelli di sguardo mentre 22 partecipanti eseguivano una serie di compiti di ricerca visiva. Abbiamo sistematicamente variato l’intensità del colore dell’obiettivo o l’orientamento rispetto ai distrattori. Quando il colore del target (o l’orientamento) appariva simile ai distrattori (bassa salienza del target), erano necessarie più fissazioni per trovare il target (vedi Fig. 4a, c). Al contrario, quando il colore (o l’orientamento) dell’obiettivo appariva diverso dai distrattori (alta salienza dell’obiettivo), erano necessarie meno fissazioni (Fig. 4b, d). Abbiamo trovato che attraverso tutti gli utenti e le prove, il numero di fissazioni per trovare il bersaglio è diminuito significativamente come salienza bersaglio aumentato (vedi Fig. 4e, f per contrasto intensità del colore: F(3, 63) = 37,36, p < 10-5; per il contrasto di orientamento: F(3, 60) = 22.60, p < 10-5). Questi risultati confermano l’effetto della salienza dell’obiettivo sulla ricerca visiva, precedentemente visto in studi desktop12,44,46,47.
Per verificare l’effetto della dimensione del set sulla ricerca visiva, abbiamo variato il numero di elementi nel display da 5, 10 a 15. La figura 4g mostra che l’effetto della dimensione del set dipende dalla salienza del target. Quando la salienza del bersaglio è bassa (differenza di orientamento tra bersaglio e distrattori, Δθ = 7∘), il numero di fissazioni per trovare il bersaglio è aumentato linearmente con la dimensione del set (pendenza = 0,17; un modo ripetuto misure ANOVA F(2, 40) = 3,52, p = 0,04). Al contrario, quando la salienza dell’obiettivo è medio-alta (Δθ = 15∘), il numero di fissazioni per trovare l’obiettivo non variava significativamente con la dimensione del set (F(2, 40) = 0.85, p = 0.44). Per gli obiettivi molto salienti (Δθ = 75∘), abbiamo trovato un effetto negativo della dimensione del set sul numero di fissazioni (pendenza = -0,06; F(2, 40) = 4,39, p = 0,02). Questi risultati sono coerenti con lavori precedenti sui desktop47,48,49,50. Per riassumere, in questa sezione, abbiamo replicato i risultati chiave sui compiti oculomotori come prosaccade, smooth pursuit e compiti di ricerca visiva utilizzando il nostro eye tracker per smartphone.
Validazione su immagini naturali
Abbiamo ulteriormente convalidato il nostro metodo testando se i risultati precedenti sui movimenti oculari per stimoli ricchi come le immagini naturali, ottenuti da costosi eye tracker desktop con grandi display potrebbero essere replicati su piccoli display come gli smartphone, utilizzando il nostro metodo. Alcuni fenomeni ben noti sullo sguardo sulle immagini naturali sono che lo sguardo è influenzato da (a) il compito che si sta eseguendo (noto fin dai classici esperimenti di eye tracking di Yarbus nel 196730); (b) la salienza degli oggetti nella scena19,51,52; e (c) la tendenza a fissare vicino al centro della scena51,53. Per verificare se il nostro eye tracker per smartphone può riprodurre questi risultati, abbiamo raccolto dati da 32 partecipanti mentre guardavano immagini naturali in due diverse condizioni di compito: (1) visualizzazione libera e (2) ricerca visiva di un obiettivo (vedi “Metodi”, studio 3).
Come previsto, i modelli di sguardo erano più dispersi durante la visualizzazione libera, e più concentrati verso l’oggetto target e le sue probabili posizioni durante la ricerca visiva (vedi Fig. 5). Per esempio, la terza riga della Fig. 5 mostra che durante la visione libera, i partecipanti hanno passato del tempo a guardare la persona e il cartello che indica nella scena, mentre durante la ricerca visiva di una “macchina”, i partecipanti hanno evitato il cartello e si sono invece fissati sulla persona e sulla macchina. In tutte le immagini, l’entropia dello sguardo è risultata significativamente più alta per la visione libera che per la ricerca visiva (16,94 ± 0,03 contro 16,39 ± 0,04, t(119) = 11,14, p = 10-23). Ulteriori analisi delle prestazioni di ricerca visiva ha mostrato che coerente con i risultati precedenti54, la durata di fissazione totale per trovare l’obiettivo è diminuito con la dimensione del bersaglio (r = -0,56, p = 10-11; n = 120 immagini), confermando che gli obiettivi più grandi sono più facili da trovare di quelli più piccoli. Oltre alle dimensioni, abbiamo trovato che la densità di salienza del bersaglio ha un effetto significativo sul tempo per trovare il bersaglio (r = -0,30, p = 0,0011; n = 120 immagini), cioè, gli obiettivi più salienti sono più facili da trovare rispetto a quelli meno salienti, coerentemente con la letteratura precedente19.
In secondo luogo, abbiamo testato l’esistenza della tendenza centrale durante la visione libera di immagini naturali su smartphone. La figura 6a mostra l’entropia dello sguardo su tutte le immagini di questo studio. Esempi di bassa entropia dello sguardo sono le immagini che contengono uno o due oggetti salienti nella scena (ad esempio, una singola persona o animale nella scena), mentre le immagini ad alta entropia contengono più oggetti di interesse (ad esempio, più persone, stanza interna con mobili). Risultati simili sono stati riportati con eye tracker specializzati per desktop51,52. La media delle fissazioni tra tutti gli utenti e le immagini del nostro eye tracker per smartphone ha rivelato una polarizzazione centrale (vedi Fig. 6b), coerente con la letteratura precedente sui desktop51,53.
Infine, poiché la salienza è stata ampiamente studiata utilizzando eye tracker desktop19,51,52, abbiamo confrontato direttamente i modelli di sguardo ottenuti dal nostro eye tracker per smartphone con quelli ottenuti da eye tracker desktop specializzati come Eyelink 1000 (utilizzando il dataset OSIE52). Si noti che questo confronto pone una barra alta. Non solo la configurazione desktop con EyeLink 1000 coinvolgeva hardware specializzato con sorgente di luce a infrarossi e telecamere a infrarossi vicino all’occhio con alta risoluzione spazio-temporale (fino a 2000 Hz), ma utilizzava anche impostazioni altamente controllate con mentoniera (e condizioni di luce fioca), e visualizzava l’immagine su un grande schermo (22″, 33 × 25∘ angolo di visione). Al contrario, il nostro studio ha utilizzato la fotocamera selfie esistente dello smartphone (RGB) in ambienti più naturali (illuminazione interna naturale, nessuna mentoniera, solo un supporto per il telefono) con immagini visualizzate su un piccolo schermo mobile (6″, angolo di visualizzazione mediano di 12 × 9∘). Quindi, le due impostazioni differiscono in diversi modi (desktop con grande schermo contro il piccolo schermo mobile, impostazioni controllate, costo dell’eye tracker, frequenza di campionamento).
Nonostante queste differenze, abbiamo trovato che le heatmap di sguardo dalle due impostazioni sono qualitativamente simili. La figura 7 mostra le heatmap più simili e dissimili da desktop e mobile (somiglianza misurata usando la correlazione di Pearson). Il nostro eye tracker per smartphone è stato in grado di rilevare hotspot di sguardo simili alle costose controparti desktop, con una differenza chiave: le heatmap di sguardo mobile appaiono più sfocate (vedi discussione supplementare per ulteriori analisi). La sfocatura è dovuta a una combinazione di display di piccole dimensioni sullo schermo del cellulare e alla minore precisione/rumore dell’eye tracker dello smartphone (nessuna mentoniera, nessuna telecamera a infrarossi vicino all’occhio). A parte la sfocatura, le heatmap di sguardo dal desktop e dal cellulare sono altamente correlate sia a livello di pixel (r = 0,74) che di oggetto (r = 0,90, vedi tabella 1). Questo suggerisce che il nostro eye tracker per smartphone potrebbe essere usato per scalare le analisi di salienza sul contenuto mobile, sia per le immagini statiche che per il contenuto dinamico (quando i partecipanti scorrono e interagiscono con il contenuto, o guardano i video).
Test su compiti di comprensione della lettura
Al di là della convalida della ricerca su compiti oculomotori e immagini naturali, abbiamo testato se il nostro eye tracker per smartphone potesse aiutare a rilevare difficoltà di comprensione della lettura, mentre i partecipanti scorrevano naturalmente e leggevano passaggi sul telefono. Diciassette partecipanti hanno letto passaggi simili a quelli del SAT sul telefono (con interazioni di scorrimento), e hanno risposto a due domande a scelta multipla (vedi “Metodi”, studio 4). Una delle domande era fattuale e si poteva rispondere trovando l’estratto pertinente all’interno del brano. L’altra domanda richiedeva di interpretare il brano in modo più dettagliato – lo chiamiamo il compito “interpretativo”. Come previsto, abbiamo scoperto che i modelli di sguardo sono diversi per i compiti fattuali rispetto a quelli interpretativi. I modelli di sguardo erano più concentrati su parti specifiche del brano per i compiti fattuali, e più dispersi nel brano per i compiti interpretativi (vedi Fig. 8). Tra tutti gli utenti e i compiti, l’entropia dello sguardo è risultata più alta per i compiti interpretativi rispetto ai compiti fattuali (8,14 ± 0,16 contro 7,71 ± 0,15; t(114) = 1,97, p = 0,05).
Nei compiti fattuali, abbiamo esaminato se ci sono differenze nei modelli di sguardo quando i partecipanti hanno risposto correttamente alla domanda o no. Abbiamo ipotizzato che lo sguardo dovrebbe essere concentrato sull’estratto rilevante del brano per i partecipanti che hanno risposto correttamente, e lo sguardo dovrebbe essere più disperso o concentrato su altre parti del brano per le risposte errate. La figura 9a mostra che i partecipanti hanno trascorso significativamente più tempo fissando all’interno delle regioni del passaggio rilevanti rispetto a quelle irrilevanti quando hanno risposto correttamente (62,29 ± 3,63% tempo su rilevanti vs 37,7 ± 3,63% su irrilevanti; t(52) = 3,38, p = 0,001). Questa tendenza è stata invertita per le risposte sbagliate, anche se non significativa (41,97 ± 6,99% su rilevante vs 58,03 ± 6,99% su irrilevante; t(12) = -1,15, p = 0,27).
In seguito, abbiamo esaminato l’effetto della difficoltà a livello di compito sullo sguardo e sul tempo di risposta. Abbiamo quantificato la difficoltà del compito come la % di risposte errate per compito (vedere le figure supplementari 6-7 per ulteriori misure di difficoltà del compito che prendono in considerazione il tempo e la precisione). La figura 9b-f mostra un esempio di heatmap dello sguardo per compiti facili e difficili, e i corrispondenti diagrammi a dispersione di varie metriche in funzione della difficoltà del compito. Come previsto, il tempo di risposta è aumentato con la difficoltà del compito, anche se non in modo significativo (correlazione r di Spearman r = 0,176, p = 0,63). Il numero di fissazioni degli occhi sul passaggio è aumentato con la difficoltà del compito (r = 0,67, p = 0,04). Uno sguardo più attento ha mostrato che il miglior predittore era la frazione di tempo di sguardo speso sul brano rilevante (normalizzato per altezza), che era fortemente correlato negativamente con la difficoltà del compito (r = -0,72, p = 0,02). In altre parole, all’aumentare della difficoltà del compito, i partecipanti hanno passato più tempo a guardare gli estratti irrilevanti del brano prima di trovare l’estratto rilevante che conteneva la risposta. Questi risultati mostrano che lo sguardo basato sullo smartphone può aiutare a rilevare la difficoltà di comprensione della lettura.