Precizia modelului
Am antrenat o rețea neuronală convoluțională multistrat (ConvNet). Modelul ia ca intrare o imagine RGB de la camera frontală a unui smartphone, decupată la nivelul regiunilor oculare, și aplică trei straturi de convoluție pentru a extrage caracteristicile privirii. Caracteristicile sunt combinate în straturi suplimentare cu reperele din colțul ochiului extrase automat care indică poziția ochiului în cadrul imaginii pentru o estimare finală a privirii pe ecran. Acest model de bază a fost mai întâi antrenat folosind setul de date GazeCapture disponibil public37, apoi a fost reglat cu ajutorul datelor de calibrare și personalizat prin ajustarea unui model de regresie suplimentar (detalii în secțiunea „Metode”) la ieșirea caracteristicilor de privire din ConvNet, descris mai jos.
În timpul calibrării, participanților li s-a cerut să fixeze un stimul circular verde care a apărut pe un ecran negru. Stimulul a apărut în locații aleatorii pe ecran. Imaginile de la camera frontală au fost înregistrate la 30 Hz și marcajele temporale au fost sincronizate cu locația markerului. În terminologia ML, imaginile și locațiile markerilor au servit drept intrări și, respectiv, ținte. În timpul inferenței, imaginile camerei au fost introduse succesiv în modelul de bază reglat fin, al cărui penultim strat a servit drept intrare în modelul de regresie pentru a obține estimarea finală și personalizată a privirii. Acuratețea modelului a fost evaluată la toți participanții prin calcularea erorii în cm între locațiile stimulilor din sarcinile de calibrare (adevărul de bază) și locațiile estimate ale privirii.
Pentru a testa efectul personalizării asupra acurateței modelului, am colectat date de la 26 de participanți în timp ce aceștia priveau stimuli pe telefon, montați pe un suport pentru dispozitiv. Similar studiilor tipice de urmărire a ochilor pe desktop, ne-am concentrat pe o poziție aproape frontală a capului (fără înclinare/pan/rotire; a se vedea „Metode”, studiul 1). Figura 1 arată cum variază acuratețea în funcție de numărul de cadre de calibrare. În timp ce modelul de bază are o eroare ridicată de 1,92 ± 0,20 cm, personalizarea cu ~100 de cadre de calibrare a dus la o reducere de aproape patru ori a erorii, rezultând 0,46 ± 0,03 cm (t(25) = 7,32, p = 1,13 × 10-7). Rețineți că 100 de cadre de calibrare în diferite locații ale ecranului corespund la <30 s de date, ceea ce este destul de rezonabil pentru studiile de urmărire a ochilor în care calibrarea se realizează de obicei la începutul fiecărui studiu (sau în timpul studiului pentru a ține cont de pauze sau schimbări mari de poziție). Cel mai bun participant a avut o eroare de 0,23 cm, în timp ce cel mai slab participant a avut o eroare de 0,75 cm (percentilele th au fost de cm). La o distanță de vizualizare de 25-40 cm, acest lucru corespunde unei precizii de 0,6-1∘, care este mai bună decât 2,44-3∘ pentru lucrările anterioare37,38.
Ambunătățirile față de lucrările anterioare se datorează unei combinații de arhitectură mai bună a modelului, calibrare/personalizare și setări optime UX. În special, reglarea fină și personalizarea modelului folosind ~30 s de date de calibrare în setările optime ale UX (poziționarea frontală apropiată a capului, distanța scurtă de vizualizare de 25-40 cm) a dus la îmbunătățiri mari ale acurateței (1,92-0,46 cm). În timp ce modificările aduse arhitecturii modelului au condus la îmbunătățiri modeste ale preciziei (0,73 cm37 față de 0,46 cm pentru modelul nostru, cu reglajul fin și personalizarea aplicate ambelor modele), acestea au redus semnificativ complexitatea modelului cu 50× (8 M față de 170 K parametri de model), făcându-l potrivit pentru implementarea pe dispozitiv. Astfel, modelul nostru este atât ușor, cât și precis.
După cum se arată în Fig. 1b, erorile au fost comparabile în diferite locații de pe ecranul telefonului, cu o eroare ușor mai mare spre locațiile din partea de jos a ecranului, deoarece ochii tind să apară parțial închiși atunci când participanții privesc în jos (a se vedea Fig. Suplimentară 1). Deși aceste cifre sunt raportate pentru telefoanele Pixel 2 XL, s-a constatat că personalizarea a fost de ajutor și pe alte dispozitive (a se vedea Fig. suplimentară 3a). Figurile 1a, b s-au concentrat asupra poziției frontale a capului, astfel încât fața să acopere aproximativ o treime din cadrul camerei. Pentru a testa efectul poziției capului și al distanței asupra preciziei, am analizat setul de date GazeCapture37 pe iPhone-uri, care a oferit mai multă diversitate în ceea ce privește poziția capului/distanța. După cum se vede în figurile suplimentare 3b-e, cea mai bună performanță a fost obținută pentru o poziție a capului aproape frontală și o distanță mai mică față de telefon (unde regiunea ochilor părea mai mare), iar acuratețea a scăzut odată cu creșterea panoramei/înclinării/rolării sau pe măsură ce participanții se îndepărtau de telefon. Astfel, toate studiile din această lucrare s-au concentrat pe setările optime ale UX, și anume headpose aproape frontal cu distanțe scurte de vizualizare de 25-40 cm față de telefon. Deși acest lucru poate părea restrictiv, este demn de remarcat faptul că cea mai comună configurație de urmărire a ochilor pentru cercetările anterioare privind mișcările oculare8,12,14,16,18,29 necesită adesea un hardware costisitor și setări mai controlate, cum ar fi un suport pentru bărbie cu iluminare slabă în interior și o distanță de vizualizare fixă.
Comparare cu dispozitive mobile specializate de urmărire a ochilor
Pentru a înțelege diferența de performanță dintre dispozitivul nostru de urmărire a ochilor de pe smartphone și dispozitivele mobile de urmărire a ochilor de ultimă generație și costisitoare, am comparat metoda noastră cu ochelarii Tobii Pro 2, care este un dispozitiv de urmărire a ochilor montat pe cap cu patru camere cu infraroșu în apropierea ochiului. Am selectat poziția frontală a capului, deoarece ochelarii Tobii funcționează cel mai bine în acest cadru. Treisprezece utilizatori au efectuat o sarcină de calibrare în patru condiții – cu și fără ochelarii Tobii, cu un suport fix pentru dispozitiv și ținând liber telefonul în mână (a se vedea Fig. 2). Cu suportul fix al dispozitivului, am constatat că acuratețea dispozitivului de urmărire a ochilor de pe smartphone (0,42 ± 0,03 cm) a fost comparabilă cu cea a ochelarilor Tobii (0,55 ± 0,06 cm, test t împerecheat cu două cozi, t(12) = -2,12, p = 0,06). Rezultate similare au fost obținute în cadrul setării manuale (0,59 ± 0,03 cm la Tobii vs. 0,50 ± 0,03 cm la noi; t(12) = -1,53, p = 0,15). Distribuția erorilor per utilizator, atât pentru configurația cu suportul dispozitivului, cât și pentru cea ținută în mână, poate fi găsită în Fig. suplimentară 4.
Este demn de remarcat faptul că urmăritorii oculari specializați precum ochelarii Tobii Pro reprezintă o ștachetă înaltă. Aceștia sunt ochelari montați pe cap cu patru camere cu infraroșu (două lângă fiecare ochi) și o cameră centrată pe lume. Astfel, datele de intrare sunt imagini în infraroșu de înaltă rezoluție ale unor prim-planuri ale ochilor (la o distanță de 5-10 cm față de ochi). În schimb, metoda noastră utilizează o singură cameră RGB frontală a smartphone-ului, la o distanță de vizualizare mai mare (25-40 cm față de ochi), prin urmare, regiunea ochilor apare mică. În ciuda acestor provocări, este promițător faptul că dispozitivul nostru de urmărire a ochilor pentru smartphone atinge o acuratețe comparabilă cu cea a dispozitivelor mobile de urmărire a ochilor de ultimă generație.
Validare pe sarcini oculomotorii standard
Ca o validare a cercetării, am testat dacă principalele constatări din cercetările anterioare privind mișcările oculare pe sarcini oculomotorii care utilizează ecrane mari și dispozitive scumpe de urmărire a ochilor pentru desktop, ar putea fi reproduse pe ecrane mici de smartphone utilizând metoda noastră. Douăzeci și doi de participanți au efectuat sarcini de prosacadă, urmărire lină și căutare vizuală, așa cum este descris mai jos (detalii în „Metode”, studiul 2). Figura 3a prezintă configurația pentru sarcina de prosacadă. Am calculat latența saccadei, o măsură studiată în mod obișnuit, ca fiind timpul scurs de la apariția stimulului până la momentul în care participantul și-a mișcat ochii. După cum se vede în Fig. 3b, latența medie a saccadei a fost de 210 ms (mediana 167 ms), în concordanță cu 200-250 ms observată în studiile anterioare41.
Pentru a investiga mișcările oculare de urmărire lină, participanților li s-a cerut să efectueze două tipuri de sarcini – una în care obiectul se deplasa lin de-a lungul unui cerc, iar alta de-a lungul unei cutii. S-a demonstrat recent că sarcini similare sunt utile pentru detectarea contuziilor42,43. Figurile 3c-e prezintă un eșantion de scanare a privirii de la un participant selectat aleatoriu și harta termică la nivel de populație de la toți utilizatorii și studiile pentru sarcina de urmărire lină a cercului. În concordanță cu literatura de specialitate anterioară pe desktopuri, participanții au avut performanțe bune în această sarcină, cu o eroare de urmărire scăzută de 0,39 ± 0,02 cm. Rezultate similare au fost obținute pentru sarcina cutiei de urmărire netedă (a se vedea figura suplimentară 5).
Dincolo de sarcinile oculomotorii simple, am investigat căutarea vizuală, care a fost o zonă de interes cheie a cercetării atenției încă din anii 198012,44,45. Două fenomene bine cunoscute aici sunt: (1) efectul salienței țintei (disimilaritatea sau contrastul dintre țintă și elementele de distragere a atenției din jur în afișaj, cunoscute sub numele de distractori)46,47; (2) și efectul dimensiunii setului (numărul de elemente din afișaj)44,45 asupra comportamentului de căutare vizuală.
Pentru a testa prezența acestor efecte asupra telefoanelor, am măsurat modelele de privire în timp ce 22 de participanți au efectuat o serie de sarcini de căutare vizuală. Am variat sistematic intensitatea culorii țintei sau orientarea acesteia în raport cu distractorii. Atunci când culoarea (sau orientarea) țintei a apărut similară cu cea a distractorilor (saliență scăzută a țintei), au fost necesare mai multe fixări pentru a găsi ținta (a se vedea Fig. 4a, c). În schimb, atunci când culoarea (sau orientarea) țintei a apărut diferită de distractorii (saliență ridicată a țintei), au fost necesare mai puține fixări (Fig. 4b, d). Am constatat că, la toți utilizatorii și la toate încercările, numărul de fixări pentru a găsi ținta a scăzut semnificativ pe măsură ce saliența țintei a crescut (a se vedea Fig. 4e, f pentru contrastul intensității culorii: F(3, 63) = 37,36, p < 10-5; pentru contrastul de orientare: F(3, 60) = 22,60, p < 10-5). Aceste rezultate confirmă efectul salienței țintei asupra căutării vizuale, observat anterior în studiile de birou12,44,46,47.
Pentru a testa efectul mărimii setului asupra căutării vizuale, am variat numărul de elemente din afișaj de la 5, 10 la 15. Figura 4g arată că efectul dimensiunii setului depinde de saliența țintei. Atunci când saliența țintei este scăzută (diferența de orientare între țintă și distractori, Δθ = 7∘), numărul de fixări pentru a găsi ținta a crescut liniar cu dimensiunea setului (pantă = 0,17; one-way repeated measures ANOVA F(2, 40) = 3,52, p = 0,04). În schimb, atunci când saliența țintei este mediu-mare (Δθ = 15∘), numărul de fixări pentru a găsi ținta nu a variat semnificativ cu dimensiunea setului (F(2, 40) = 0,85, p = 0,44). Pentru țintele foarte proeminente (Δθ = 75∘), am constatat un efect negativ al dimensiunii setului asupra numărului de fixări (pantă = -0,06; F(2, 40) = 4,39, p = 0,02). Aceste constatări sunt în concordanță cu lucrările anterioare pe desktop-uri47,48,49,50. Pentru a rezuma, în această secțiune, am replicat principalele constatări privind sarcinile oculomotorii, cum ar fi prosacada, urmărirea lină și sarcinile de căutare vizuală, utilizând dispozitivul nostru de urmărire a ochilor pentru smartphone.
Validare pe imagini naturale
Am validat în continuare metoda noastră prin testarea dacă constatările anterioare privind mișcările oculare pentru stimuli bogați, cum ar fi imaginile naturale, obținute de la dispozitive scumpe de urmărire a ochilor de pe desktop cu ecrane mari, ar putea fi replicate pe ecrane mici, cum ar fi smartphone-urile, utilizând metoda noastră. Unele fenomene bine cunoscute despre privirea pe imagini naturale sunt faptul că privirea este afectată de (a) sarcina care se efectuează (cunoscută încă de la experimentele clasice de urmărire a ochilor realizate de Yarbus în 196730); (b) saliența obiectelor din scenă19,51,52; și (c) tendința de a se fixa în apropierea centrului scenei51,53. Pentru a testa dacă dispozitivul nostru de urmărire a ochilor de pe smartphone poate reproduce aceste constatări, am colectat date de la 32 de participanți în timp ce priveau imagini naturale în două condiții de sarcină diferite: (1) vizualizare liberă și (2) căutare vizuală a unei ținte (a se vedea „Metode”, studiul 3).
După cum era de așteptat, modelele de privire au fost mai dispersate în timpul vizualizării libere și mai concentrate spre obiectul țintă și locațiile sale probabile în timpul căutării vizuale (a se vedea Fig. 5). De exemplu, Fig. 5 al treilea rând arată că, în timpul vizionării libere, participanții au petrecut timp uitându-se la persoana și la semnul pe care îl indică în scenă, în timp ce în timpul căutării vizuale a unei „mașini”, participanții au evitat semnul și, în schimb, s-au fixat pe persoană și pe mașină. În toate imaginile, s-a constatat că entropia privirii a fost semnificativ mai mare pentru vizualizarea liberă decât pentru căutarea vizuală (16,94 ± 0,03 vs. 16,39 ± 0,04, t(119) = 11,14, p = 10-23). Analiza suplimentară a performanțelor de căutare vizuală a arătat că, în concordanță cu constatările anterioare54, durata totală de fixare pentru a găsi ținta a scăzut odată cu dimensiunea țintei (r = -0,56, p = 10-11; n = 120 de imagini), confirmând faptul că țintele mai mari sunt mai ușor de găsit decât cele mai mici. Dincolo de dimensiune, am constatat că densitatea de saliență a țintei are un efect semnificativ asupra duratei de găsire a țintei (r = -0,30, p = 0,0011; n = 120 imagini), adică, țintele mai proeminente sunt mai ușor de găsit decât cele mai puțin proeminente, în concordanță cu literatura de specialitate anterioară19.
În al doilea rând, am testat existența tendinței centrale în timpul vizualizării libere a imaginilor naturale pe smartphone-uri. Figura 6a prezintă entropia privirii pe toate imaginile din acest studiu. Exemple de entropie scăzută a privirii sunt imaginile care conțin unul sau două obiecte proeminente în scenă (de exemplu, o singură persoană sau un singur animal în scenă), în timp ce imaginile cu entropie ridicată conțin mai multe obiecte de interes (de exemplu, mai multe persoane, o cameră de interior cu mobilier). Constatări similare au fost raportate cu dispozitive specializate de urmărire a ochilor de birou51,52. Calcularea mediei fixațiilor la toți utilizatorii și la toate imaginile de la dispozitivul nostru de urmărire a ochilor de pe smartphone a evidențiat o prejudecată centrală (a se vedea Fig. 6b), în concordanță cu literatura de specialitate anterioară privind desktopurile51,53.
În cele din urmă, deoarece saliența a fost studiată pe scară largă cu ajutorul urmăritorilor oculari desktop19,51,52, am comparat direct modelele de privire obținute de la urmăritorul nostru de ochi pentru smartphone cu cele obținute de la urmăritori oculari desktop specializați, cum ar fi Eyelink 1000 (utilizând setul de date OSIE52). Rețineți că această comparație plasează o ștachetă înaltă. Nu numai că configurația de birou cu EyeLink 1000 a implicat hardware specializat cu sursă de lumină în infraroșu și camere cu infraroșu în apropierea ochiului cu o rezoluție spațio-temporală ridicată (până la 2000 Hz), dar a folosit, de asemenea, setări foarte controlate cu sprijin pentru bărbie (și condiții de iluminare slabă) și a afișat imaginea pe un ecran mare (22″, unghi de vizualizare de 33 × 25∘). În schimb, configurația studiului nostru a folosit camera selfie existentă a smartphone-ului (RGB) în medii mai naturale (iluminare naturală în interior, fără sprijin pentru bărbie, doar un suport pentru telefon), cu imagini vizualizate pe un ecran mobil mic (6″, unghi de vizualizare median de 12 × 9∘). Astfel, cele două setări diferă într-o serie de moduri (desktop cu ecran mare vs. mobil cu ecran mic, setări controlate, costul urmăritorului de ochi, rata de eșantionare).
În ciuda acestor diferențe, am constatat că hărțile termice ale privirii din cele două setări sunt calitativ similare. Figura 7 prezintă cele mai asemănătoare și cele mai disimilare heatmaps de pe desktop vs. mobil (similaritate măsurată cu ajutorul corelației lui Pearson). Dispozitivul nostru de urmărire a ochilor de pe smartphone a fost capabil să detecteze puncte fierbinți ale privirii similare cu omologii scumpi de pe desktop, o diferență esențială fiind faptul că heatmaps-urile de privire de pe mobil apar mai neclare (a se vedea Discuția suplimentară pentru o analiză suplimentară). Neclaritatea se datorează unei combinații între dimensiunea mică a ecranului mobil și acuratețea/zgomotul mai scăzut al dispozitivului de urmărire a ochilor de pe smartphone (fără bărbie, fără camere cu infraroșu lângă ochi). În afară de neclaritate, hărțile termice ale privirii de pe desktop și mobil sunt foarte corelate atât la nivel de pixel (r = 0,74), cât și la nivel de obiect (r = 0,90, a se vedea tabelul 1). Acest lucru sugerează că dispozitivul nostru de urmărire a ochilor de pe smartphone ar putea fi utilizat pentru a scala analizele de saliență pe conținut mobil, atât pentru imagini statice, cât și pentru conținut dinamic (pe măsură ce participanții derulează și interacționează cu conținutul sau urmăresc videoclipuri).
Testarea pe sarcina de înțelegere a lecturii
Peste validarea cercetării pe sarcini oculomotorii și imagini naturale, am testat dacă dispozitivul nostru de urmărire a ochilor de pe smartphone ar putea ajuta la detectarea dificultăților de înțelegere a lecturii, în timp ce participanții derulau în mod natural și citeau pasaje pe telefon. Șaptesprezece participanți au citit pasaje de tip SAT pe telefon (cu interacțiuni de defilare) și au răspuns la două întrebări cu alegere multiplă (a se vedea „Metode”, studiul 4). Una dintre întrebări era factuală și se putea răspunde prin găsirea fragmentului relevant în cadrul pasajului. Cealaltă întrebare a necesitat interpretarea pasajului în mai multe detalii – numim această sarcină „interpretativă”. Așa cum era de așteptat, am constatat că modelele de privire sunt diferite pentru sarcinile factuale față de cele interpretative. Tiparele privirii au fost mai concentrate pe anumite părți specifice ale pasajului pentru sarcinile factuale și mai dispersate de-a lungul pasajului pentru sarcinile interpretative (a se vedea Fig. 8). La toți utilizatorii și la toate sarcinile, entropia privirii s-a dovedit a fi mai mare pentru sarcinile interpretative decât pentru sarcinile factuale (8,14 ± 0,16 vs. 7,71 ± 0,15; t(114) = 1,97, p = 0,05).
În cadrul sarcinilor factuale, am examinat dacă există diferențe în modelele de privire atunci când participanții au răspuns corect la întrebare vs. nu. Am emis ipoteza că privirea ar trebui să fie concentrată pe fragmentul relevant din pasaj pentru participanții care au răspuns corect, iar privirea ar trebui să fie mai dispersată sau concentrată pe alte părți ale pasajului pentru răspunsurile incorecte. Figura 9a arată că participanții au petrecut semnificativ mai mult timp fixând în regiunile relevante ale pasajului decât în cele irelevante atunci când au răspuns corect (62,29 ± 3,63% timp pe cele relevante vs. 37,7 ± 3,63% pe cele irelevante; t(52) = 3,38, p = 0,001). Această tendință a fost inversată pentru răspunsurile greșite, deși nu a fost semnificativă (41,97 ± 6,99% pe relevant vs. 58,03 ± 6,99% pe irelevant; t(12) = -1,15, p = 0,27).
În continuare, am examinat efectul dificultății la nivel de sarcină asupra privirii și a timpului de răspuns. Am cuantificat dificultatea sarcinii ca %răspunsuri incorecte pe sarcină (a se vedea Figurile suplimentare 6-7 pentru măsuri suplimentare de dificultate a sarcinii care iau în considerare timpul și acuratețea). Figura 9b-f prezintă exemple de heatmaps ale privirii pentru sarcini ușoare vs. dificile, precum și diagramele de dispersie corespunzătoare ale diferitelor măsurători în funcție de dificultatea sarcinii. După cum era de așteptat, timpul necesar pentru a răspunde a crescut odată cu dificultatea sarcinii, deși nu în mod semnificativ (corelația de rang Spearman r = 0,176, p = 0,63). Numărul de fixări ale ochilor pe pasaj a crescut odată cu dificultatea sarcinii (r = 0,67, p = 0,04). O privire mai atentă a arătat că cel mai bun predictor a fost fracțiunea de timp de privire petrecută pe fragmentul relevant (normalizată în funcție de înălțime), care a fost puternic corelată negativ cu dificultatea sarcinii (r = -0,72, p = 0,02). Cu alte cuvinte, pe măsură ce dificultatea sarcinii a crescut, participanții au petrecut mai mult timp uitându-se la extrasele irelevante din pasaj înainte de a găsi extrasul relevant care conținea răspunsul. Aceste rezultate arată că privirea bazată pe smartphone poate ajuta la detectarea dificultăților de înțelegere a lecturii.
.