Modell pontosság
Egy többrétegű feed-forward konvolúciós neurális hálózatot (ConvNet) képeztünk ki. A modell bemenetként egy okostelefon előlapi kamerájának RGB-képét veszi, amelyet a szem régióira vágtak ki, és három réteg konvolúciót alkalmaz a tekintetjellemzők kinyerésére. A jellemzők további rétegekben kombinálódnak a képen belül a szem pozícióját jelző, automatikusan kinyert szemsarki tájékozódási pontokkal a végső, képernyőn megjelenő tekintetbecsléshez. Ezt az alapmodellt először a nyilvánosan elérhető GazeCapture-adatkészlet37 felhasználásával képeztük ki, majd kalibrációs adatok felhasználásával finomhangoltuk, és egy további regressziós modell (részletek a “Módszerek” részben) illesztésével személyre szabtuk a ConvNetből származó, alább ismertetett tekintetjellemzők kimenetére.
A kalibráció során a résztvevőknek egy fekete képernyőn megjelenő zöld kör alakú ingerre kellett fixálniuk. Az inger véletlenszerű helyeken jelent meg a képernyőn. Az előlapi kamera képeit 30 Hz-es frekvencián rögzítették, és az időbélyegeket szinkronizálták a marker helyével. Az ML terminológiájában a képek és a markerek helyei szolgáltak bemenetként, illetve célpontként. A következtetés során a kameraképeket sorban betápláltuk a finomhangolt alapmodellbe, amelynek utolsó előtti rétege a regressziós modell bemeneteként szolgált a végső, személyre szabott tekintetbecsléshez. A modell pontosságát az összes résztvevőre vonatkozóan úgy értékeltük, hogy kiszámítottuk a kalibrációs feladatokból származó ingerhelyzetek (alapigazság) és a becsült tekintethelyzetek közötti cm-ben kifejezett hibát.
A személyre szabás modellpontosságra gyakorolt hatásának tesztelésére 26 résztvevőtől gyűjtöttünk adatokat, miközben a készülék állványára szerelt telefonon ingereket néztek. Az asztali számítógépen végzett tipikus szemkövetési vizsgálatokhoz hasonlóan a közel frontális fejpozícióra összpontosítottunk (nincs dőlés/panoráma/gördülés; lásd “Módszerek”, 1. tanulmány). Az 1. ábra azt mutatja, hogyan változik a pontosság a kalibrációs képkockák számával. Míg az alapmodell nagy, 1,92 ± 0,20 cm-es hibával rendelkezik, a ~100 kalibrációs képkockával történő személyre szabás a hiba közel négyszeres csökkenéséhez vezetett, ami 0,46 ± 0,03 cm-t eredményezett (t(25) = 7,32, p = 1,13 × 10-7). Megjegyzendő, hogy 100 kalibrációs képkocka különböző képernyőhelyeken <30 s adatnak felel meg, ami meglehetősen ésszerű a szemkövetési vizsgálatok esetében, ahol a kalibrációt általában minden vizsgálat elején végzik (vagy a vizsgálat során, hogy figyelembe vegyék a szüneteket vagy a póz nagy változásait). A legjobb résztvevő hibája 0,23 cm volt, míg a legrosszabb résztvevőé 0,75 cm (a percentilisek cm-t jelentettek). 25-40 cm-es látótávolságnál ez 0,6-1∘ pontosságnak felel meg, ami jobb, mint a korábbi munkák37,38 2,44-3∘ pontossága.
A korábbi munkákhoz képest elért javulás a jobb modellarchitektúra, a kalibráció/személyre szabás és az optimális UX-beállítások kombinációjának köszönhető. Különösen a modell finomhangolása és személyre szabása ~30 s kalibrációs adatok felhasználásával, optimális UX-beállítások mellett (közel frontális fejtartás, rövid, 25-40 cm-es látótávolság) nagy pontosságjavulást eredményezett (1,92-0,46 cm). Míg a modell architektúrájának változtatásai szerény javulást eredményeztek a pontosságban (0,73 cm37 0,46 cm-re a mi modellünk esetében, mindkét modellre alkalmazott finomhangolás és személyre szabás mellett), jelentősen, 50-szeresére csökkentették a modell komplexitását (8 M vs. 170 K modellparaméter), ami alkalmassá tette a modellt az eszközön történő megvalósításra. Így a mi modellünk egyszerre könnyű és pontos.
Amint az 1b. ábrán látható, a hibák hasonlóak voltak a telefon képernyőjének különböző helyein, a képernyő alsó helyei felé kissé nagyobb hibával, mivel a szemek általában részben csukva vannak, amikor a résztvevők lefelé néznek (lásd az 1. kiegészítő ábrát). Bár ezek a számok a Pixel 2 XL telefonokra vonatkoznak, a személyre szabás más készülékeken is hasznosnak bizonyult (lásd a 3a. kiegészítő ábrát). Az 1a. és b. ábrák a frontális fejtartásra összpontosítottak úgy, hogy az arc a kamerakeret körülbelül egyharmadát fedte le. A fejtartás és a távolság pontosságra gyakorolt hatásának vizsgálatához elemeztük a GazeCapture37 adathalmazt iPhone-on, amely nagyobb változatosságot kínált a fejtartás/távolság tekintetében. Amint az a 3b-e. kiegészítő ábrákon látható, a legjobb teljesítményt a közel frontális fejtartás és a telefontól való rövidebb távolság esetén értük el (ahol a szem régiója nagyobbnak tűnt), és a pontosság csökkent a pásztázás/döntés/forgatás növekedésével, vagy ahogy a résztvevők távolodtak a telefontól. Így a jelen tanulmányban szereplő összes vizsgálat az optimális UX-beállításokra összpontosított, nevezetesen a közeli frontális fejtartásra és a telefontól való rövid, 25-40 cm-es látótávolságra. Bár ez korlátozónak tűnhet, érdemes megjegyezni, hogy a korábbi szemmozgáskutatásokban8,12,14,16,18,29 leggyakrabban használt szemmozgáskövetési beállítások gyakran drága hardvert és ellenőrzöttebb beállításokat igényelnek, például álltámaszt, halvány beltéri megvilágítást és rögzített nézési távolságot.
A speciális mobil szemkövető eszközökkel való összehasonlítás
Az okostelefonos szemkövetőnk és a legmodernebb, drága mobil szemkövető eszközök közötti teljesítménybeli különbség megértése érdekében összehasonlítottuk módszerünket a Tobii Pro 2 szemüveggel, amely egy fejre szerelhető szemkövető eszköz, amely négy infravörös kamerával rendelkezik a szem közelében. A frontális fejtartást választottuk, mivel a Tobii szemüveg ebben a beállításban működik a legjobban. Tizenhárom felhasználó négy körülmények között – Tobii-szemüveggel és anélkül, rögzített készülékállvánnyal és a telefont szabadon a kezében tartva – végezte el a kalibrációs feladatot (lásd a 2. ábrát). A rögzített eszközállvánnyal azt találtuk, hogy az okostelefonos szemkövető pontossága (0,42 ± 0,03 cm) hasonló volt a Tobii szemüvegéhez (0,55 ± 0,06 cm, kétfarkú párosított t-próba, t(12) = -2,12, p = 0,06). Hasonló eredményeket kaptunk a kézben tartott beállításban is (0,59 ± 0,03 cm a Tobii esetében vs. 0,50 ± 0,03 cm a miénkkel; t(12) = -1,53, p = 0,15). A hiba eloszlása felhasználónként mind a készülékállvány, mind a kézi beállítások esetében megtalálható a 4. kiegészítő ábrán.
Érdemes megjegyezni, hogy a speciális szemkövető eszközök, mint a Tobii Pro szemüveg, magas lécet jelentenek. Ezek fejre szerelhető szemüvegek négy infravörös kamerával (kettő mindkét szem közelében) és egy világközpontú kamerával. Így a bemenet nagy felbontású infravörös képek a szemek közelképéről (a szemtől 5-10 cm-es távolságon belül). Ezzel szemben a mi módszerünk az okostelefon egyetlen előlapi RGB-kameráját használja, nagyobb látótávolságban (25-40 cm-re a szemtől), ezért a szem környéke kicsiben jelenik meg. E kihívások ellenére ígéretes, hogy okostelefonos szemkövetőnk hasonló pontosságot ér el, mint a legkorszerűbb mobil szemkövető eszközök.
Validálás standard okulomotoros feladatokon
Kutatási validálásként azt vizsgáltuk, hogy a nagy kijelzőkkel és drága asztali szemkövető eszközökkel végzett korábbi szemmozgás-kutatásokban az okulomotoros feladatokon elért legfontosabb eredmények megismételhetők-e kis okostelefonos kijelzőkön a mi módszerünkkel. Huszonkét résztvevő az alábbiakban ismertetett prosaccade, smooth pursuit és vizuális keresési feladatokat hajtott végre (részletek a “Módszerek” 2. tanulmányban). A 3a. ábra a prosaccade feladat beállítását mutatja. A saccade latenciát, egy általánosan vizsgált mérőszámot, az inger megjelenése és a résztvevő szemmozgása közötti időtartamként számoltuk ki. Amint a 3b. ábrán látható, az átlagos saccade latencia 210 ms volt (medián 167 ms), ami összhangban van a korábbi vizsgálatokban megfigyelt 200-250 ms közötti értékkel41.
A sima követéses szemmozgások vizsgálatához a résztvevőknek kétféle feladatot kellett végrehajtaniuk – az egyikben a tárgy simán mozgott egy kör mentén, a másikban pedig egy doboz mentén. Hasonló feladatokról nemrégiben bebizonyosodott, hogy hasznosak az agyrázkódás kimutatására42,43. A 3c-e ábrák egy véletlenszerűen kiválasztott résztvevő tekintetszkennelési útvonalának mintáját, valamint az összes felhasználó és kísérlet populációs szintű hőtérképét mutatják a sima követéses körfeladathoz. Az asztali számítógépekkel kapcsolatos korábbi szakirodalommal összhangban a résztvevők jól teljesítettek ebben a feladatban, a követési hiba alacsony, 0,39 ± 0,02 cm volt. Hasonló eredményeket kaptunk a smooth pursuit box feladat esetében is (lásd az 5. kiegészítő ábrát).
Az egyszerű okulomotoros feladatokon túlmenően vizsgáltuk a vizuális keresést, amely az 1980-as évek óta a figyelemkutatás egyik legfontosabb területe12,44,45. Két jól ismert jelenség itt a következő: (1) a target saliency (a célpont és a kijelzőn lévő környező, zavaró elemek, az úgynevezett disztraktorok közötti különbözőség vagy kontraszt)46,47 hatása; (2) és a set size (a kijelzőn lévő elemek száma)44,45 hatása a vizuális keresési viselkedésre.
Az említett hatások telefonokon való jelenlétének tesztelésére a tekintetmintákat mértük, miközben 22 résztvevő egy sor vizuális keresési feladatot hajtott végre. Szisztematikusan változtattuk a célpont színintenzitását vagy orientációját a zavaró tényezőkhöz képest. Amikor a célpont színe (vagy orientációja) hasonlónak tűnt a zavaró tényezőkhöz (alacsony célszaliencia), több fixációra volt szükség a célpont megtalálásához (lásd 4a, c ábra). Ezzel szemben, amikor a célpont színe (vagy orientációja) másnak tűnt, mint a zavaró tényezőké (magas célszaliencia), kevesebb fixációra volt szükség (4b., d. ábra). Azt találtuk, hogy minden felhasználó és kísérlet esetében a célpont megtalálásához szükséges fixációk száma jelentősen csökkent a célpont salienciájának növekedésével (lásd a 4e., f. ábrát a színintenzitás-kontraszt esetében: F(3, 63) = 37,36, p < 10-5; orientációs kontraszt esetén: F(3, 60) = 22,60, p < 10-5). Ezek az eredmények megerősítik a célpont szalienciájának a vizuális keresésre gyakorolt hatását, amelyet korábban asztali tanulmányokban12,44,46,47 láttunk.
A halmazméret vizuális keresésre gyakorolt hatásának vizsgálatához a kijelzőn lévő elemek számát 5, 10 és 15 között változtattuk. A 4g. ábra azt mutatja, hogy a halmazméret hatása a célpont szalienciájától függ. Ha a célpont szalienciája alacsony (a célpont és a zavaró tényezők orientációjának különbsége, Δθ = 7∘), a célpont megtalálásához szükséges fixációk száma lineárisan nőtt a készlet méretével (meredekség = 0,17; egyirányú ismételt mérések ANOVA F(2, 40) = 3,52, p = 0,04). Ezzel szemben, amikor a célpont szalienciája közepesen magas (Δθ = 15∘), a célpont megtalálására irányuló fixációk száma nem változott szignifikánsan a készlet méretével (F(2, 40) = 0,85, p = 0,44). A nagyon erősen kiemelkedő célpontok (Δθ = 75∘) esetében a készlet méretének negatív hatását találtuk a fixációk számára (meredekség = -0,06; F(2, 40) = 4,39, p = 0,02). Ezek az eredmények összhangban vannak az asztali számítógépekkel kapcsolatos korábbi munkákkal47,48,49,50. Összefoglalva, ebben a szakaszban megismételtük az okulomotoros feladatok, például a prosaccade, a sima üldözés és a vizuális keresési feladatok legfontosabb megállapításait az okostelefonos szemkövetőnkkel.
Validálás természetes képeken
Módszerünket tovább validáltuk azzal, hogy teszteltük, hogy a gazdag ingerekre, például természetes képekre vonatkozó, nagy kijelzővel rendelkező drága asztali szemkövetővel kapott szemmozgásokra vonatkozó korábbi megállapítások megismételhetők-e kis kijelzőkön, például okostelefonokon, a módszerünkkel. A természetes képeken a tekintetre vonatkozó néhány jól ismert jelenség, hogy a tekintetet befolyásolja (a) az elvégzendő feladat (Yarbus 1967-es klasszikus szemkövetési kísérletei30 óta ismert); (b) a jelenetben lévő tárgyak szalienciája19,51,52; és (c) a jelenet középpontjának közelében történő fixálásra való hajlam51,53. Annak tesztelésére, hogy okostelefonos szemkövetőnk képes-e reprodukálni ezeket az eredményeket, 32 résztvevőtől gyűjtöttünk adatokat, miközben természetes képeket néztek két különböző feladatkörben: (1) szabad nézés és (2) egy célpont vizuális keresése (lásd “Módszerek”, 3. tanulmány).
Amint az várható volt, a tekintetminták a szabad nézés során szétszórtabbak voltak, és a vizuális keresés során jobban összpontosítottak a céltárgy és annak valószínűsíthető helyei felé (lásd 5. ábra). Például az 5. ábra harmadik sora azt mutatja, hogy a szabad nézés során a résztvevők a személyt és az általa mutatott táblát nézték a jelenetben, míg az “autó” vizuális keresése során a résztvevők elkerülték a táblát, és helyette a személyt és az autót fixálták. Az összes képen a tekintet entrópiája szignifikánsan magasabbnak bizonyult a szabad nézésnél, mint a vizuális keresésnél (16,94 ± 0,03 vs. 16,39 ± 0,04, t(119) = 11,14, p = 10-23). A vizuális keresési teljesítmény további elemzése azt mutatta, hogy a korábbi eredményekkel54 összhangban a célpont megtalálásának teljes fixációs időtartama csökkent a célpont méretével (r = -0,56, p = 10-11; n = 120 kép), ami megerősíti, hogy a nagyobb célpontokat könnyebb megtalálni, mint a kisebbeket. A méreten túlmenően azt találtuk, hogy a célpont salienciasűrűsége szignifikáns hatással van a célpont megtalálásához szükséges időre (r = -0,30, p = 0,0011; n = 120 kép), azaz, a jobban kiemelkedő célpontokat könnyebb megtalálni, mint a kevésbé kiemelkedőket, ami összhangban van a korábbi szakirodalommal19.
Második lépésben a központi tendencia meglétét vizsgáltuk a természetes képek okostelefonokon történő szabad megtekintése során. A 6a. ábra a vizsgálatban szereplő összes képre vonatkozó tekintet-entrópiát mutatja. Az alacsony tekintetentrópiájú képek például egy vagy két kiemelkedő tárgyat tartalmaznak a jelenetben (pl. egyetlen személy vagy állat a jelenetben), míg a magas entrópiájú képek több érdekes tárgyat tartalmaznak (pl. több ember, beltéri szoba bútorokkal). Hasonló eredményekről számoltak be speciális asztali szemkövetőkkel51,52. Az okostelefonos szemkövetőnk által az összes felhasználó és kép fixációinak átlagolása középre irányuló torzítást mutatott (lásd a 6b. ábrát), ami összhangban van az asztali számítógépekkel kapcsolatos korábbi irodalommal51,53.
Végezetül, mivel a salienciát széles körben tanulmányozták asztali szemkövető eszközökkel19,51,52, közvetlenül összehasonlítottuk az okostelefonos szemkövetőnkből kapott tekintetmintákat az olyan speciális asztali szemkövető eszközökkel, mint az Eyelink 1000 (az OSIE-adatkészlet52 segítségével) kapott mintákkal. Megjegyezzük, hogy ez az összehasonlítás magasra teszi a lécet. Az EyeLink 1000 asztali beállítása nem csak speciális hardvert tartalmazott infravörös fényforrással és infravörös kamerákkal a szem közelében, nagy tér-időbeli felbontással (akár 2000 Hz), hanem erősen ellenőrzött beállításokat is használt álltámasszal (és gyenge fényviszonyokkal), és a képet nagy képernyőn (22″, 33 × 25∘ látószög) jelenítette meg. Ezzel szemben a mi vizsgálati beállításunk az okostelefon meglévő szelfikameráját (RGB) használta természetesebb körülmények között (természetes beltéri megvilágítás, álltámasz nélkül, csak egy állványon a telefon), a képeket pedig egy kis mobil képernyőn (6″, 12 × 9∘ medián betekintési szög) tekintették meg. A két beállítás tehát több szempontból is különbözik (nagy képernyős asztali gép vs. kis képernyős mobil, ellenőrzött beállítások, szemkövető költsége, mintavételi sebesség).
Az említett különbségek ellenére azt találtuk, hogy a két beállításból származó tekintet hőtérképek minőségileg hasonlóak. A 7. ábra mutatja a leghasonlóbb és legkülönbözőbb heatmapokat az asztali számítógép vs. mobil (a hasonlóságot a Pearson-féle korrelációval mérve). Az okostelefonos szemkövetőnk képes volt hasonló tekintet hotspotokat észlelni, mint a drága asztali társaik, azzal a fő különbséggel, hogy a mobilos tekintet hőtérképek elmosódottabbnak tűnnek (további elemzésért lásd a kiegészítő vitát). Az elmosódás a mobil képernyő kis méretű kijelzőjének és az okostelefonos szemkövető alacsonyabb pontosságának/zajának (nincs álltámasz, nincs infravörös kamera a szem közelében) kombinációjából adódik. Az elmosódottságtól eltekintve az asztali és a mobiltelefonról származó tekintet hőtérképek mind pixelszinten (r = 0,74), mind objektumszinten (r = 0,90, lásd az 1. táblázatot) nagymértékben korrelálnak egymással. Ez arra utal, hogy az okostelefonos szemkövetőnk felhasználható a mobil tartalmak salienciaelemzéseinek skálázására, mind statikus képek, mind dinamikus tartalmak (ahogy a résztvevők görgetnek és interakcióba lépnek a tartalommal, vagy videókat néznek) esetében.
Tesztelés olvasásértési feladaton
Az okulomotoros feladatokon és természetes képeken végzett kutatási validáción túl azt is teszteltük, hogy okostelefonos szemkövetőnk segíthet-e az olvasásértési nehézségek felismerésében, miközben a résztvevők természetes módon görgetnek és olvasnak szövegrészleteket a telefonon. Tizenhét résztvevő SAT-szerű passzusokat olvasott a telefonon (görgetési interakciókkal), és két feleletválasztós kérdésre válaszolt (lásd “Módszerek”, 4. tanulmány). Az egyik kérdés tényszerű volt, és úgy lehetett rá válaszolni, hogy meg kellett találni a megfelelő részletet a szövegben. A másik kérdés a szöveg részletesebb értelmezését igényelte – ezt nevezzük “értelmező” feladatnak. A várakozásoknak megfelelően azt találtuk, hogy a tekintetminták eltérnek a tényszerű és az értelmező feladatok esetében. A tényszerű feladatok esetében a tekintetminták inkább a szöveg bizonyos részeire koncentráltak, az értelmező feladatok esetében pedig jobban eloszlottak a szövegben (lásd a 8. ábrát). Minden felhasználó és feladat esetében a tekintet entrópiája magasabbnak bizonyult az értelmező feladatoknál, mint a tényszerű feladatoknál (8,14 ± 0,16 vs. 7,71 ± 0,15; t(114) = 1,97, p = 0,05).
A tényszerű feladatokon belül megvizsgáltuk, hogy vannak-e különbségek a tekintetmintázatokban, ha a résztvevők helyesen válaszoltak a kérdésre, illetve ha nem. Feltételeztük, hogy a helyesen válaszoló résztvevők esetében a tekintetnek a szöveg releváns részletére kell összpontosulnia, a helytelen válaszok esetében pedig a tekintetnek szétszórtabbnak vagy a szöveg más részeire kell összpontosulnia. A 9a. ábra azt mutatja, hogy a résztvevők szignifikánsan több időt töltöttek fixálással a releváns részeken, mint az irreleváns részeken, amikor helyesen válaszoltak (62,29 ± 3,63% idő a relevánsra vs. 37,7 ± 3,63% az irrelevánsra; t(52) = 3,38, p = 0,001). Ez a tendencia a rossz válaszok esetében megfordult, bár nem volt szignifikáns (41,97 ± 6,99% a releváns vs. 58,03 ± 6,99% az irrelevánson; t(12) = -1,15, p = 0,27).
A következőkben a feladatszint nehézségének hatását vizsgáltuk a tekintetre és a válaszadáshoz szükséges időre. A feladat nehézségét a feladatonkénti %hibás válaszok %-aként számszerűsítettük (lásd a 6-7. kiegészítő ábrákat a feladat nehézségének további, az időt és a pontosságot figyelembe vevő mérőszámaiért). A 9b-f. ábra a könnyű vs. nehéz feladatokra vonatkozó példákat mutatja, valamint a különböző mérőszámok szórásdiagramjait a feladat nehézségének függvényében. A várakozásoknak megfelelően a válaszadáshoz szükséges idő nőtt a feladat nehézségével, bár nem szignifikánsan (Spearman-féle rangkorreláció r = 0,176, p = 0,63). A szövegre történő szemfixációk száma nőtt a feladat nehézségével (r = 0,67, p = 0,04). Közelebbről megvizsgálva kiderült, hogy a legjobb előrejelző a releváns részletre fordított tekintetidő töredéke volt (magassággal normalizálva), amely erősen negatívan korrelált a feladat nehézségével (r = -0,72, p = 0,02). Más szóval, a feladat nehézségének növekedésével a résztvevők több időt töltöttek a szöveg irreleváns részleteinek megtekintésével, mielőtt megtalálták volna a releváns részt, amely a választ tartalmazta. Ezek az eredmények azt mutatják, hogy az okostelefon-alapú tekintet segíthet az olvasásértési nehézség felismerésében.