Dokładność modelu
Wyszkoliliśmy wielowarstwową sieć neuronową typu feed-forward (ConvNet). Model pobiera jako dane wejściowe obraz RGB z przedniej kamery smartfona, przycięty do obszaru oczu, i stosuje trzy warstwy konwolucji w celu wyodrębnienia cech spojrzenia. Cechy te są łączone w dodatkowych warstwach z automatycznie wyekstrahowanymi punktami orientacyjnymi kącika oka, wskazującymi pozycję oka na obrazie w celu uzyskania ostatecznej estymacji spojrzenia na ekranie. Model bazowy został najpierw wytrenowany przy użyciu publicznie dostępnego zbioru danych GazeCapture37, a następnie dostrojony przy użyciu danych kalibracyjnych i spersonalizowany poprzez dopasowanie dodatkowego modelu regresji (szczegóły w sekcji „Metody”) do wyjścia cech spojrzenia z ConvNet, opisanego poniżej.
Podczas kalibracji, uczestnicy zostali poproszeni o fiksację na zielonym, okrągłym bodźcu, który pojawił się na czarnym ekranie. Bodziec pojawiał się w losowych miejscach na ekranie. Obrazy z kamery skierowanej do przodu były rejestrowane z częstotliwością 30 Hz, a znaczniki czasowe synchronizowane z lokalizacją markera. W terminologii ML, obrazy i lokalizacje markerów służą odpowiednio jako wejścia i cele. Podczas wnioskowania, obrazy z kamery były kolejno podawane do precyzyjnie dostrojonego modelu bazowego, którego przedostatnia warstwa służyła jako wejście do modelu regresji, aby uzyskać ostateczne, spersonalizowane oszacowanie spojrzenia. Dokładność modelu została oceniona dla wszystkich uczestników poprzez obliczenie błędu w cm pomiędzy lokalizacjami bodźców z zadań kalibracyjnych (prawdy podstawowej) a oszacowanymi lokalizacjami spojrzenia.
Aby przetestować wpływ personalizacji na dokładność modelu, zebraliśmy dane od 26 uczestników, gdy oglądali bodźce na telefonie, zamontowanym na stojaku urządzenia. Podobnie jak w przypadku typowych badań eyetrackingowych na komputerze stacjonarnym, skupiliśmy się na bliskim frontalnym ustawieniu głowy (bez pochylania/pan/rollowania; patrz „Metody”, badanie 1). Rysunek 1 pokazuje, jak dokładność zmienia się w zależności od liczby klatek kalibracyjnych. Podczas gdy model podstawowy ma wysoki błąd 1,92 ± 0,20 cm, personalizacja za pomocą ~100 klatek kalibracyjnych doprowadziła do prawie czterokrotnego zmniejszenia błędu, co dało wynik 0,46 ± 0,03 cm (t(25) = 7,32, p = 1,13 × 10-7). Zauważ, że 100 klatek kalibracyjnych w różnych lokalizacjach ekranu odpowiada <30 s danych, co jest całkiem rozsądne dla badań eye trackingowych, w których kalibracja jest zwykle wykonywana na początku każdego badania (lub w trakcie badania, aby uwzględnić przerwy lub duże zmiany w pozie). Najlepszy uczestnik miał błąd 0,23 cm, podczas gdy najgorszy uczestnik miał błąd 0,75 cm (percentyle Th wynosiły cm). Przy odległości widzenia 25-40 cm odpowiada to dokładności 0,6-1∘, co jest lepsze niż 2,44-3∘ w poprzednich pracach37,38.
Poprawa w stosunku do poprzedniej pracy wynika z połączenia lepszej architektury modelu, kalibracji/personalizacji i optymalnych ustawień UX. W szczególności, precyzyjne dostrojenie i personalizacja modelu przy użyciu ~30 s danych kalibracyjnych w optymalnych ustawieniach UX (blisko czołowej pozycji głowy, mała odległość patrzenia 25-40 cm) doprowadziły do dużej poprawy dokładności (1,92-0,46 cm). Podczas gdy zmiany w architekturze modelu doprowadziły do umiarkowanej poprawy dokładności (0,73 cm37 do 0,46 cm dla naszego modelu, z precyzyjnym dostrojeniem i personalizacją zastosowaną do obu modeli), znacznie zmniejszyły one złożoność modelu o 50× (8 M vs. 170 K parametrów modelu), czyniąc go odpowiednim do implementacji na urządzeniach. Tak więc nasz model jest zarówno lekki, jak i dokładny.
Jak pokazano na Rys. 1b, błędy były porównywalne w różnych lokalizacjach na ekranie telefonu, z nieco większym błędem w kierunku dolnych lokalizacji ekranu, ponieważ oczy mają tendencję do wydawania się częściowo zamkniętymi, gdy uczestnicy patrzą w dół (patrz Rys. 1 uzupełniający). Chociaż liczby te zostały przedstawione dla telefonów Pixel 2 XL, personalizacja okazała się pomocna również dla innych urządzeń (patrz Rys. 3a). Na rysunkach 1a i b skoncentrowano się na ustawieniu głowy w taki sposób, że twarz zajmowała około jednej trzeciej kadru aparatu. Aby sprawdzić wpływ położenia głowy i odległości na dokładność, przeanalizowaliśmy zbiór danych GazeCapture37 na iPhone’ach, który oferował większą różnorodność w położeniu głowy/odległości. Jak widać na rysunkach 3b-e, najlepsze wyniki uzyskano dla pozycji głowy zbliżonej do frontalnej i mniejszej odległości od telefonu (gdzie obszar oka wydawał się większy), a dokładność spadała wraz ze wzrostem obrotu/pochylenia/obrotu lub gdy uczestnicy oddalali się od telefonu. Dlatego też wszystkie badania w tym artykule koncentrowały się na optymalnych ustawieniach UX, czyli ustawieniu głowy blisko czoła i małej odległości od telefonu (25-40 cm). Chociaż może się to wydawać restrykcyjne, warto zauważyć, że najbardziej powszechna konfiguracja śledzenia oczu dla wcześniejszych badań ruchu oczu8,12,14,16,18,29 często wymaga drogiego sprzętu i bardziej kontrolowanych ustawień, takich jak oparcie podbródka z przyciemnionym oświetleniem wewnętrznym i stałą odległością widzenia.
Porównanie z wyspecjalizowanymi mobilnymi trackerami oczu
Aby zrozumieć różnicę w wydajności pomiędzy naszym smartfonowym eye trackerem a najnowocześniejszymi, drogimi mobilnymi trackerami oczu, porównaliśmy naszą metodę z okularami Tobii Pro 2, które są zamontowanym na głowie eye trackerem z czterema kamerami na podczerwień w pobliżu oka. Wybraliśmy przednie ustawienie głowy, ponieważ okulary Tobii działają najlepiej w tym ustawieniu. Trzynastu użytkowników wykonało zadanie kalibracji w czterech warunkach – z okularami Tobii i bez nich, z nieruchomą podstawą urządzenia i swobodnie trzymając telefon w dłoni (patrz Rys. 2). Stwierdziliśmy, że dokładność smartfona eye tracker (0,42 ± 0,03 cm) była porównywalna z okularami Tobii (0,55 ± 0,06 cm, dwuwarstwowy sparowany test t, t(12) = -2,12, p = 0,06). Podobne wyniki uzyskano w ustawieniu ręcznym (0,59 ± 0,03 cm w Tobii vs. 0,50 ± 0,03 cm w naszym; t(12) = -1,53, p = 0,15). Rozkład błędów na użytkownika zarówno dla ustawienia na stojaku jak i na ręku można znaleźć na Rys. 4.
Warto zauważyć, że specjalistyczne trackery oczu, takie jak okulary Tobii Pro, reprezentują wysoką poprzeczkę. Są to okulary montowane na głowie z czterema kamerami na podczerwień (dwie w pobliżu każdego oka) i jedną kamerą z centrum świata. Tak więc dane wejściowe to wysokiej rozdzielczości obrazy podczerwone z bliska oczu (w odległości 5-10 cm od oka). W przeciwieństwie do tego, nasza metoda wykorzystuje pojedynczą przednią kamerę RGB w smartfonie, w większej odległości (25-40 cm od oka), stąd obszar oka wydaje się mały. Pomimo tych wyzwań, obiecujące jest to, że nasz smartfonowy eye tracker osiąga porównywalną dokładność jak state-of-the-art mobilne eye trackery.
Walidacja na standardowych zadaniach okulomotorycznych
Jako walidacja badań, przetestowaliśmy czy kluczowe ustalenia z poprzednich badań ruchu oczu w zadaniach okulomotorycznych przy użyciu dużych wyświetlaczy i drogich stacjonarnych eye trackerów, mogą być replikowane na małych wyświetlaczach smartfonów przy użyciu naszej metody. Dwudziestu dwóch uczestników wykonywało zadania prosaccade, smooth pursuit i wyszukiwania wzrokowego, jak opisano poniżej (szczegóły w „Metodach”, badanie 2). Rysunek 3a przedstawia ustawienia do zadania prosakkadowego. Obliczyliśmy opóźnienie sakkady, powszechnie badaną miarę, jako czas od pojawienia się bodźca do momentu, gdy uczestnik poruszył oczami. Jak widać na Rys. 3b, średnia latencja sakkady wynosiła 210 ms (mediana 167 ms), zgodnie z 200-250 ms zaobserwowanymi w poprzednich badaniach41.
Aby zbadać płynne ruchy goniące oczu, uczestnicy zostali poproszeni o wykonanie dwóch typów zadań – jednego, w którym obiekt poruszał się płynnie po okręgu, i drugiego, w którym poruszał się płynnie po polu. Ostatnio wykazano, że podobne zadania są przydatne w wykrywaniu wstrząśnienia mózgu42,43. Rysunki 3c-e przedstawiają przykładową ścieżkę skanowania spojrzenia losowo wybranego uczestnika oraz mapę cieplną na poziomie populacji wszystkich użytkowników i prób dla zadania gładkiego pościgu po okręgu. Zgodnie z wcześniejszą literaturą dotyczącą komputerów stacjonarnych, uczestnicy dobrze poradzili sobie z tym zadaniem, z niskim błędem śledzenia wynoszącym 0,39 ± 0,02 cm. Podobne wyniki uzyskano dla zadania smooth pursuit box (patrz Rys. 5).
Poza prostymi zadaniami okulomotorycznymi, badaliśmy wyszukiwanie wzrokowe, które jest kluczowym obszarem badań uwagi od lat 80-tych12,44,45. Dwa dobrze znane zjawiska to: (1) efekt saliency celu (niepodobieństwo lub kontrast między celem a otaczającymi go rozpraszającymi elementami w wyświetlaczu, znanymi jako dystraktory)46,47; (2) oraz efekt wielkości zestawu (liczba elementów w wyświetlaczu)44,45 na wizualne zachowania poszukiwawcze.
Aby sprawdzić obecność tych efektów na telefonach, zmierzyliśmy wzorce spojrzenia, gdy 22 uczestników wykonywało serię wizualnych zadań poszukiwawczych. Systematycznie zmienialiśmy intensywność koloru celu lub jego orientację w stosunku do rozpraszaczy. Gdy kolor (lub orientacja) celu były podobne do dystraktorów (niskie nasycenie celu), potrzeba było więcej fiksacji, aby znaleźć cel (patrz Rys. 4a, c). Z kolei, gdy kolor (lub orientacja) celu różnił się od dystraktorów (wysoki stopień zasolenia celu), wymagana była mniejsza liczba fiksacji (ryc. 4b, d). Stwierdziliśmy, że u wszystkich użytkowników i we wszystkich próbach, liczba fiksacji w celu odnalezienia celu zmniejszała się znacząco wraz ze wzrostem zasolenia celu (patrz Rys. 4e, f dla kontrastu intensywności koloru: F(3, 63) = 37,36, p < 10-5; dla kontrastu orientacyjnego: F(3, 60) = 22,60, p < 10-5). Wyniki te potwierdzają wpływ saliency celu na wyszukiwanie wzrokowe, zaobserwowany wcześniej w badaniach desktopowych12,44,46,47.
Aby zbadać wpływ wielkości zestawu na wyszukiwanie wzrokowe, zmieniliśmy liczbę elementów w wyświetlaczu z 5, 10 do 15. Rysunek 4g pokazuje, że efekt wielkości zestawu zależy od słoności celu. W przypadku niskiego zasolenia celu (różnica orientacji między celem a rozpraszaczami, Δθ = 7∘), liczba fiksacji w celu znalezienia celu rośnie liniowo wraz z wielkością zestawu (nachylenie = 0,17; jednoczynnikowa ANOVA F(2, 40) = 3,52, p = 0,04). Dla kontrastu, przy średnio-wysokim nasyceniu (Δθ = 15∘), liczba fiksacji w celu odnalezienia celu nie zmieniała się istotnie wraz z wielkością zestawu (F(2, 40) = 0,85, p = 0,44). Dla bardzo silnie wyeksponowanych celów (Δθ = 75∘) stwierdzono ujemny wpływ wielkości zestawu na liczbę fiksacji (nachylenie = -0,06; F(2, 40) = 4,39, p = 0,02). Wyniki te są zgodne z wcześniejszymi pracami dotyczącymi komputerów stacjonarnych47,48,49,50. Podsumowując, w tej części odtworzyliśmy kluczowe ustalenia dotyczące zadań okulomotorycznych, takich jak prosakkada, płynny pościg i zadania wyszukiwania wzrokowego przy użyciu naszego smartfona eye trackera.
Weryfikacja na naturalnych obrazach
Dalej walidowaliśmy naszą metodę testując, czy poprzednie ustalenia dotyczące ruchów oczu dla bogatych bodźców, takich jak naturalne obrazy, uzyskane z drogich stacjonarnych eye trackerów z dużymi wyświetlaczami mogą być replikowane na małych wyświetlaczach, takich jak smartfony, przy użyciu naszej metody. Niektóre dobrze znane zjawiska dotyczące spojrzenia na naturalnych obrazach są takie, że na spojrzenie wpływa (a) wykonywane zadanie (znane od czasu klasycznych eksperymentów eyetrackingowych przeprowadzonych przez Yarbusa w 1967 roku30); (b) słoność obiektów w scenie19,51,52; oraz (c) tendencja do fiksacji w pobliżu centrum sceny51,53. Aby sprawdzić, czy nasz smartfonowy eye tracker może odtworzyć te odkrycia, zebraliśmy dane od 32 uczestników podczas oglądania naturalnych obrazów w dwóch różnych warunkach zadania: (1) swobodnego oglądania i (2) wizualnego wyszukiwania celu (patrz „Metody”, badanie 3).
Jak oczekiwano, wzorce spojrzenia były bardziej rozproszone podczas swobodnego oglądania i bardziej skupione w kierunku obiektu docelowego i jego prawdopodobnych lokalizacji podczas wyszukiwania wizualnego (patrz Rys. 5). Na przykład, Rys. 5 trzeci rząd pokazuje, że podczas swobodnego oglądania, uczestnicy spędzali czas patrząc na osobę i znak, który wskazuje w scenie, podczas gdy podczas wizualnego poszukiwania „samochodu”, uczestnicy unikali znaku i zamiast tego fiksowali wzrok na osobie i samochodzie. Dla wszystkich obrazów entropia spojrzenia okazała się znacząco wyższa dla swobodnego oglądania niż dla wyszukiwania wzrokowego (16,94 ± 0,03 vs. 16,39 ± 0,04, t(119) = 11,14, p = 10-23). Dodatkowa analiza wydajności wyszukiwania wizualnego wykazała, że zgodnie z wcześniejszymi ustaleniami54, całkowity czas fiksacji w celu znalezienia celu zmniejsza się wraz z rozmiarem celu (r = -0,56, p = 10-11; n = 120 obrazów), potwierdzając, że większe cele są łatwiejsze do znalezienia niż mniejsze. Poza rozmiarem, stwierdziliśmy, że gęstość zasolenia celu ma znaczący wpływ na czas znalezienia celu (r = -0,30, p = 0,0011; n = 120 obrazów), tzn, tj. cele bardziej nasycone są łatwiejsze do znalezienia niż mniej nasycone, co jest zgodne z wcześniejszą literaturą19.
Po drugie, sprawdziliśmy istnienie tendencji centralnej podczas swobodnego oglądania naturalnych obrazów na smartfonach. Rysunek 6a przedstawia entropię spojrzenia dla wszystkich obrazów w tym badaniu. Przykłady niskiej entropii spojrzenia to obrazy zawierające jeden lub dwa istotne obiekty w scenie (np. pojedyncza osoba lub zwierzę w scenie), podczas gdy obrazy o wysokiej entropii zawierają wiele obiektów zainteresowania (np. wiele osób, pomieszczenie z meblami). Podobne wyniki odnotowano w przypadku wyspecjalizowanych stacjonarnych urządzeń śledzących ruchy gałek ocznych51,52. Uśrednienie fiksacji dla wszystkich użytkowników i obrazów z naszego urządzenia śledzącego ruchy gałek ocznych na smartfonie ujawniło tendencję centralną (patrz Rys. 6b), zgodną z wcześniejszą literaturą dotyczącą komputerów stacjonarnych51,53.
Wreszcie, ponieważ saliency zostało szeroko zbadane przy użyciu stacjonarnych eye trackerów19,51,52, bezpośrednio porównaliśmy wzorce spojrzenia uzyskane z naszego smartfonowego eye trackera z tymi uzyskanymi z wyspecjalizowanych stacjonarnych eye trackerów, takich jak Eyelink 1000 (przy użyciu zestawu danych OSIE52). Należy zauważyć, że to porównanie stawia wysoko poprzeczkę. Konfiguracja stacjonarna z EyeLink 1000 nie tylko obejmowała specjalistyczny sprzęt ze źródłem światła podczerwonego i kamerami na podczerwień w pobliżu oka o wysokiej rozdzielczości przestrzenno-czasowej (do 2000 Hz), ale także wykorzystywała wysoce kontrolowane ustawienia z podparciem podbródka (i przyciemnione warunki oświetleniowe) oraz wyświetlała obraz na dużym ekranie (22″, kąt widzenia 33 × 25∘). W przeciwieństwie do tego, w naszym badaniu wykorzystano istniejącą w smartfonie kamerę do selfie (RGB) w bardziej naturalnych warunkach (naturalne oświetlenie wewnętrzne, brak podparcia podbródka, tylko stojak na telefon) z obrazami oglądanymi na małym ekranie (6″, mediana kąta widzenia 12 × 9∘). Tak więc, te dwie konfiguracje różnią się na wiele sposobów (desktop z dużym ekranem vs. mobile z małym ekranem, kontrolowane ustawienia, koszt eye trackera, częstotliwość próbkowania).
Pomimo tych różnic, stwierdziliśmy, że mapy cieplne spojrzenia z dwóch ustawień są jakościowo podobne. Rysunek 7 pokazuje najbardziej podobne i niepodobne mapy cieplne z komputerów stacjonarnych i komórkowych (podobieństwo mierzone za pomocą korelacji Pearsona). Nasze urządzenie do śledzenia ruchów gałek ocznych na smartfonie było w stanie wykryć podobne punkty zapalne jak drogie odpowiedniki na komputerze stacjonarnym, z kluczową różnicą polegającą na tym, że mapy cieplne spojrzeń z urządzeń mobilnych wydają się bardziej rozmyte (patrz Dodatkowa dyskusja w celu dalszej analizy). Rozmycie wynika z połączenia małego rozmiaru wyświetlacza na ekranie telefonu komórkowego oraz niższej dokładności/szumów ze smartfona eye trackera (brak podpórki pod brodę, brak kamer na podczerwień w pobliżu oka). Pomijając rozmycie, mapy cieplne spojrzenia z komputera stacjonarnego i telefonu komórkowego są wysoce skorelowane zarówno na poziomie pikseli (r = 0,74), jak i obiektów (r = 0,90, patrz Tabela 1). Sugeruje to, że nasz smartfonowy eye tracker może być wykorzystany do analizy saliency na treściach mobilnych, zarówno dla statycznych obrazów jak i dynamicznych treści (gdy uczestnicy przewijają i wchodzą w interakcję z treścią lub oglądają filmy).
Testowanie na zadaniu czytania ze zrozumieniem
Poza walidacją badań na zadaniach okulomotorycznych i naturalnych obrazach, przetestowaliśmy, czy nasz smartfonowy eye tracker może pomóc w wykrywaniu trudności w czytaniu ze zrozumieniem, gdy uczestnicy naturalnie przewijali i czytali fragmenty na telefonie. Siedemnastu uczestników czytało na telefonie fragmenty podobne do SAT (z interakcjami przewijania) i odpowiadało na dwa pytania wielokrotnego wyboru (patrz „Metody”, badanie 4). Jedno z pytań miało charakter faktograficzny i można było na nie odpowiedzieć, znajdując odpowiedni fragment we fragmencie tekstu. Drugie pytanie wymagało bardziej szczegółowej interpretacji fragmentu – nazywamy to zadaniem „interpretacyjnym”. Zgodnie z oczekiwaniami, stwierdziliśmy, że wzorce spojrzeń są różne dla zadań faktograficznych i interpretacyjnych. Wzorce spojrzeń były bardziej skoncentrowane na określonych częściach fragmentu w przypadku zadań faktograficznych, a bardziej rozproszone w całym fragmencie w przypadku zadań interpretacyjnych (patrz Rys. 8). W przypadku wszystkich użytkowników i zadań, entropia spojrzenia okazała się wyższa dla zadań interpretacyjnych niż zadań faktograficznych (8,14 ± 0,16 vs. 7,71 ± 0,15; t(114) = 1,97, p = 0,05).
W ramach zadań faktograficznych zbadaliśmy, czy istnieją różnice we wzorcach spojrzenia, gdy uczestnicy odpowiedzieli na pytanie poprawnie lub nie. Postawiliśmy hipotezę, że wzrok powinien być skupiony na odpowiednim fragmencie fragmentu w przypadku uczestników, którzy odpowiedzieli poprawnie, a wzrok powinien być bardziej rozproszony lub skupiony na innych częściach fragmentu w przypadku błędnych odpowiedzi. Rysunek 9a pokazuje, że uczestnicy spędzali istotnie więcej czasu na fiksacji w obrębie istotnych regionów fragmentu niż nieistotnych, gdy odpowiadali poprawnie (62,29 ± 3,63% czasu na istotnych vs. 37,7 ± 3,63% na nieistotnych; t(52) = 3,38, p = 0,001). Tendencja ta została odwrócona dla błędnych odpowiedzi, choć nie była znacząca (41,97 ± 6,99% na istotnych vs. 58,03 ± 6,99% na nieistotnych; t(12) = -1,15, p = 0,27).
Następnie zbadaliśmy wpływ poziomu trudności zadania na spojrzenie i czas oczekiwania na odpowiedź. Trudność zadania określiliśmy ilościowo jako % niepoprawnych odpowiedzi na zadanie (dodatkowe miary trudności zadania uwzględniające czas i dokładność – patrz ryc. 6-7). Rysunek 9b-f przedstawia przykładowe mapy cieplne spojrzeń dla zadań łatwych i trudnych oraz odpowiadające im wykresy rozrzutu różnych metryk w funkcji trudności zadania. Zgodnie z oczekiwaniami, czas oczekiwania na odpowiedź wzrastał wraz z trudnością zadania, choć nie w sposób istotny (korelacja rang Spearmana r = 0,176, p = 0,63). Liczba fiksacji wzroku na fragmencie zwiększała się wraz z trudnością zadania (r = 0,67, p = 0,04). Dokładniejsza analiza wykazała, że najlepszym predyktorem była frakcja czasu spojrzenia spędzonego na danym fragmencie (znormalizowana względem wzrostu), która była silnie ujemnie skorelowana z trudnością zadania (r = -0,72, p = 0,02). Innymi słowy, wraz ze wzrostem trudności zadania uczestnicy spędzali więcej czasu na przyglądaniu się nieistotnym fragmentom fragmentu, zanim znaleźli właściwy fragment, który zawierał odpowiedź. Wyniki te pokazują, że spojrzenie oparte na smartfonie może pomóc w wykryciu trudności w czytaniu ze zrozumieniem.