Modellgenauigkeit

Wir trainierten ein mehrschichtiges Feed-Forward-Faltungsneuronalnetz (ConvNet). Das Modell nimmt als Eingabe ein RGB-Bild von der Frontkamera eines Smartphones, das auf die Augenbereiche zugeschnitten ist, und wendet drei Faltungsschichten an, um Blickmerkmale zu extrahieren. Die Merkmale werden in zusätzlichen Schichten mit automatisch extrahierten Augenwinkel-Landmarken kombiniert, die die Augenposition im Bild anzeigen, um eine endgültige Blickschätzung auf dem Bildschirm zu erhalten. Dieses Basismodell wurde zunächst anhand des öffentlich zugänglichen GazeCapture-Datensatzes37 trainiert, dann anhand von Kalibrierungsdaten feinabgestimmt und durch Anpassung eines zusätzlichen Regressionsmodells (Einzelheiten im Abschnitt „Methoden“) an die Blickmerkmale des ConvNet personalisiert (siehe unten).

Während der Kalibrierung wurden die Teilnehmer gebeten, einen grünen kreisförmigen Stimulus zu fixieren, der auf einem schwarzen Bildschirm erschien. Der Stimulus erschien an zufälligen Stellen des Bildschirms. Die Bilder der Frontkamera wurden mit 30 Hz aufgezeichnet und die Zeitstempel mit der Position der Marker synchronisiert. In der ML-Terminologie dienten Bilder und Markerpositionen als Inputs bzw. Ziele. Während der Inferenz wurden die Kamerabilder nacheinander in das fein abgestimmte Basismodell eingespeist, dessen vorletzte Schicht als Eingabe für das Regressionsmodell diente, um die endgültige, personalisierte Blickschätzung zu erhalten. Die Genauigkeit des Modells wurde über alle Teilnehmer hinweg bewertet, indem der Fehler in cm zwischen den Stimuluspositionen aus den Kalibrierungsaufgaben (Grundwahrheit) und den geschätzten Blickpositionen berechnet wurde.

Um die Auswirkung der Personalisierung auf die Genauigkeit des Modells zu testen, sammelten wir Daten von 26 Teilnehmern, während sie Stimuli auf dem Telefon betrachteten, das auf einem Geräteständer montiert war. Ähnlich wie bei typischen Eye-Tracking-Studien auf dem Desktop konzentrierten wir uns auf eine nahezu frontale Kopfhaltung (kein Neigen/Schwenken/Rollen; siehe „Methoden“, Studie 1). Abbildung 1 zeigt, wie die Genauigkeit mit der Anzahl der Kalibrierungsbilder variiert. Während das Basismodell einen hohen Fehler von 1,92 ± 0,20 cm aufweist, führte die Personalisierung mit ~100 Kalibrierungsbildern zu einer fast vierfachen Reduzierung des Fehlers auf 0,46 ± 0,03 cm (t(25) = 7,32, p = 1,13 × 10-7). Man beachte, dass 100 Kalibrierungsbilder über verschiedene Bildschirmpositionen hinweg <30 s an Daten entsprechen, was für Eye-Tracking-Studien, bei denen die Kalibrierung typischerweise zu Beginn jeder Studie durchgeführt wird (oder während der Studie, um Pausen oder große Änderungen der Haltung zu berücksichtigen), durchaus angemessen ist. Der beste Teilnehmer hatte einen Fehler von 0,23 cm, während der schlechteste Teilnehmer einen Fehler von 0,75 cm hatte (die Perzentile waren cm). Bei einem Betrachtungsabstand von 25-40 cm entspricht dies einer Genauigkeit von 0,6-1∘, was besser ist als 2,44-3∘ bei früheren Arbeiten37,38.

Abb. 1: Genauigkeit unseres Smartphone-Eye-Trackers.

a Blickschätzungsgenauigkeit (Mittelwert ± s.e.m., n = 26 Teilnehmer) verbessert sich mit # Kalibrierungsrahmen für die Personalisierung. b Fehler über verschiedene Bildschirmpositionen. Der Radius des Kreises gibt den durchschnittlichen Modellfehler an diesem Bildschirmstandort an.

Die Verbesserungen gegenüber früheren Arbeiten sind auf eine Kombination aus besserer Modellarchitektur, Kalibrierung/Personalisierung und optimalen UX-Einstellungen zurückzuführen. Insbesondere die Feinabstimmung und Personalisierung des Modells unter Verwendung von ~30 s Kalibrierungsdaten bei optimalen UX-Einstellungen (frontale Kopfhaltung, kurzer Betrachtungsabstand von 25-40 cm) führte zu großen Verbesserungen der Genauigkeit (1,92-0,46 cm). Während Änderungen in der Modellarchitektur zu bescheidenen Verbesserungen in der Genauigkeit führten (0,73 cm37 zu 0,46 cm für unser Modell, mit Feinabstimmung und Personalisierung für beide Modelle), reduzierten sie die Modellkomplexität um das 50-fache (8 M vs. 170 K Modellparameter), was es für die Implementierung auf dem Gerät geeignet macht. Somit ist unser Modell sowohl leichtgewichtig als auch genau.

Wie in Abb. 1b gezeigt, waren die Fehler über verschiedene Positionen auf dem Telefonbildschirm vergleichbar, mit etwas größeren Fehlern in Richtung der unteren Bildschirmpositionen, da die Augen tendenziell teilweise geschlossen erscheinen, wenn die Teilnehmer nach unten schauen (siehe ergänzende Abb. 1). Während diese Zahlen für Pixel 2 XL Telefone berichtet werden, wurde festgestellt, dass die Personalisierung auch bei anderen Geräten hilfreich ist (siehe ergänzende Abb. 3a). Die Abbildungen 1a und b konzentrieren sich auf die frontale Kopfhaltung, sodass das Gesicht etwa ein Drittel des Kamerarahmens abdeckt. Um die Auswirkung von Kopfhaltung und Abstand auf die Genauigkeit zu testen, analysierten wir den GazeCapture37-Datensatz auf iPhones, der eine größere Vielfalt an Kopfhaltung und Abstand bot. Wie in den ergänzenden Abbildungen 3b-e zu sehen ist, wurde die beste Leistung bei einer frontalen Kopfhaltung und einem geringeren Abstand zum Telefon erzielt (wo der Augenbereich größer erschien), und die Genauigkeit nahm mit zunehmendem Schwenken/Neigen/Drehen oder wenn sich die Teilnehmer weiter vom Telefon entfernten, ab. Daher konzentrierten sich alle Studien in dieser Arbeit auf die optimalen UX-Einstellungen, nämlich eine frontale Kopfhaltung mit einem kurzen Betrachtungsabstand von 25-40 cm zum Telefon. Auch wenn dies restriktiv erscheinen mag, ist es erwähnenswert, dass die gängigste Augenbewegungsuntersuchung8,12,14,16,18,29 oft teure Hardware und kontrolliertere Einstellungen wie Kinnstützen mit gedämpfter Innenbeleuchtung und festem Betrachtungsabstand erfordert.

Vergleich mit spezialisierten mobilen Eyetrackern

Um den Leistungsunterschied zwischen unserem Smartphone-Augentracker und hochmodernen, teuren mobilen Eyetrackern zu verstehen, haben wir unsere Methode mit der Tobii Pro 2-Brille verglichen, einem am Kopf befestigten Eyetracker mit vier Infrarotkameras in Augennähe. Wir wählten die frontale Kopfhaltung, da die Tobii-Brille in dieser Umgebung am besten funktioniert. Dreizehn Benutzer führten eine Kalibrierungsaufgabe unter vier Bedingungen durch – mit und ohne Tobii-Brille, mit einem festen Geräteständer und mit einem frei in der Hand gehaltenen Telefon (siehe Abb. 2). Mit dem festen Geräteständer war die Genauigkeit des Smartphone Eye Trackers (0,42 ± 0,03 cm) vergleichbar mit der der Tobii-Brille (0,55 ± 0,06 cm, zweiseitiger gepaarter t-Test, t(12) = -2,12, p = 0,06). Ähnliche Ergebnisse wurden in der handgehaltenen Einstellung erzielt (0,59 ± 0,03 cm bei Tobii vs. 0,50 ± 0,03 cm bei uns; t(12) = -1,53, p = 0,15). Die Fehlerverteilung pro Benutzer sowohl für die Stand- als auch für die Handeinstellung ist in der ergänzenden Abb. 4 zu finden.

Abb. 2: Vergleich zwischen der Genauigkeit der Tobii-Brille und unserem Modell.

Der Versuchsaufbau zeigt die vier Versuchsbedingungen: Der Teilnehmer (zur Veranschaulichung ein Autor) betrachtet Stimuli auf dem Telefon (auf einem Geräteständer montiert), während er eine Tobii-Brille trägt (a) und ohne (b). c, d Ähnlich wie oben, aber der Teilnehmer hält das Telefon in der Hand. e, f Genauigkeit des spezialisierten Eyetrackers (Tobii-Brille) im Vergleich zu unserem Smartphone-Augentracker (Mittelwert ± s.e.m., n = 13 Teilnehmer) für die Geräteständer- und Handheld-Einstellungen. Der statistische Vergleich zeigt keinen signifikanten Unterschied in der Genauigkeit zwischen den beiden Einstellungen (Standgerät: t(12) = -2,12, p = 0,06; Handgerät: t(12) = -1,53, p = 0,15; zweiseitiger gepaarter t-Test).

Es ist erwähnenswert, dass spezialisierte Eyetracker wie die Tobii Pro Brille eine hohe Messlatte darstellen. Dabei handelt es sich um kopfgetragene Brillen mit vier Infrarotkameras (zwei in der Nähe jedes Auges) und einer weltzentrierten Kamera. Die Eingabe besteht also aus hochauflösenden Infrarotbildern von Nahaufnahmen der Augen (in 5-10 cm Entfernung vom Auge). Im Gegensatz dazu wird bei unserer Methode die einzige nach vorne gerichtete RGB-Kamera des Smartphones verwendet, die sich in einem größeren Betrachtungsabstand (25-40 cm vom Auge) befindet, weshalb der Augenbereich klein erscheint. Trotz dieser Herausforderungen ist es vielversprechend, dass unser Smartphone-Augentracker eine vergleichbare Genauigkeit wie die modernsten mobilen Augentracker erreicht.

Validierung bei okulomotorischen Standardaufgaben

Als Forschungsvalidierung haben wir getestet, ob die wichtigsten Ergebnisse früherer Augenbewegungsforschung bei okulomotorischen Aufgaben mit großen Displays und teuren Desktop-Augentrackern mit unserer Methode auf kleinen Smartphone-Displays repliziert werden können. Zweiundzwanzig Teilnehmer führten Prosaccade-, Smooth Pursuit- und visuelle Suchaufgaben wie unten beschrieben durch (Details in „Methoden“, Studie 2). Abbildung 3a zeigt das Setup für die Prosaccade-Aufgabe. Wir berechneten die Sakkadenlatenz, eine häufig untersuchte Messgröße, als die Zeit zwischen dem Erscheinen des Reizes und der Bewegung der Augen der Teilnehmer. Wie in Abb. 3b zu sehen ist, betrug die mittlere Sakkadenlatenz 210 ms (Median 167 ms), was mit den in früheren Studien beobachteten 200-250 ms übereinstimmt41.

Abb. 3: Smartphone-Blick für okulomotorische Standardaufgaben.

a Prosaccade-Aufgabe. Jeder Versuch begann mit einer zentralen Fixation für 800 ms, woraufhin das Ziel an einer zufälligen Stelle erschien und für 1000 ms blieb. Die Teilnehmer wurden aufgefordert, zum Ziel zu sakkadieren, sobald es erschien. b Verteilung der Sakkadenlatenz bei der Prosaccade-Aufgabe. c Smooth-Pursuit-Aufgabe. Die Teilnehmer wurden gebeten, auf den grünen Punkt zu schauen, während er sich entlang eines Kreises bewegte. d Beispielhafter Scanpfad eines einzelnen Benutzers in schwarz (Grundwahrheit in grün). e Heatmap auf Populationsebene von allen Benutzern und Versuchen.

Um die Augenbewegungen bei der glatten Verfolgung zu untersuchen, wurden die Teilnehmer gebeten, zwei Arten von Aufgaben auszuführen – eine, bei der sich das Objekt gleichmäßig entlang eines Kreises bewegte, und eine andere entlang einer Box. Ähnliche Aufgaben haben sich kürzlich als nützlich für die Erkennung von Gehirnerschütterungen erwiesen42,43. Die Abbildungen 3c-e zeigen ein Beispiel für den Blickscanpfad eines zufällig ausgewählten Teilnehmers und die Heatmap auf Populationsebene für alle Benutzer und Versuche für die glatte Verfolgungsaufgabe des Kreises. In Übereinstimmung mit früherer Literatur über Desktops schnitten die Teilnehmer bei dieser Aufgabe gut ab, mit einem geringen Tracking-Fehler von 0,39 ± 0,02 cm. Ähnliche Ergebnisse wurden für die Smooth-Pursuit-Box-Aufgabe erzielt (siehe ergänzende Abb. 5).

Über einfache okulomotorische Aufgaben hinaus untersuchten wir die visuelle Suche, die seit den 1980er Jahren einen Schwerpunkt der Aufmerksamkeitsforschung darstellt12,44,45. Zwei bekannte Phänomene sind hier: (1) die Auswirkung der Zielsalienz (Unähnlichkeit oder Kontrast zwischen dem Ziel und den umgebenden ablenkenden Objekten in der Anzeige, den so genannten Distraktoren)46,47; (2) und die Auswirkung der Mengengröße (Anzahl der Objekte in der Anzeige)44,45 auf das visuelle Suchverhalten.

Um das Vorhandensein dieser Effekte bei Telefonen zu testen, haben wir Blickmuster gemessen, während 22 Teilnehmer eine Reihe von visuellen Suchaufgaben durchführten. Wir variierten systematisch die Farbintensität oder die Ausrichtung des Ziels im Verhältnis zu den Ablenkern. Wenn die Farbe (oder Ausrichtung) des Ziels den Ablenkern ähnlich war (geringe Zielsalienz), waren mehr Fixationen erforderlich, um das Ziel zu finden (siehe Abb. 4a, c). Im Gegensatz dazu waren weniger Fixationen erforderlich, wenn die Farbe (oder Ausrichtung) des Ziels sich von den Ablenkern unterschied (hohe Zielsalienz) (Abb. 4b, d). Wir stellten fest, dass die Anzahl der Fixationen zum Auffinden des Ziels bei allen Benutzern und Versuchen signifikant abnahm, wenn die Zielsalienz zunahm (siehe Abb. 4e, f für den Farbintensitätskontrast: F(3, 63) = 37,36, p < 10-5; für den Orientierungskontrast: F(3, 60) = 22,60, p < 10-5). Diese Ergebnisse bestätigen den Effekt der Zielsalienz auf die visuelle Suche, der zuvor in Desktop-Studien beobachtet wurde12,44,46,47.

Abb. 4: Smartphone-Blick während der visuellen Suche.

a, b, e Effekt des Farbkontrasts des Ziels auf die visuelle Suchleistung. a Blick-Scanpfad, wenn das Ziel einen geringen Kontrast hat (d.h., (d. h. ähnlich wie die Distraktoren). b Scanpfad, wenn das Ziel einen hohen Kontrast aufweist (anders als die Distraktoren). e Anzahl der Fixationen zum Auffinden des Ziels als Funktion des Farbkontrasts des Ziels (die Grafik zeigt Mittelwert ± s.e.m., n = 44-65 Versuche/Kontraststufe). c, d, f Ähnliche Grafiken für den Orientierungskontrast (Unterschied in der Orientierung zwischen Ziel und Distraktoren in Grad, Δθ; n = 42-63 Versuche/Kontraststufe). g Auswirkung der Setgröße. Anzahl der Fixationen, um das Ziel zu finden, während die Anzahl der Elemente in der Anzeige zwischen 5, 10 und 15 variierte; und der Orientierungskontrast des Ziels variierte von niedrig (Δθ = 7∘) über mittelhoch (Δθ = 15∘) bis sehr hoch (Δθ = 75∘). Die Grafik zeigt den Mittelwert ± s.e.m. der Anzahl der Fixationen (n = 42-63 Versuche für jede Kombination von Setgröße und Δθ).

Um die Wirkung der Setgröße auf die visuelle Suche zu testen, variierten wir die Anzahl der Items in der Anzeige von 5, 10 bis 15. Abbildung 4g zeigt, dass die Wirkung der Mengengröße von der Zielsalienz abhängt. Wenn die Zielsalienz gering ist (Orientierungsunterschied zwischen Ziel und Distraktoren, Δθ = 7∘), steigt die Anzahl der Fixationen zum Auffinden des Ziels linear mit der Setgröße (Steigung = 0,17; einseitige ANOVA mit wiederholten Messungen F(2, 40) = 3,52, p = 0,04). Im Gegensatz dazu variierte die Anzahl der Fixationen, um das Ziel zu finden, bei mittelhoher Zielsalienz (Δθ = 15∘) nicht signifikant mit der Größe der Menge (F(2, 40) = 0,85, p = 0,44). Für sehr auffällige Ziele (Δθ = 75∘) fanden wir einen negativen Effekt der Setgröße auf die Anzahl der Fixationen (Steigung = -0,06; F(2, 40) = 4,39, p = 0,02). Diese Ergebnisse stimmen mit früheren Arbeiten zu Desktops47,48,49,50 überein. Zusammenfassend lässt sich sagen, dass wir in diesem Abschnitt die wichtigsten Ergebnisse zu okulomotorischen Aufgaben wie Prosaccade, Smooth Pursuit und visuelle Suchaufgaben mit unserem Smartphone-Augentracker repliziert haben.

Validierung an natürlichen Bildern

Wir haben unsere Methode weiter validiert, indem wir getestet haben, ob frühere Ergebnisse zu Augenbewegungen für reichhaltige Stimuli wie natürliche Bilder, die von teuren Desktop-Augentrackern mit großen Displays gewonnen wurden, mit unserer Methode auf kleinen Displays wie Smartphones repliziert werden können. Einige bekannte Phänomene in Bezug auf den Blick auf natürliche Bilder sind, dass der Blick beeinflusst wird von (a) der auszuführenden Aufgabe (bekannt seit den klassischen Eye-Tracking-Experimenten von Yarbus aus dem Jahr 196730), (b) der Bedeutung von Objekten in der Szene19,51,52 und (c) der Tendenz, in der Nähe der Mitte der Szene zu fixieren51,53. Um zu testen, ob unser Smartphone-Augentracker diese Ergebnisse reproduzieren kann, haben wir Daten von 32 Teilnehmern gesammelt, während sie natürliche Bilder unter zwei verschiedenen Aufgabenbedingungen betrachteten: (1) freies Betrachten und (2) visuelle Suche nach einem Zielobjekt (siehe „Methoden“, Studie 3).

Wie erwartet, waren die Blickmuster beim freien Betrachten verstreuter und bei der visuellen Suche stärker auf das Zielobjekt und seine wahrscheinlichen Positionen ausgerichtet (siehe Abb. 5). Abb. 5, dritte Zeile, zeigt beispielsweise, dass die Teilnehmer beim freien Betrachten die Person und das Schild, auf das sie in der Szene zeigt, betrachteten, während sie bei der visuellen Suche nach einem „Auto“ das Schild mieden und stattdessen auf die Person und das Auto fixiert waren. Über alle Bilder hinweg wurde festgestellt, dass die Blickentropie beim freien Betrachten signifikant höher war als bei der visuellen Suche (16,94 ± 0,03 vs. 16,39 ± 0,04, t(119) = 11,14, p = 10-23). Eine zusätzliche Analyse der visuellen Suchleistung zeigte, dass in Übereinstimmung mit früheren Ergebnissen54 die Gesamtfixationsdauer zum Auffinden des Ziels mit der Größe des Ziels abnahm (r = -0,56, p = 10-11; n = 120 Bilder), was bestätigt, dass größere Ziele leichter zu finden sind als kleinere. Über die Größe hinaus haben wir festgestellt, dass die Dichte der Zielsalienz einen signifikanten Einfluss auf die Zeit zum Finden des Ziels hat (r = -0,30, p = 0,0011; n = 120 Bilder), d. h., d.h. auffällige Ziele sind leichter zu finden als weniger auffällige, was mit früherer Literatur übereinstimmt19.

Abb. 5: Der Blick auf natürliche Bilder hängt von der Aufgabe ab, die ausgeführt wird.

Die Spalten beziehen sich auf: a Originalbild; b Fixations-Heatmap während der freien Betrachtung; c Beispiel-Scanpfad eines einzelnen Teilnehmers für die freie Betrachtung; d Fixations-Heatmap während der visuellen Suche nach einem Zielobjekt (angegeben im Titel jedes Bildes); e Beispiel-Scanpfad eines einzelnen Teilnehmers für die visuelle Suchaufgabe.

Zweitens testeten wir das Vorhandensein der zentralen Tendenz beim freien Betrachten von natürlichen Bildern auf Smartphones. Abbildung 6a zeigt die Blickentropie über alle Bilder in dieser Studie. Beispiele für eine niedrige Blickentropie sind Bilder, die ein oder zwei hervorstechende Objekte in der Szene enthalten (z. B. eine einzelne Person oder ein Tier in der Szene), während die Bilder mit hoher Entropie mehrere Objekte von Interesse enthalten (z. B. mehrere Personen, ein Innenraum mit Möbeln). Ähnliche Ergebnisse wurden mit speziellen Desktop-Eye-Trackern51,52 erzielt. Die Mittelung der Fixationen über alle Benutzer und Bilder unseres Smartphone-Eye-Trackers ergab eine Verzerrung in der Mitte (siehe Abb. 6b), die mit der früheren Literatur über Desktops51,53 übereinstimmt.

Abb. 6: Blickentropie und Zentrumsverzerrung beim freien Betrachten von Telefonen.

a Histogramm der Blickentropie über alle Bilder für die Aufgabe des freien Betrachtens zusammen mit Beispielen von Bildern mit niedriger vs. hoher Entropie. Bilder mit hoher Entropie. b Die Mittelung der Fixierungen über alle Benutzer und Bilder zeigt eine Verzerrung in der Mitte.

Schließlich haben wir die von unserem Smartphone-Augentracker gewonnenen Blickmuster direkt mit denen verglichen, die von spezialisierten Desktop-Augentrackern wie Eyelink 1000 (unter Verwendung des OSIE-Datensatzes52) gewonnen wurden, da die Auffälligkeit mit Desktop-Augentrackern eingehend untersucht wurde19,51,52. Beachten Sie, dass dieser Vergleich eine hohe Messlatte darstellt. Der Desktop-Aufbau mit EyeLink 1000 erforderte nicht nur eine spezielle Hardware mit Infrarotlichtquelle und Infrarotkameras in Augennähe mit hoher räumlicher und zeitlicher Auflösung (bis zu 2000 Hz), sondern auch hochgradig kontrollierte Einstellungen mit Kinnstütze (und gedämpften Lichtverhältnissen) sowie die Anzeige des Bildes auf einem großen Bildschirm (22″, 33 × 25∘ Betrachtungswinkel). Im Gegensatz dazu wurde in unserer Studie die vorhandene Selfie-Kamera des Smartphones (RGB) in einer natürlicheren Umgebung (natürliche Innenbeleuchtung, keine Kinnstütze, nur ein Ständer für das Telefon) verwendet, wobei die Bilder auf einem kleinen Handy-Bildschirm (6″, mittlerer Betrachtungswinkel von 12 × 9∘) angezeigt wurden. Die beiden Versuchsanordnungen unterscheiden sich also in vielerlei Hinsicht (Großbildschirm-Desktop vs. kleiner Handy-Bildschirm, kontrollierte Einstellungen, Kosten für den Eyetracker, Abtastrate).

Trotz dieser Unterschiede haben wir festgestellt, dass die Blick-Wärmekarten aus den beiden Einstellungen qualitativ ähnlich sind. Abbildung 7 zeigt die ähnlichsten und unähnlichsten Heatmaps von Desktop und Handy (Ähnlichkeit gemessen mit Pearson-Korrelation). Unser Smartphone-Augentracker war in der Lage, ähnliche Blick-Hotspots zu erkennen wie die teuren Desktop-Pendants, wobei der Hauptunterschied darin besteht, dass die mobilen Blick-Heatmaps unschärfer erscheinen (siehe ergänzende Diskussion für weitere Analysen). Die Unschärfe ist auf eine Kombination aus dem kleinen Display auf dem Handybildschirm und der geringeren Genauigkeit bzw. dem Rauschen des Smartphone-Augentrackers (keine Kinnstütze, keine Infrarotkameras in Augennähe) zurückzuführen. Abgesehen von der Unschärfe sind die Blick-Wärmekarten von Desktop und Handy sowohl auf Pixelebene (r = 0,74) als auch auf Objektebene (r = 0,90, siehe Tabelle 1) hoch korreliert. Dies deutet darauf hin, dass unser Smartphone-Eye-Tracker zur Skalierung von Saliency-Analysen für mobile Inhalte verwendet werden könnte, und zwar sowohl für statische Bilder als auch für dynamische Inhalte (wenn die Teilnehmer scrollen und mit den Inhalten interagieren oder Videos ansehen).

Abb. 7: Vergleich zwischen mobilem und Desktop-Blick bei der natürlichen Bildbetrachtung.

Die linke Seite zeigt die ähnlichsten Heatmaps von Mobile und Desktop, während die rechte Seite die am wenigsten ähnlichen Heatmaps zeigt. Die Spalten beziehen sich auf: a und d Originalbild; b und e Heatmap des mobilen Blicks mit einer Unschärfebreite von 24 px; c und f Heatmap des Desktop-Blickes mit einer Unschärfebreite von 24 px (entsprechend 1∘ Desktop-Blickwinkel). Siehe ergänzende Abb. 9 und ergänzende Tabelle 1 für ähnliche Ergebnisse mit einer größeren Unschärfebreite von 67 px (entsprechend 1∘ mobilem Blickwinkel).

Tabelle 1 Korrelationen zwischen mobilem und Desktop-Blick.

Test mit Leseverständnisaufgabe

Über die Forschungsvalidierung an okulomotorischen Aufgaben und natürlichen Bildern hinaus haben wir getestet, ob unser Smartphone-Augentracker dabei helfen könnte, Schwierigkeiten beim Leseverständnis zu erkennen, während die Teilnehmer natürlich scrollten und Passagen am Telefon lasen. Siebzehn Teilnehmer lasen SAT-ähnliche Passagen auf dem Telefon (mit Scroll-Interaktionen) und beantworteten zwei Multiple-Choice-Fragen (siehe „Methoden“, Studie 4). Eine der Fragen war sachbezogen und konnte beantwortet werden, indem man den entsprechenden Ausschnitt im Text fand. Die andere Frage erforderte eine detailliertere Interpretation des Textes – wir nennen dies die „Interpretationsaufgabe“. Wie erwartet, stellten wir fest, dass sich die Blickmuster bei Sachfragen von denen bei Interpretationsaufgaben unterscheiden. Bei den Sachaufgaben konzentrierten sich die Blicke stärker auf bestimmte Teile des Textes, während sie bei den Interpretationsaufgaben über den gesamten Text verstreut waren (siehe Abb. 8). Über alle Nutzer und Aufgaben hinweg war die Blickentropie bei den interpretierenden Aufgaben höher als bei den faktischen Aufgaben (8,14 ± 0,16 vs. 7,71 ± 0,15; t(114) = 1,97, p = 0,05).

Abb. 8: Unterschiedliche Blickmuster bei faktischen vs. interpretativen Aufgaben.

a Beispielpassage, die dem Teilnehmer gezeigt wurde (tatsächlicher Text aus urheberrechtlichen Gründen durch Dummy ersetzt). Die grüne Bounding Box hebt den relevanten Ausschnitt für die Sachaufgabe hervor (Box nur zur Veranschaulichung gezeigt, die Teilnehmer sahen sie nicht). b Heatmap des Blicks auf Bevölkerungsebene für die Sachaufgabe, für die in (a) gezeigte Passage. c Heatmap für die Interpretationsaufgabe für die in (a) gezeigte Passage. d-f Ähnlich wie (a-c), außer dass die Sachaufgabe nach der Interpretationsaufgabe erschien. In beiden Beispielen war der Blick bei den Interpretationsaufgaben stärker über die Passage verteilt als bei den Sachaufgaben.

Bei den Sachaufgaben untersuchten wir, ob es Unterschiede in den Blickmustern gibt, wenn die Teilnehmer die Frage richtig beantworteten oder nicht. Wir stellten die Hypothese auf, dass sich der Blick der Teilnehmer, die die Frage richtig beantwortet haben, auf den relevanten Ausschnitt des Textes konzentrieren sollte, während der Blick bei falschen Antworten eher zerstreut oder auf andere Teile des Textes gerichtet sein sollte. Abbildung 9a zeigt, dass die Teilnehmer signifikant mehr Zeit damit verbrachten, die relevanten Passagen zu fixieren als die irrelevanten, wenn sie richtig antworteten (62,29 ± 3,63% Zeit auf relevante vs. 37,7 ± 3,63% auf irrelevante; t(52) = 3,38, p = 0,001). Dieser Trend kehrte sich bei falschen Antworten um, obwohl er nicht signifikant war (41,97 ± 6,99% bei relevanten vs. 58,03 ± 6,99% bei irrelevanten Aufgaben; t(12) = -1,15, p = 0,27).

Als nächstes untersuchten wir die Auswirkung der Schwierigkeit der Aufgabe auf den Blick und die Zeit bis zur Antwort. Wir quantifizierten die Aufgabenschwierigkeit als den Prozentsatz falscher Antworten pro Aufgabe (siehe ergänzende Abbildungen 6-7 für zusätzliche Maße der Aufgabenschwierigkeit, die Zeit und Genauigkeit berücksichtigen). Abbildung 9b-f zeigt beispielhafte Blick-Heatmaps für leichte und schwierige Aufgaben sowie die entsprechenden Streudiagramme verschiedener Metriken als Funktion der Aufgabenschwierigkeit. Wie erwartet, nahm die Zeit bis zur Antwort mit der Schwierigkeit der Aufgabe zu, wenn auch nicht signifikant (Spearman’s rank correlation r = 0,176, p = 0,63). Die Anzahl der Augenfixationen auf die Passage nahm mit der Aufgabenschwierigkeit zu (r = 0,67, p = 0,04). Bei näherer Betrachtung zeigte sich, dass der beste Prädiktor der Anteil der Blickzeit war, der auf dem relevanten Ausschnitt verbracht wurde (normalisiert nach Höhe), der stark negativ mit der Aufgabenschwierigkeit korreliert war (r = -0,72, p = 0,02). Mit anderen Worten: Mit zunehmender Schwierigkeit der Aufgabe verbrachten die Teilnehmer mehr Zeit damit, die irrelevanten Ausschnitte des Textes zu betrachten, bevor sie den relevanten Ausschnitt fanden, der die Antwort enthielt. Diese Ergebnisse zeigen, dass der Smartphone-gestützte Blick helfen kann, Schwierigkeiten beim Leseverständnis zu erkennen.

Abb. 9: Auswirkung der Schwierigkeit des Leseverständnisses auf den Blick bei Sachaufgaben.

a Balkenplot zeigt die prozentuale Fixationsdauer auf den relevanten Teil der Passage (normalisiert auf die Höhe), wenn die Teilnehmer die Sachfrage richtig beantworteten oder nicht. Fehlerbalken bezeichnen den Mittelwert ± s.e.m. (n = 53, 13 Aufgaben für richtige vs. falsche Antworten). b Beispiel einer Fixations-Heatmap für eine leichte Sachaufgabe; c eine schwierige Sachaufgabe. d-f Streudiagramme, die verschiedene Metriken in Abhängigkeit von der Aufgabenschwierigkeit zeigen. d Zeit zur Beantwortung der Frage in Sekunden (einschließlich der Zeit, die für das Lesen der Frage und der Passage aufgewendet wurde); e Anzahl der Fixationen auf der Passage; f prozentuale Zeit auf der relevanten Region, berechnet als prozentuale Gesamtfixationsdauer auf dem relevanten Teil der Passage (normiert durch die Höhe). Die angegebene statistische Korrelation ist der Rangkorrelationskoeffizient nach Spearman (n = 10 Aufgaben); t-Test mit zwei Schwänzen und einer Stichprobe. Das Konfidenzband stellt das bootstrapped 68%-Konfidenzintervall dar.

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht.