Precisión del modelo
Entrenamos una red neuronal convolucional feed-forward multicapa (ConvNet). El modelo toma como entrada una imagen RGB de la cámara frontal de un smartphone recortada a las regiones de los ojos, y aplica tres capas de convolución para extraer las características de la mirada. Las características se combinan en capas adicionales con puntos de referencia de las esquinas de los ojos extraídos automáticamente que indican la posición del ojo dentro de la imagen para una estimación final de la mirada en pantalla. Este modelo base se entrenó en primer lugar utilizando el conjunto de datos GazeCapture37 , disponible públicamente, y luego se afinó utilizando datos de calibración y se personalizó ajustando un modelo de regresión adicional (detalles en la sección «Métodos») a la salida de características de la mirada de la ConvNet, que se describe a continuación.
Durante la calibración, se pidió a los participantes que se fijaran en un estímulo circular verde que aparecía en una pantalla negra. El estímulo aparecía en lugares aleatorios de la pantalla. Las imágenes de la cámara frontal se grabaron a 30 Hz y las marcas de tiempo se sincronizaron con la ubicación del marcador. En la terminología de ML, las imágenes y las ubicaciones de los marcadores servían como entradas y objetivos, respectivamente. Durante la inferencia, las imágenes de la cámara se introdujeron en secuencia en el modelo base ajustado, cuya penúltima capa sirvió de entrada al modelo de regresión para obtener la estimación final y personalizada de la mirada. La precisión del modelo se evaluó en todos los participantes calculando el error en cm entre las ubicaciones de los estímulos de las tareas de calibración (verdad de base) y las ubicaciones de la mirada estimadas.
Para probar el efecto de la personalización en la precisión del modelo, recogimos datos de 26 participantes mientras veían los estímulos en el teléfono, montados en un soporte del dispositivo. Al igual que en los típicos estudios de seguimiento ocular en el escritorio, nos centramos en una posición de la cabeza casi frontal (sin inclinación/paneo/desplazamiento; véase «Métodos», estudio 1). La figura 1 muestra cómo varía la precisión con el número de marcos de calibración. Mientras que el modelo base tiene un alto error de 1,92 ± 0,20 cm, la personalización con ~100 marcos de calibración condujo a una reducción de casi cuatro veces en el error resultando en 0,46 ± 0,03 cm (t(25) = 7,32, p = 1,13 × 10-7). Obsérvese que 100 fotogramas de calibración en diferentes ubicaciones de la pantalla corresponden a <30 s de datos, lo que es bastante razonable para los estudios de seguimiento ocular en los que la calibración se realiza normalmente al principio de cada estudio (o durante el estudio para tener en cuenta las pausas o los grandes cambios de postura). El mejor participante tuvo un error de 0,23 cm, mientras que el peor tuvo un error de 0,75 cm (los percentiles fueron de cm). A una distancia de visión de 25-40 cm, esto corresponde a una precisión de 0,6-1∘, que es mejor que la de 2,44-3∘ de trabajos anteriores37,38.
Las mejoras con respecto a los trabajos anteriores se deben a una combinación de mejor arquitectura del modelo, calibración/personalización y ajustes óptimos de UX. En particular, el ajuste y la personalización del modelo utilizando ~30 s de datos de calibración con los ajustes óptimos de UX (posición frontal cercana a la cabeza, distancia de visión corta de 25-40 cm) condujo a grandes mejoras de precisión (1,92-0,46 cm). Mientras que los cambios en la arquitectura del modelo condujeron a modestas mejoras en la precisión (de 0,73 cm37 a 0,46 cm para el nuestro, con ajuste fino y personalización aplicados a ambos modelos), redujeron significativamente la complejidad del modelo en 50× (8 M frente a 170 K parámetros del modelo), haciéndolo adecuado para la implementación en el dispositivo. Por lo tanto, nuestro modelo es ligero y preciso.
Como se muestra en la Fig. 1b, los errores fueron comparables en diferentes ubicaciones de la pantalla del teléfono, con un error ligeramente mayor hacia las ubicaciones de la pantalla inferior, ya que los ojos tienden a aparecer parcialmente cerrados cuando los participantes miran hacia abajo (véase la Fig. 1 suplementaria). Aunque estas cifras se refieren a los teléfonos Pixel 2 XL, se comprobó que la personalización también ayudaba en otros dispositivos (véase la Fig. Suplementaria 3a). Las Figuras 1a, b se centraron en el headpose frontal de tal manera que la cara cubría alrededor de un tercio del marco de la cámara. Para comprobar el efecto de la postura de la cabeza y la distancia en la precisión, analizamos el conjunto de datos de GazeCapture37 en iPhones, que ofrecía más diversidad en la postura de la cabeza/distancia. Como se observa en las Figs. 3b-e, el mejor rendimiento se obtuvo con una posición de la cabeza cercana a la frontal y una distancia más corta al teléfono (en la que la región del ojo parecía más grande), y la precisión decaía con el aumento de la panorámica/inclinación/desplazamiento, o a medida que los participantes se alejaban del teléfono. Por lo tanto, todos los estudios de este trabajo se centraron en los ajustes óptimos de UX, es decir, una posición de la cabeza cercana a la frontal con distancias de visión cortas de 25 a 40 cm con respecto al teléfono. Si bien esto puede parecer restrictivo, vale la pena señalar que la configuración de seguimiento ocular más común para la investigación previa del movimiento ocular8,12,14,16,18,29 a menudo requiere un hardware costoso y configuraciones más controladas, como el apoyo de la barbilla con una iluminación interior tenue y una distancia de visualización fija.
Comparación con rastreadores oculares móviles especializados
Para comprender la diferencia de rendimiento entre nuestro rastreador ocular para teléfonos inteligentes y los costosos rastreadores oculares móviles de última generación, comparamos nuestro método con las gafas Tobii Pro 2, que es un rastreador ocular montado en la cabeza con cuatro cámaras infrarrojas cerca del ojo. Seleccionamos la posición frontal de la cabeza porque las gafas Tobii funcionan mejor en este entorno. Trece usuarios realizaron una tarea de calibración en cuatro condiciones: con y sin gafas Tobii, con un soporte de dispositivo fijo y sosteniendo libremente el teléfono en la mano (véase la Fig. 2). Con el soporte fijo del dispositivo, comprobamos que la precisión del rastreador ocular del smartphone (0,42 ± 0,03 cm) era comparable a la de las gafas Tobii (0,55 ± 0,06 cm, prueba t pareada de dos colas, t(12) = -2,12, p = 0,06). Se obtuvieron resultados similares en la configuración manual (0,59 ± 0,03 cm en Tobii frente a 0,50 ± 0,03 cm en la nuestra; t(12) = -1,53, p = 0,15). La distribución de errores por usuario para las configuraciones de soporte del dispositivo y de mano se puede encontrar en la Fig. Suplementaria 4.
Cabe destacar que los rastreadores oculares especializados como las gafas Tobii Pro representan un listón alto. Se trata de gafas montadas en la cabeza con cuatro cámaras infrarrojas (dos cerca de cada ojo) y una cámara centrada en el mundo. Por tanto, la entrada son imágenes infrarrojas de alta resolución de primeros planos de los ojos (a 5-10 cm de distancia del ojo). En cambio, nuestro método utiliza la única cámara RGB frontal del smartphone, a una distancia de visión mayor (25-40 cm del ojo), por lo que la región de los ojos parece pequeña. A pesar de estas dificultades, es prometedor que nuestro rastreador ocular para teléfonos inteligentes logre una precisión comparable a la de los rastreadores oculares móviles de última generación.
Validación en tareas oculomotoras estándar
Como validación de la investigación, probamos si los hallazgos clave de la investigación anterior sobre el movimiento ocular en tareas oculomotoras utilizando grandes pantallas y costosos rastreadores oculares de escritorio, podrían replicarse en pequeñas pantallas de teléfonos inteligentes utilizando nuestro método. Veintidós participantes realizaron tareas de prosacada, seguimiento suave y búsqueda visual como se describe a continuación (detalles en «Métodos», estudio 2). La figura 3a muestra el montaje de la tarea de prosacada. Calculamos la latencia de la sacada, una medida comúnmente estudiada, como el tiempo que transcurre desde que aparece el estímulo hasta que el participante mueve los ojos. Como se ve en la Fig. 3b, la latencia media de la sacada fue de 210 ms (mediana de 167 ms), lo que coincide con los 200-250 ms observados en estudios anteriores41.
Para investigar los movimientos oculares de seguimiento suave, se pidió a los participantes que realizaran dos tipos de tareas: una en la que el objeto se movía suavemente a lo largo de un círculo, y otra a lo largo de una caja. Recientemente se ha demostrado que tareas similares son útiles para detectar conmociones cerebrales42,43. Las figuras 3c-e muestran una muestra de la trayectoria de exploración de la mirada de un participante seleccionado al azar, y el mapa de calor a nivel de población de todos los usuarios y ensayos para la tarea de seguimiento suave del círculo. En consonancia con la literatura anterior sobre ordenadores de sobremesa, los participantes tuvieron un buen rendimiento en esta tarea, con un bajo error de seguimiento de 0,39 ± 0,02 cm. Se obtuvieron resultados similares para la tarea de caja de seguimiento suave (véase la Fig. 5 suplementaria).
Más allá de las tareas oculomotoras simples, investigamos la búsqueda visual, que ha sido un área de enfoque clave de la investigación de la atención desde la década de 198012,44,45. Dos fenómenos bien conocidos aquí son: (1) el efecto de la saliencia del objetivo (disimilitud o contraste entre el objetivo y los elementos de distracción circundantes en la pantalla, conocidos como distractores)46,47; (2) y el efecto del tamaño del conjunto (número de elementos en la pantalla)44,45 en el comportamiento de búsqueda visual.
Para probar la presencia de estos efectos en los teléfonos, medimos los patrones de la mirada mientras 22 participantes realizaban una serie de tareas de búsqueda visual. Variamos sistemáticamente la intensidad del color del objetivo o la orientación en relación con los distractores. Cuando el color (o la orientación) del objetivo era similar al de los distractores (baja saliencia del objetivo), se requerían más fijaciones para encontrar el objetivo (ver Fig. 4a, c). Por el contrario, cuando el color (o la orientación) del objetivo aparecía diferente a los distractores (alta saliencia del objetivo), se requerían menos fijaciones (Fig. 4b, d). Encontramos que en todos los usuarios y ensayos, el número de fijaciones para encontrar el objetivo disminuía significativamente a medida que la saliencia del objetivo aumentaba (ver Fig. 4e, f para el contraste de intensidad de color: F(3, 63) = 37,36, p < 10-5; para el contraste de orientación: F(3, 60) = 22,60, p < 10-5). Estos resultados confirman el efecto de la saliencia del objetivo en la búsqueda visual, observado previamente en estudios de escritorio12,44,46,47.
Para probar el efecto del tamaño del conjunto en la búsqueda visual, variamos el número de elementos en la pantalla de 5, 10 a 15. La figura 4g muestra que el efecto del tamaño del conjunto depende de la saliencia del objetivo. Cuando la saliencia del objetivo es baja (diferencia de orientación entre el objetivo y los distractores, Δθ = 7∘), el número de fijaciones para encontrar el objetivo aumenta linealmente con el tamaño del conjunto (pendiente = 0,17; ANOVA de medidas repetidas de una vía F(2, 40) = 3,52, p = 0,04). En cambio, cuando la saliencia del objetivo es media-alta (Δθ = 15∘), el número de fijaciones para encontrar el objetivo no varió significativamente con el tamaño del conjunto (F(2, 40) = 0,85, p = 0,44). En el caso de los objetivos muy salientes (Δθ = 75∘), encontramos un efecto negativo del tamaño del conjunto sobre el número de fijaciones (pendiente = -0,06; F(2, 40) = 4,39, p = 0,02). Estos resultados son coherentes con trabajos anteriores sobre escritorios47,48,49,50. En resumen, en esta sección, hemos replicado los resultados clave en tareas oculomotoras como la prosacada, el seguimiento suave y las tareas de búsqueda visual utilizando nuestro rastreador ocular para teléfonos inteligentes.
Validación en imágenes naturales
Además, hemos validado nuestro método probando si los resultados anteriores sobre los movimientos oculares para estímulos ricos, como las imágenes naturales, obtenidos a partir de costosos rastreadores oculares de escritorio con pantallas grandes, podrían replicarse en pantallas pequeñas como los teléfonos inteligentes, utilizando nuestro método. Algunos fenómenos bien conocidos sobre la mirada en imágenes naturales son que la mirada se ve afectada por (a) la tarea que se realiza (conocida desde los experimentos clásicos de seguimiento ocular de Yarbus en 196730); (b) la saliencia de los objetos en la escena19,51,52; y (c) la tendencia a fijarse cerca del centro de la escena51,53. Para comprobar si nuestro rastreador ocular para teléfonos inteligentes puede reproducir estos resultados, recogimos datos de 32 participantes mientras veían imágenes naturales en dos condiciones de tarea diferentes: (1) visión libre y (2) búsqueda visual de un objetivo (véase «Métodos», estudio 3).
Como era de esperar, los patrones de la mirada estaban más dispersos durante la visión libre, y más centrados hacia el objeto objetivo y sus posibles ubicaciones durante la búsqueda visual (véase la Fig. 5). Por ejemplo, la tercera fila de la Fig. 5 muestra que durante la visión libre, los participantes dedicaron tiempo a mirar a la persona y al cartel que señala en la escena, mientras que durante la búsqueda visual de un «coche», los participantes evitaron el cartel y se fijaron en la persona y el coche. En todas las imágenes, la entropía de la mirada fue significativamente mayor en la visión libre que en la búsqueda visual (16,94 ± 0,03 frente a 16,39 ± 0,04, t(119) = 11,14, p = 10-23). El análisis adicional del rendimiento de la búsqueda visual mostró que, en consonancia con los hallazgos anteriores54 , la duración total de la fijación para encontrar el objetivo disminuyó con el tamaño del objetivo (r = -0,56, p = 10-11; n = 120 imágenes), lo que confirma que los objetivos más grandes son más fáciles de encontrar que los más pequeños. Más allá del tamaño, encontramos que la densidad de saliencia del objetivo tiene un efecto significativo en el tiempo para encontrar el objetivo (r = -0,30, p = 0,0011; n = 120 imágenes), es decir, los objetivos más salientes son más fáciles de encontrar que los menos salientes, en consonancia con la literatura anterior19.
En segundo lugar, comprobamos la existencia de la tendencia central durante la visualización libre de imágenes naturales en smartphones. La figura 6a muestra la entropía de la mirada en todas las imágenes de este estudio. Los ejemplos de baja entropía de la mirada son imágenes que contienen uno o dos objetos destacados en la escena (por ejemplo, una sola persona o animal en la escena), mientras que las imágenes de alta entropía contienen múltiples objetos de interés (por ejemplo, varias personas, una habitación interior con muebles). Se han obtenido resultados similares con rastreadores oculares de escritorio especializados51,52. Al promediar las fijaciones de todos los usuarios y las imágenes de nuestro rastreador ocular para teléfonos inteligentes, se observó un sesgo central (véase la Fig. 6b), que coincide con la bibliografía anterior sobre ordenadores de sobremesa51,53.
Por último, dado que la saliencia se ha estudiado ampliamente utilizando rastreadores oculares de escritorio19,51,52, comparamos directamente los patrones de mirada obtenidos de nuestro rastreador ocular para teléfonos inteligentes con los obtenidos de rastreadores oculares de escritorio especializados como Eyelink 1000 (utilizando el conjunto de datos OSIE52). Obsérvese que esta comparación pone el listón muy alto. La configuración de escritorio con EyeLink 1000 no solo implicaba un hardware especializado con una fuente de luz infrarroja y cámaras infrarrojas cerca del ojo con una alta resolución espacio-temporal (hasta 2000 Hz), sino que también utilizaba una configuración muy controlada con apoyo de la barbilla (y condiciones de luz tenue), y mostraba la imagen en una pantalla grande (22″, 33 × 25∘ de ángulo de visión). Por el contrario, la configuración de nuestro estudio utilizó la cámara selfie existente del smartphone (RGB) en entornos más naturales (iluminación interior natural, sin apoyo de la barbilla, solo un soporte para el teléfono) con imágenes visualizadas en una pantalla móvil pequeña (6″, ángulo de visión medio de 12 × 9∘). Por lo tanto, las dos configuraciones difieren en varios aspectos (pantalla grande de escritorio frente a pantalla pequeña de móvil, ajustes controlados, coste del rastreador ocular, frecuencia de muestreo).
A pesar de estas diferencias, encontramos que los mapas de calor de la mirada de las dos configuraciones son cualitativamente similares. La figura 7 muestra los mapas térmicos más similares y disímiles de los ordenadores de sobremesa frente a los móviles (similitud medida mediante la correlación de Pearson). Nuestro rastreador ocular para teléfonos inteligentes fue capaz de detectar puntos calientes de la mirada similares a los de los ordenadores de sobremesa, con la diferencia clave de que los mapas térmicos de la mirada en el móvil aparecen más borrosos (véase la Discusión Suplementaria para un análisis más detallado). La borrosidad se debe a una combinación del pequeño tamaño de la pantalla del móvil y a la menor precisión/ruido del rastreador ocular del smartphone (sin mentonera, sin cámaras infrarrojas cerca del ojo). Aparte del desenfoque, los mapas térmicos de la mirada del ordenador de sobremesa y del móvil están muy correlacionados tanto a nivel de píxel (r = 0,74) como a nivel de objeto (r = 0,90, véase la Tabla 1). Esto sugiere que nuestro rastreador ocular para smartphones podría utilizarse para escalar los análisis de saliencia en contenidos móviles, tanto para imágenes estáticas como para contenidos dinámicos (a medida que los participantes se desplazan e interactúan con el contenido, o ven vídeos).
Prueba en la tarea de comprensión lectora
Más allá de la validación de la investigación en tareas oculomotoras e imágenes naturales, probamos si nuestro rastreador ocular para teléfonos inteligentes podía ayudar a detectar la dificultad de comprensión lectora, mientras los participantes se desplazaban naturalmente y leían pasajes en el teléfono. Diecisiete participantes leyeron pasajes de tipo SAT en el teléfono (con interacciones de desplazamiento) y respondieron a dos preguntas de opción múltiple (véase «Métodos», estudio 4). Una de las preguntas era objetiva y podía responderse encontrando el fragmento relevante dentro del pasaje. La otra pregunta requería interpretar el pasaje con más detalle, lo que denominamos tarea «interpretativa». Como era de esperar, descubrimos que los patrones de mirada son diferentes para las tareas fácticas y las interpretativas. Los patrones de la mirada se centraban más en partes específicas del pasaje en el caso de las tareas factuales, y se dispersaban más por el pasaje en el caso de las tareas interpretativas (véase la Fig. 8). En todos los usuarios y tareas, la entropía de la mirada fue mayor en las tareas interpretativas que en las factuales (8,14 ± 0,16 frente a 7,71 ± 0,15; t(114) = 1,97, p = 0,05).
Dentro de las tareas factuales, examinamos si había diferencias en los patrones de la mirada cuando los participantes respondían a la pregunta correctamente o no. Nuestra hipótesis es que la mirada debería centrarse en el fragmento relevante del pasaje para los participantes que respondieron correctamente, y la mirada debería estar más dispersa o centrada en otras partes del pasaje para las respuestas incorrectas. La figura 9a muestra que los participantes pasaron significativamente más tiempo fijando la mirada en las regiones relevantes del pasaje que en las irrelevantes cuando respondieron correctamente (62,29 ± 3,63% de tiempo en las relevantes frente a 37,7 ± 3,63% en las irrelevantes; t(52) = 3,38, p = 0,001). Esta tendencia se invirtió para las respuestas erróneas, aunque no fue significativa (41,97 ± 6,99% en las relevantes frente a 58,03 ± 6,99% en las irrelevantes; t(12) = -1,15, p = 0,27).
A continuación, examinamos el efecto de la dificultad de la tarea sobre la mirada y el tiempo de respuesta. Cuantificamos la dificultad de la tarea como el % de respuestas incorrectas por tarea (véanse las Figuras suplementarias 6-7 para medidas adicionales de la dificultad de la tarea que tienen en cuenta el tiempo y la precisión). La Figura 9b-f muestra ejemplos de mapas de calor de la mirada para tareas fáciles frente a difíciles, y los correspondientes gráficos de dispersión de varias métricas en función de la dificultad de la tarea. Como se esperaba, el tiempo de respuesta aumentó con la dificultad de la tarea, aunque no significativamente (correlación de rango de Spearman r = 0,176, p = 0,63). El número de fijaciones oculares en el pasaje aumentó con la dificultad de la tarea (r = 0,67, p = 0,04). Un análisis más detallado mostró que el mejor predictor era la fracción de tiempo de la mirada que se dedicaba al fragmento relevante (normalizado por la altura), que estaba fuertemente correlacionado de forma negativa con la dificultad de la tarea (r = -0,72, p = 0,02). En otras palabras, a medida que aumentaba la dificultad de la tarea, los participantes pasaban más tiempo mirando los fragmentos irrelevantes del pasaje antes de encontrar el fragmento relevante que contenía la respuesta. Estos resultados muestran que la mirada basada en el smartphone puede ayudar a detectar la dificultad de comprensión lectora.