Précision du modèle
Nous avons formé un réseau de neurones convolutifs multi-couches de type feed-forward (ConvNet). Le modèle prend en entrée une image RVB de la caméra frontale d’un smartphone recadrée aux régions des yeux, et applique trois couches de convolution pour extraire les caractéristiques du regard. Les caractéristiques sont combinées dans des couches supplémentaires avec des points de repère des coins des yeux extraits automatiquement et indiquant la position des yeux dans l’image pour une estimation finale du regard à l’écran. Ce modèle de base a d’abord été entraîné à l’aide de l’ensemble de données GazeCapture disponible publiquement37, puis affiné à l’aide de données d’étalonnage et personnalisé par l’ajustement d’un modèle de régression supplémentaire (détails dans la section « Méthodes ») à la sortie des caractéristiques du regard du ConvNet, décrit ci-dessous.
Lors de l’étalonnage, les participants ont été invités à fixer un stimulus circulaire vert qui apparaissait sur un écran noir. Le stimulus apparaissait à des emplacements aléatoires sur l’écran. Les images de la caméra frontale étaient enregistrées à 30 Hz et les timestamps synchronisés avec l’emplacement du marqueur. Dans la terminologie ML, les images et les emplacements des marqueurs servent d’entrées et de cibles, respectivement. Pendant l’inférence, les images de la caméra ont été transmises en séquence au modèle de base affiné, dont l’avant-dernière couche a servi d’entrée au modèle de régression pour obtenir l’estimation finale et personnalisée du regard. La précision du modèle a été évaluée pour tous les participants en calculant l’erreur en cm entre les emplacements des stimuli provenant des tâches d’étalonnage (vérité terrain) et les emplacements estimés du regard.
Pour tester l’effet de la personnalisation sur la précision du modèle, nous avons recueilli des données auprès de 26 participants alors qu’ils regardaient des stimuli sur le téléphone, monté sur un support de dispositif. Comme pour les études d’eye tracking typiques sur le bureau, nous nous sommes concentrés sur une pose de tête quasi frontale (pas de tilt/pan/roll ; voir » Méthodes « , étude 1). La figure 1 montre comment la précision varie en fonction du nombre de cadres d’étalonnage. Alors que le modèle de base présente une erreur élevée de 1,92 ± 0,20 cm, la personnalisation avec ~100 cadres d’étalonnage a permis de réduire l’erreur de près de quatre fois, soit 0,46 ± 0,03 cm (t(25) = 7,32, p = 1,13 × 10-7). Notez que 100 cadres d’étalonnage sur différents emplacements d’écran correspondent à <30 s de données, ce qui est tout à fait raisonnable pour les études de suivi oculaire où l’étalonnage est généralement effectué au début de chaque étude (ou pendant l’étude pour tenir compte des pauses ou des grands changements de pose). Le meilleur participant avait une erreur de 0,23 cm, tandis que le pire participant avait une erreur de 0,75 cm (les percentiles étaient en cm). À une distance d’observation de 25-40 cm, cela correspond à une précision de 0,6-1∘, ce qui est meilleur que 2,44-3∘ pour les travaux précédents37,38.
Les améliorations par rapport aux travaux précédents sont dues à une combinaison d’une meilleure architecture de modèle, d’une calibration/personnalisation et de paramètres UX optimaux. En particulier, le réglage fin et la personnalisation du modèle à l’aide de ~30 s de données d’étalonnage dans des paramètres UX optimaux (exposition frontale proche de la tête, courte distance de visualisation de 25-40 cm) ont conduit à de grandes améliorations de la précision (1,92-0,46 cm). Si les modifications apportées à l’architecture du modèle ont entraîné des améliorations modestes de la précision (de 0,73 cm37 à 0,46 cm pour le nôtre, avec un réglage fin et une personnalisation appliqués aux deux modèles), elles ont considérablement réduit la complexité du modèle de 50 fois (8 M contre 170 K paramètres de modèle), ce qui permet de le mettre en œuvre sur un appareil. Ainsi, notre modèle est à la fois léger et précis.
Comme le montre la figure 1b, les erreurs étaient comparables à différents emplacements sur l’écran du téléphone, avec une erreur légèrement plus importante vers les emplacements de l’écran inférieur puisque les yeux ont tendance à apparaître partiellement fermés lorsque les participants regardent vers le bas (voir la figure supplémentaire 1). Bien que ces chiffres soient rapportés pour les téléphones Pixel 2 XL, la personnalisation s’est avérée utile sur d’autres appareils également (voir la figure supplémentaire 3a). Les figures 1a, b se sont concentrées sur la headpose frontale telle que le visage couvrait environ un tiers du cadre de la caméra. Pour tester l’effet de la position de la tête et de la distance sur la précision, nous avons analysé l’ensemble de données GazeCapture37 sur les iPhones, qui offrait une plus grande diversité en termes de position de la tête et de distance. Comme le montrent les figures supplémentaires 3b-e, les meilleures performances ont été obtenues pour une position de tête quasi frontale et une distance plus courte par rapport au téléphone (où la région de l’œil apparaît plus grande), et la précision a diminué avec l’augmentation du pan/tilt/roll, ou lorsque les participants s’éloignaient du téléphone. Ainsi, toutes les études présentées dans ce document se sont concentrées sur les paramètres optimaux de l’UX, à savoir une position de la tête proche de l’avant et une courte distance de visualisation de 25 à 40 cm par rapport au téléphone. Bien que cela puisse sembler restrictif, il convient de noter que la configuration de suivi oculaire la plus courante pour les recherches antérieures sur les mouvements oculaires8,12,14,16,18,29 nécessite souvent un matériel coûteux et des paramètres plus contrôlés, tels qu’une mentonnière avec un faible éclairage intérieur et une distance de visualisation fixe.
Comparaison avec les trackers oculaires mobiles spécialisés
Pour comprendre l’écart de performance entre notre tracker oculaire de smartphone et les trackers oculaires mobiles de pointe et coûteux, nous avons comparé notre méthode aux lunettes Tobii Pro 2 qui est un tracker oculaire monté sur la tête avec quatre caméras infrarouges près de l’œil. Nous avons choisi la position frontale de la tête car les lunettes Tobii fonctionnent mieux dans ce contexte. Treize utilisateurs ont effectué une tâche d’étalonnage dans quatre conditions : avec et sans lunettes Tobii, avec un support fixe et en tenant librement le téléphone dans la main (voir figure 2). Avec le support de dispositif fixe, nous avons constaté que la précision de l’eye tracker du smartphone (0,42 ± 0,03 cm) était comparable à celle des lunettes Tobii (0,55 ± 0,06 cm, test t apparié bilatéral, t(12) = -2,12, p = 0,06). Des résultats similaires ont été obtenus dans le cadre du réglage manuel (0,59 ± 0,03 cm avec les lunettes Tobii contre 0,50 ± 0,03 cm avec les nôtres ; t(12) = -1,53, p = 0,15). La distribution d’erreur par utilisateur pour les réglages du support du dispositif et de la main se trouve dans la figure supplémentaire 4.
Il convient de noter que les eye trackers spécialisés comme les lunettes Tobii Pro représentent une barre élevée. Ce sont des lunettes montées sur la tête avec quatre caméras infrarouges (deux près de chaque œil) et une caméra centrée sur le monde. L’entrée est donc constituée d’images infrarouges haute résolution de gros plans des yeux (à une distance de 5 à 10 cm de l’œil). En revanche, notre méthode utilise l’unique caméra RVB frontale du smartphone, à une distance plus grande (25-40 cm de l’œil), ce qui fait que la région de l’œil semble petite. Malgré ces défis, il est prometteur que notre eye tracker pour smartphone atteigne une précision comparable à celle des eye trackers mobiles de pointe.
Validation sur des tâches oculomotrices standard
En guise de validation de la recherche, nous avons testé si les principaux résultats des recherches précédentes sur les mouvements oculaires sur des tâches oculomotrices utilisant de grands écrans et des eye trackers de bureau coûteux, pouvaient être reproduits sur de petits écrans de smartphone en utilisant notre méthode. Vingt-deux participants ont effectué des tâches de prosaccade, de poursuite fluide et de recherche visuelle comme décrit ci-dessous (détails dans « Méthodes », étude 2). La figure 3a montre la configuration de la tâche de prosaccade. Nous avons calculé la latence de la saccade, une mesure couramment étudiée, comme le temps entre l’apparition du stimulus et le moment où le participant bouge les yeux. Comme on peut le voir sur la figure 3b, la latence moyenne des saccades était de 210 ms (médiane 167 ms), ce qui est cohérent avec les 200-250 ms observés dans des études précédentes41.
Pour étudier les mouvements oculaires de poursuite lisse, on a demandé aux participants d’effectuer deux types de tâches – l’une où l’objet se déplaçait de manière fluide le long d’un cercle, et l’autre le long d’une boîte. Des tâches similaires ont récemment été démontrées comme étant utiles pour détecter une commotion cérébrale42,43. Les figures 3c-e montrent un exemple de trajectoire de balayage du regard d’un participant sélectionné au hasard, et la carte thermique au niveau de la population de tous les utilisateurs et essais pour la tâche de poursuite fluide le long d’un cercle. Conformément à la littérature précédente sur les ordinateurs de bureau, les participants ont obtenu de bons résultats dans cette tâche, avec une faible erreur de suivi de 0,39 ± 0,02 cm. Des résultats similaires ont été obtenus pour la tâche de la boîte de poursuite lisse (voir la figure supplémentaire 5).
Au delà des tâches oculomotrices simples, nous avons étudié la recherche visuelle qui a été un domaine clé de la recherche sur l’attention depuis les années 198012,44,45. Deux phénomènes bien connus ici sont : (1) l’effet de la saillance de la cible (dissimilarité ou contraste entre la cible et les éléments distrayants environnants dans l’affichage, connus sous le nom de distracteurs)46,47 ; (2) et l’effet de la taille de l’ensemble (nombre d’éléments dans l’affichage)44,45 sur le comportement de recherche visuelle.
Pour tester la présence de ces effets sur les téléphones, nous avons mesuré les modèles de regard pendant que 22 participants effectuaient une série de tâches de recherche visuelle. Nous avons systématiquement fait varier l’intensité de la couleur de la cible ou son orientation par rapport aux distracteurs. Lorsque la couleur (ou l’orientation) de la cible était similaire à celle des distracteurs (faible saillance de la cible), davantage de fixations étaient nécessaires pour trouver la cible (voir Fig. 4a, c). En revanche, lorsque la couleur (ou l’orientation) de la cible était différente de celle des distracteurs (salacité élevée de la cible), moins de fixations étaient nécessaires (Fig. 4b, d). Nous avons constaté que pour tous les utilisateurs et tous les essais, le nombre de fixations pour trouver la cible diminuait de manière significative lorsque la salacité de la cible augmentait (voir Fig. 4e, f pour le contraste d’intensité de la couleur : F(3, 63) = 37.36, p < 10-5 ; pour le contraste d’orientation : F(3, 60) = 22,60, p < 10-5). Ces résultats confirment l’effet de la saillance de la cible sur la recherche visuelle, précédemment observé dans des études de bureau12,44,46,47.
Pour tester l’effet de la taille de l’ensemble sur la recherche visuelle, nous avons fait varier le nombre d’éléments dans l’affichage de 5, 10 à 15. La figure 4g montre que l’effet de la taille de l’ensemble dépend de la saillance de la cible. Lorsque la salacité de la cible est faible (différence d’orientation entre la cible et les distracteurs, Δθ = 7∘), le nombre de fixations pour trouver la cible augmente linéairement avec la taille de l’ensemble (pente = 0,17 ; ANOVA à mesures répétées à sens unique F(2, 40) = 3,52, p = 0,04). En revanche, lorsque la salacité de la cible est moyennement élevée (Δθ = 15∘), le nombre de fixations pour trouver la cible ne varie pas significativement avec la taille de l’ensemble (F(2, 40) = 0,85, p = 0,44). Pour les cibles très fortement saillantes (Δθ = 75∘), nous avons trouvé un effet négatif de la taille de l’ensemble sur le nombre de fixations (pente = -0,06 ; F(2, 40) = 4,39, p = 0,02). Ces résultats sont cohérents avec les travaux précédents sur les ordinateurs de bureau47,48,49,50. Pour résumer, dans cette section, nous avons reproduit les principaux résultats sur les tâches oculomotrices telles que la prosaccade, la poursuite lisse et les tâches de recherche visuelle en utilisant notre eye tracker de smartphone.
Validation sur les images naturelles
Nous avons en outre validé notre méthode en testant si les résultats précédents sur les mouvements oculaires pour les stimuli riches tels que les images naturelles, obtenus à partir d’eye trackers de bureau coûteux avec de grands écrans pourraient être reproduits sur de petits écrans tels que les smartphones, en utilisant notre méthode. Certains phénomènes bien connus concernant le regard sur les images naturelles sont que le regard est affecté par (a) la tâche effectuée (connu depuis les expériences classiques de suivi des yeux par Yarbus en 196730) ; (b) la saillance des objets dans la scène19,51,52 ; et (c) la tendance à fixer près du centre de la scène51,53. Pour vérifier si l’eye tracker de notre smartphone peut reproduire ces résultats, nous avons recueilli des données auprès de 32 participants alors qu’ils regardaient des images naturelles dans deux conditions de tâches différentes : (1) visualisation libre et (2) recherche visuelle d’une cible (voir « Méthodes », étude 3).
Comme prévu, les modèles de regard étaient plus dispersés pendant la visualisation libre, et plus concentrés vers l’objet cible et ses emplacements probables pendant la recherche visuelle (voir Fig. 5). Par exemple, la troisième ligne de la Fig. 5 montre que pendant la visualisation libre, les participants ont passé du temps à regarder la personne et le panneau qu’elle désigne dans la scène, alors que pendant la recherche visuelle d’une « voiture », les participants ont évité le panneau et se sont plutôt fixés sur la personne et la voiture. Sur l’ensemble des images, l’entropie du regard était significativement plus élevée pour le visionnage libre que pour la recherche visuelle (16,94 ± 0,03 contre 16,39 ± 0,04, t(119) = 11,14, p = 10-23). Une analyse supplémentaire de la performance de recherche visuelle a montré que, conformément aux résultats précédents54, la durée totale de fixation pour trouver la cible diminue avec la taille de la cible (r = -0.56, p = 10-11 ; n = 120 images), confirmant que les cibles plus grandes sont plus faciles à trouver que les plus petites. Au-delà de la taille, nous avons constaté que la densité de la saillance de la cible a un effet significatif sur le temps nécessaire pour trouver la cible (r = -0.30, p = 0.0011 ; n = 120 images), c’est-à-dire, les cibles plus saillantes sont plus faciles à trouver que celles qui le sont moins, ce qui est cohérent avec la littérature précédente19.
Deuxièmement, nous avons testé l’existence de la tendance centrale pendant la visualisation libre d’images naturelles sur smartphone. La figure 6a montre l’entropie du regard sur l’ensemble des images de cette étude. Les exemples de faible entropie du regard sont les images contenant un ou deux objets saillants dans la scène (par exemple, une seule personne ou un seul animal dans la scène), tandis que les images à forte entropie contiennent plusieurs objets d’intérêt (par exemple, plusieurs personnes, une pièce intérieure avec des meubles). Des résultats similaires ont été rapportés avec des oculomètres de bureau spécialisés51,52. La moyenne des fixations de tous les utilisateurs et des images de notre eye tracker pour smartphone a révélé un biais central (voir la figure 6b), cohérent avec la littérature précédente sur les ordinateurs de bureau51,53.