Précision du modèle

Nous avons formé un réseau de neurones convolutifs multi-couches de type feed-forward (ConvNet). Le modèle prend en entrée une image RVB de la caméra frontale d’un smartphone recadrée aux régions des yeux, et applique trois couches de convolution pour extraire les caractéristiques du regard. Les caractéristiques sont combinées dans des couches supplémentaires avec des points de repère des coins des yeux extraits automatiquement et indiquant la position des yeux dans l’image pour une estimation finale du regard à l’écran. Ce modèle de base a d’abord été entraîné à l’aide de l’ensemble de données GazeCapture disponible publiquement37, puis affiné à l’aide de données d’étalonnage et personnalisé par l’ajustement d’un modèle de régression supplémentaire (détails dans la section « Méthodes ») à la sortie des caractéristiques du regard du ConvNet, décrit ci-dessous.

Lors de l’étalonnage, les participants ont été invités à fixer un stimulus circulaire vert qui apparaissait sur un écran noir. Le stimulus apparaissait à des emplacements aléatoires sur l’écran. Les images de la caméra frontale étaient enregistrées à 30 Hz et les timestamps synchronisés avec l’emplacement du marqueur. Dans la terminologie ML, les images et les emplacements des marqueurs servent d’entrées et de cibles, respectivement. Pendant l’inférence, les images de la caméra ont été transmises en séquence au modèle de base affiné, dont l’avant-dernière couche a servi d’entrée au modèle de régression pour obtenir l’estimation finale et personnalisée du regard. La précision du modèle a été évaluée pour tous les participants en calculant l’erreur en cm entre les emplacements des stimuli provenant des tâches d’étalonnage (vérité terrain) et les emplacements estimés du regard.

Pour tester l’effet de la personnalisation sur la précision du modèle, nous avons recueilli des données auprès de 26 participants alors qu’ils regardaient des stimuli sur le téléphone, monté sur un support de dispositif. Comme pour les études d’eye tracking typiques sur le bureau, nous nous sommes concentrés sur une pose de tête quasi frontale (pas de tilt/pan/roll ; voir  » Méthodes « , étude 1). La figure 1 montre comment la précision varie en fonction du nombre de cadres d’étalonnage. Alors que le modèle de base présente une erreur élevée de 1,92 ± 0,20 cm, la personnalisation avec ~100 cadres d’étalonnage a permis de réduire l’erreur de près de quatre fois, soit 0,46 ± 0,03 cm (t(25) = 7,32, p = 1,13 × 10-7). Notez que 100 cadres d’étalonnage sur différents emplacements d’écran correspondent à <30 s de données, ce qui est tout à fait raisonnable pour les études de suivi oculaire où l’étalonnage est généralement effectué au début de chaque étude (ou pendant l’étude pour tenir compte des pauses ou des grands changements de pose). Le meilleur participant avait une erreur de 0,23 cm, tandis que le pire participant avait une erreur de 0,75 cm (les percentiles étaient en cm). À une distance d’observation de 25-40 cm, cela correspond à une précision de 0,6-1∘, ce qui est meilleur que 2,44-3∘ pour les travaux précédents37,38.

Fig. 1 : Précision de notre eye tracker pour smartphone.

a Précision de l’estimation du regard (moyenne ± s.e.m., n = 26 participants) s’améliore avec # cadres d’étalonnage pour la personnalisation. b Erreur à travers différents emplacements d’écran. Le rayon du cercle indique l’erreur moyenne du modèle à cet emplacement de l’écran.

Les améliorations par rapport aux travaux précédents sont dues à une combinaison d’une meilleure architecture de modèle, d’une calibration/personnalisation et de paramètres UX optimaux. En particulier, le réglage fin et la personnalisation du modèle à l’aide de ~30 s de données d’étalonnage dans des paramètres UX optimaux (exposition frontale proche de la tête, courte distance de visualisation de 25-40 cm) ont conduit à de grandes améliorations de la précision (1,92-0,46 cm). Si les modifications apportées à l’architecture du modèle ont entraîné des améliorations modestes de la précision (de 0,73 cm37 à 0,46 cm pour le nôtre, avec un réglage fin et une personnalisation appliqués aux deux modèles), elles ont considérablement réduit la complexité du modèle de 50 fois (8 M contre 170 K paramètres de modèle), ce qui permet de le mettre en œuvre sur un appareil. Ainsi, notre modèle est à la fois léger et précis.

Comme le montre la figure 1b, les erreurs étaient comparables à différents emplacements sur l’écran du téléphone, avec une erreur légèrement plus importante vers les emplacements de l’écran inférieur puisque les yeux ont tendance à apparaître partiellement fermés lorsque les participants regardent vers le bas (voir la figure supplémentaire 1). Bien que ces chiffres soient rapportés pour les téléphones Pixel 2 XL, la personnalisation s’est avérée utile sur d’autres appareils également (voir la figure supplémentaire 3a). Les figures 1a, b se sont concentrées sur la headpose frontale telle que le visage couvrait environ un tiers du cadre de la caméra. Pour tester l’effet de la position de la tête et de la distance sur la précision, nous avons analysé l’ensemble de données GazeCapture37 sur les iPhones, qui offrait une plus grande diversité en termes de position de la tête et de distance. Comme le montrent les figures supplémentaires 3b-e, les meilleures performances ont été obtenues pour une position de tête quasi frontale et une distance plus courte par rapport au téléphone (où la région de l’œil apparaît plus grande), et la précision a diminué avec l’augmentation du pan/tilt/roll, ou lorsque les participants s’éloignaient du téléphone. Ainsi, toutes les études présentées dans ce document se sont concentrées sur les paramètres optimaux de l’UX, à savoir une position de la tête proche de l’avant et une courte distance de visualisation de 25 à 40 cm par rapport au téléphone. Bien que cela puisse sembler restrictif, il convient de noter que la configuration de suivi oculaire la plus courante pour les recherches antérieures sur les mouvements oculaires8,12,14,16,18,29 nécessite souvent un matériel coûteux et des paramètres plus contrôlés, tels qu’une mentonnière avec un faible éclairage intérieur et une distance de visualisation fixe.

Comparaison avec les trackers oculaires mobiles spécialisés

Pour comprendre l’écart de performance entre notre tracker oculaire de smartphone et les trackers oculaires mobiles de pointe et coûteux, nous avons comparé notre méthode aux lunettes Tobii Pro 2 qui est un tracker oculaire monté sur la tête avec quatre caméras infrarouges près de l’œil. Nous avons choisi la position frontale de la tête car les lunettes Tobii fonctionnent mieux dans ce contexte. Treize utilisateurs ont effectué une tâche d’étalonnage dans quatre conditions : avec et sans lunettes Tobii, avec un support fixe et en tenant librement le téléphone dans la main (voir figure 2). Avec le support de dispositif fixe, nous avons constaté que la précision de l’eye tracker du smartphone (0,42 ± 0,03 cm) était comparable à celle des lunettes Tobii (0,55 ± 0,06 cm, test t apparié bilatéral, t(12) = -2,12, p = 0,06). Des résultats similaires ont été obtenus dans le cadre du réglage manuel (0,59 ± 0,03 cm avec les lunettes Tobii contre 0,50 ± 0,03 cm avec les nôtres ; t(12) = -1,53, p = 0,15). La distribution d’erreur par utilisateur pour les réglages du support du dispositif et de la main se trouve dans la figure supplémentaire 4.

Fig. 2 : Comparaison entre la précision des lunettes Tobii par rapport à notre modèle.

La configuration de l’étude montre les quatre conditions expérimentales : Le participant (un auteur à des fins de visualisation) visualise les stimuli sur le téléphone (monté sur un support de dispositif) tout en portant des lunettes Tobii (a) et sans (b). c, d Similaire à ce qui précède, mais le participant tient le téléphone dans la main. e, f Précision de l’eye tracker spécialisé (lunettes Tobii) par rapport à notre eye tracker de smartphone (moyenne ± s.e.m., n = 13 participants) pour les réglages du support de dispositif et de la main. La comparaison statistique ne montre aucune différence significative dans la précision entre les deux réglages (dispositif stand : t(12) = -2,12, p = 0,06 ; hand-held : t(12) = -1,53, p = 0,15 ; test t apparié bilatéral).

Il convient de noter que les eye trackers spécialisés comme les lunettes Tobii Pro représentent une barre élevée. Ce sont des lunettes montées sur la tête avec quatre caméras infrarouges (deux près de chaque œil) et une caméra centrée sur le monde. L’entrée est donc constituée d’images infrarouges haute résolution de gros plans des yeux (à une distance de 5 à 10 cm de l’œil). En revanche, notre méthode utilise l’unique caméra RVB frontale du smartphone, à une distance plus grande (25-40 cm de l’œil), ce qui fait que la région de l’œil semble petite. Malgré ces défis, il est prometteur que notre eye tracker pour smartphone atteigne une précision comparable à celle des eye trackers mobiles de pointe.

Validation sur des tâches oculomotrices standard

En guise de validation de la recherche, nous avons testé si les principaux résultats des recherches précédentes sur les mouvements oculaires sur des tâches oculomotrices utilisant de grands écrans et des eye trackers de bureau coûteux, pouvaient être reproduits sur de petits écrans de smartphone en utilisant notre méthode. Vingt-deux participants ont effectué des tâches de prosaccade, de poursuite fluide et de recherche visuelle comme décrit ci-dessous (détails dans « Méthodes », étude 2). La figure 3a montre la configuration de la tâche de prosaccade. Nous avons calculé la latence de la saccade, une mesure couramment étudiée, comme le temps entre l’apparition du stimulus et le moment où le participant bouge les yeux. Comme on peut le voir sur la figure 3b, la latence moyenne des saccades était de 210 ms (médiane 167 ms), ce qui est cohérent avec les 200-250 ms observés dans des études précédentes41.

Fig. 3 : Regard du Smartphone pour les tâches oculomotrices standard.

a Tâche de prosaccade. Chaque essai commençait par une fixation centrale pendant 800 ms, après quoi la cible apparaissait à un endroit aléatoire et restait pendant 1000 ms. On demandait aux participants de saccader vers la cible dès qu’elle apparaissait. b Distribution de la latence de saccade pour la tâche de prosaccade. c Tâche de poursuite lisse. On a demandé aux participants de regarder le point vert alors qu’il se déplaçait le long d’un cercle. d Exemple de parcours de balayage d’un seul utilisateur représenté en noir (vérité de base en vert). e Carte thermique au niveau de la population de tous les utilisateurs et essais.

Pour étudier les mouvements oculaires de poursuite lisse, on a demandé aux participants d’effectuer deux types de tâches – l’une où l’objet se déplaçait de manière fluide le long d’un cercle, et l’autre le long d’une boîte. Des tâches similaires ont récemment été démontrées comme étant utiles pour détecter une commotion cérébrale42,43. Les figures 3c-e montrent un exemple de trajectoire de balayage du regard d’un participant sélectionné au hasard, et la carte thermique au niveau de la population de tous les utilisateurs et essais pour la tâche de poursuite fluide le long d’un cercle. Conformément à la littérature précédente sur les ordinateurs de bureau, les participants ont obtenu de bons résultats dans cette tâche, avec une faible erreur de suivi de 0,39 ± 0,02 cm. Des résultats similaires ont été obtenus pour la tâche de la boîte de poursuite lisse (voir la figure supplémentaire 5).

Au delà des tâches oculomotrices simples, nous avons étudié la recherche visuelle qui a été un domaine clé de la recherche sur l’attention depuis les années 198012,44,45. Deux phénomènes bien connus ici sont : (1) l’effet de la saillance de la cible (dissimilarité ou contraste entre la cible et les éléments distrayants environnants dans l’affichage, connus sous le nom de distracteurs)46,47 ; (2) et l’effet de la taille de l’ensemble (nombre d’éléments dans l’affichage)44,45 sur le comportement de recherche visuelle.

Pour tester la présence de ces effets sur les téléphones, nous avons mesuré les modèles de regard pendant que 22 participants effectuaient une série de tâches de recherche visuelle. Nous avons systématiquement fait varier l’intensité de la couleur de la cible ou son orientation par rapport aux distracteurs. Lorsque la couleur (ou l’orientation) de la cible était similaire à celle des distracteurs (faible saillance de la cible), davantage de fixations étaient nécessaires pour trouver la cible (voir Fig. 4a, c). En revanche, lorsque la couleur (ou l’orientation) de la cible était différente de celle des distracteurs (salacité élevée de la cible), moins de fixations étaient nécessaires (Fig. 4b, d). Nous avons constaté que pour tous les utilisateurs et tous les essais, le nombre de fixations pour trouver la cible diminuait de manière significative lorsque la salacité de la cible augmentait (voir Fig. 4e, f pour le contraste d’intensité de la couleur : F(3, 63) = 37.36, p < 10-5 ; pour le contraste d’orientation : F(3, 60) = 22,60, p < 10-5). Ces résultats confirment l’effet de la saillance de la cible sur la recherche visuelle, précédemment observé dans des études de bureau12,44,46,47.

Fig. 4 : Regard du Smartphone pendant la recherche visuelle.

a, b, e Effet du contraste de couleur de la cible sur la performance de recherche visuelle. a Parcours de balayage du regard lorsque la cible a un faible contraste (c’est-à-dire, similaire aux distracteurs). b Parcours du regard lorsque la cible présente un contraste élevé (différent des distracteurs). e Nombre de fixations pour trouver la cible en fonction du contraste de couleur de la cible (le graphique montre la moyenne ± s.e.m., n = 44-65 essais/niveau de contraste). c, d, f Graphiques similaires pour le contraste d’orientation (différence d’orientation entre la cible et les distracteurs en degrés, Δθ ; n = 42-63 essais/niveau de contraste). g Effet de la taille de l’ensemble. Nombre de fixations pour trouver la cible alors que le nombre d’éléments dans l’affichage variait entre 5, 10 et 15 ; et le contraste d’orientation de la cible variait de faible (Δθ = 7∘) à moyen-haut (Δθ = 15∘) à très haut (Δθ = 75∘). Le tracé montre la moyenne ± s.e.m. en nombre de fixations (n = 42-63 essais pour chaque combinaison de taille de l’ensemble et de Δθ).

Pour tester l’effet de la taille de l’ensemble sur la recherche visuelle, nous avons fait varier le nombre d’éléments dans l’affichage de 5, 10 à 15. La figure 4g montre que l’effet de la taille de l’ensemble dépend de la saillance de la cible. Lorsque la salacité de la cible est faible (différence d’orientation entre la cible et les distracteurs, Δθ = 7∘), le nombre de fixations pour trouver la cible augmente linéairement avec la taille de l’ensemble (pente = 0,17 ; ANOVA à mesures répétées à sens unique F(2, 40) = 3,52, p = 0,04). En revanche, lorsque la salacité de la cible est moyennement élevée (Δθ = 15∘), le nombre de fixations pour trouver la cible ne varie pas significativement avec la taille de l’ensemble (F(2, 40) = 0,85, p = 0,44). Pour les cibles très fortement saillantes (Δθ = 75∘), nous avons trouvé un effet négatif de la taille de l’ensemble sur le nombre de fixations (pente = -0,06 ; F(2, 40) = 4,39, p = 0,02). Ces résultats sont cohérents avec les travaux précédents sur les ordinateurs de bureau47,48,49,50. Pour résumer, dans cette section, nous avons reproduit les principaux résultats sur les tâches oculomotrices telles que la prosaccade, la poursuite lisse et les tâches de recherche visuelle en utilisant notre eye tracker de smartphone.

Validation sur les images naturelles

Nous avons en outre validé notre méthode en testant si les résultats précédents sur les mouvements oculaires pour les stimuli riches tels que les images naturelles, obtenus à partir d’eye trackers de bureau coûteux avec de grands écrans pourraient être reproduits sur de petits écrans tels que les smartphones, en utilisant notre méthode. Certains phénomènes bien connus concernant le regard sur les images naturelles sont que le regard est affecté par (a) la tâche effectuée (connu depuis les expériences classiques de suivi des yeux par Yarbus en 196730) ; (b) la saillance des objets dans la scène19,51,52 ; et (c) la tendance à fixer près du centre de la scène51,53. Pour vérifier si l’eye tracker de notre smartphone peut reproduire ces résultats, nous avons recueilli des données auprès de 32 participants alors qu’ils regardaient des images naturelles dans deux conditions de tâches différentes : (1) visualisation libre et (2) recherche visuelle d’une cible (voir « Méthodes », étude 3).

Comme prévu, les modèles de regard étaient plus dispersés pendant la visualisation libre, et plus concentrés vers l’objet cible et ses emplacements probables pendant la recherche visuelle (voir Fig. 5). Par exemple, la troisième ligne de la Fig. 5 montre que pendant la visualisation libre, les participants ont passé du temps à regarder la personne et le panneau qu’elle désigne dans la scène, alors que pendant la recherche visuelle d’une « voiture », les participants ont évité le panneau et se sont plutôt fixés sur la personne et la voiture. Sur l’ensemble des images, l’entropie du regard était significativement plus élevée pour le visionnage libre que pour la recherche visuelle (16,94 ± 0,03 contre 16,39 ± 0,04, t(119) = 11,14, p = 10-23). Une analyse supplémentaire de la performance de recherche visuelle a montré que, conformément aux résultats précédents54, la durée totale de fixation pour trouver la cible diminue avec la taille de la cible (r = -0.56, p = 10-11 ; n = 120 images), confirmant que les cibles plus grandes sont plus faciles à trouver que les plus petites. Au-delà de la taille, nous avons constaté que la densité de la saillance de la cible a un effet significatif sur le temps nécessaire pour trouver la cible (r = -0.30, p = 0.0011 ; n = 120 images), c’est-à-dire, les cibles plus saillantes sont plus faciles à trouver que celles qui le sont moins, ce qui est cohérent avec la littérature précédente19.

Fig. 5 : Le regard sur les images naturelles dépend de la tâche effectuée.

Les colonnes se réfèrent à : a image originale ; b carte thermique de fixation pendant la visualisation libre ; c exemple de parcours de balayage d’un seul participant pour la visualisation libre ; d carte thermique de fixation pendant la recherche visuelle d’un objet cible (spécifié dans le titre de chaque image) ; e exemple de parcours de balayage d’un seul participant pour la tâche de recherche visuelle.

Deuxièmement, nous avons testé l’existence de la tendance centrale pendant la visualisation libre d’images naturelles sur smartphone. La figure 6a montre l’entropie du regard sur l’ensemble des images de cette étude. Les exemples de faible entropie du regard sont les images contenant un ou deux objets saillants dans la scène (par exemple, une seule personne ou un seul animal dans la scène), tandis que les images à forte entropie contiennent plusieurs objets d’intérêt (par exemple, plusieurs personnes, une pièce intérieure avec des meubles). Des résultats similaires ont été rapportés avec des oculomètres de bureau spécialisés51,52. La moyenne des fixations de tous les utilisateurs et des images de notre eye tracker pour smartphone a révélé un biais central (voir la figure 6b), cohérent avec la littérature précédente sur les ordinateurs de bureau51,53.

Fig. 6 : Entropie du regard et biais central pendant le visionnage libre sur les téléphones.

a Histogramme de l’entropie du regard sur toutes les images pour la tâche de visionnage libre avec des exemples d’images à faible vs. Enfin, la saillance ayant été largement étudiée à l’aide d’oculomètres de bureau19,51,52, nous avons directement comparé les modèles de regard obtenus à partir de notre oculomètre pour smartphone à ceux obtenus à l’aide d’oculomètres de bureau spécialisés tels que Eyelink 1000 (en utilisant l’ensemble de données OSIE52). Notez que cette comparaison place la barre très haut. Non seulement la configuration de bureau avec EyeLink 1000 impliquait un matériel spécialisé avec une source de lumière infrarouge et des caméras infrarouges près de l’œil avec une haute résolution spatio-temporelle (jusqu’à 2000 Hz), mais elle utilisait également des réglages hautement contrôlés avec une mentonnière (et des conditions d’éclairage faibles), et affichait l’image sur un grand écran (22″, 33 × 25∘ d’angle de vision). En revanche, notre configuration d’étude a utilisé la caméra selfie existante du smartphone (RGB) dans des paramètres plus naturels (éclairage intérieur naturel, pas de mentonnière, juste un support pour le téléphone) avec des images visualisées sur un petit écran mobile (6″, angle de vision médian de 12 × 9∘). Ainsi, les deux configurations diffèrent à plusieurs égards (grand écran de bureau vs petit écran mobile, paramètres contrôlés, coût de l’eye tracker, taux d’échantillonnage).

Malgré ces différences, nous avons constaté que les heatmaps du regard des deux paramètres sont qualitativement similaires. La figure 7 montre les heatmaps les plus similaires et les plus dissemblables du bureau par rapport au mobile (similarité mesurée à l’aide de la corrélation de Pearson). L’oculomètre de notre smartphone a pu détecter des points chauds du regard similaires à ceux de l’ordinateur de bureau, à la différence près que les cartes thermiques du regard sur mobile semblent plus floues (voir la discussion supplémentaire pour une analyse plus approfondie). Ce flou est dû à la fois à la petite taille de l’écran du mobile et à la précision et au bruit moindres de l’eye tracker du smartphone (pas de mentonnière, pas de caméra infrarouge près de l’œil). Mis à part le flou, les cartes thermiques du regard de l’ordinateur de bureau et du mobile sont fortement corrélées au niveau des pixels (r = 0,74) et des objets (r = 0,90, voir tableau 1). Cela suggère que notre eye tracker pour smartphone pourrait être utilisé pour mettre à l’échelle les analyses de saillance sur le contenu mobile, à la fois pour les images statiques et le contenu dynamique (lorsque les participants font défiler et interagissent avec le contenu, ou regardent des vidéos).

Fig. 7 : Comparaison entre le regard mobile et le regard de bureau pour la visualisation d’images naturelles.

La partie gauche montre les heatmaps mobiles vs bureau les plus similaires, tandis que la partie droite montre les heatmaps les moins similaires. Les colonnes se réfèrent à : a et d l’image originale ; b et e la carte thermique du regard mobile avec une largeur de flou de 24 px ; c et f la carte thermique du regard de bureau avec une largeur de flou de 24 px (correspondant à 1∘ d’angle de vue de bureau). Voir la figure supplémentaire 9 et le tableau supplémentaire 1 pour des résultats similaires avec une largeur de flou plus grande de 67 px (correspondant à 1∘ angle de vision mobile).

Tableau 1 Corrélations entre le regard mobile et le regard de bureau.

Test sur une tâche de compréhension de lecture

Au delà de la validation de la recherche sur les tâches oculomotrices et les images naturelles, nous avons testé si notre eye tracker pour smartphone pouvait aider à détecter une difficulté de compréhension de lecture, alors que les participants faisaient naturellement défiler et lisaient des passages sur le téléphone. Dix-sept participants ont lu des passages de type SAT sur le téléphone (avec des interactions de défilement) et ont répondu à deux questions à choix multiple (voir « Méthodes », étude 4). L’une des questions était factuelle et on pouvait y répondre en trouvant l’extrait pertinent dans le passage. L’autre question demandait d’interpréter le passage de manière plus détaillée, ce que nous appelons la tâche « interprétative ». Comme prévu, nous avons constaté que les modèles de regard sont différents pour les tâches factuelles et les tâches interprétatives. Les modèles de regard étaient plus concentrés sur des parties spécifiques du passage pour les tâches factuelles, et plus dispersés à travers le passage pour les tâches interprétatives (voir Fig. 8). Pour tous les utilisateurs et toutes les tâches, l’entropie du regard s’est avérée plus élevée pour les tâches interprétatives que pour les tâches factuelles (8,14 ± 0,16 vs. 7,71 ± 0,15 ; t(114) = 1,97, p = 0,05).

Fig. 8 : Différents modèles de regard pour les tâches factuelles vs. interprétatives.

a Exemple de passage montré au participant (texte réel remplacé par un factice pour des raisons de droits d’auteur). La boîte de délimitation verte met en évidence l’extrait pertinent pour la tâche factuelle (boîte montrée à des fins de visualisation uniquement, les participants ne l’ont pas vue). b Carte thermique du regard au niveau de la population pour la tâche factuelle, pour le passage montré en (a). c Carte thermique pour la tâche interprétative pour le passage montré en (a). d-f Similaire à (a-c) sauf que la tâche factuelle est apparue après la tâche interprétative. Dans les deux exemples, le regard était plus dispersé à travers le passage pour les tâches interprétatives que pour les tâches factuelles.

Dans les tâches factuelles, nous avons examiné s’il y avait des différences dans les modèles de regard lorsque les participants répondaient correctement à la question ou non. Nous avons émis l’hypothèse que le regard devait être concentré sur l’extrait pertinent du passage pour les participants ayant répondu correctement, et que le regard devait être plus dispersé ou concentré sur d’autres parties du passage pour les réponses incorrectes. La figure 9a montre que les participants ont passé beaucoup plus de temps à fixer les régions pertinentes du passage que les régions non pertinentes lorsqu’ils ont répondu correctement (62,29 ± 3,63% de temps sur les régions pertinentes vs. 37,7 ± 3,63% sur les régions non pertinentes ; t(52) = 3,38, p = 0,001). Cette tendance s’est inversée pour les mauvaises réponses, bien que non significative (41,97 ± 6,99 % sur les pertinentes vs 58,03 ± 6,99 % sur les non pertinentes ; t(12) = -1,15, p = 0,27).

Puis, nous avons examiné l’effet de la difficulté de la tâche sur le regard et le temps de réponse. Nous avons quantifié la difficulté de la tâche comme le % de réponses incorrectes par tâche (voir les figures supplémentaires 6-7 pour des mesures supplémentaires de la difficulté de la tâche qui prennent en compte le temps et la précision). Les figures 9b-f montrent des exemples de cartes thermiques du regard pour les tâches faciles et difficiles, ainsi que les diagrammes de dispersion correspondants de diverses mesures en fonction de la difficulté de la tâche. Comme prévu, le temps de réponse augmente avec la difficulté de la tâche, mais pas de manière significative (corrélation de rang de Spearman r = 0,176, p = 0,63). Le nombre de fixations oculaires sur le passage augmente avec la difficulté de la tâche (r = 0,67, p = 0,04). Un examen plus approfondi a montré que le meilleur prédicteur était la fraction du temps de regard passée sur l’extrait pertinent (normalisé par la taille), qui était fortement corrélée négativement avec la difficulté de la tâche (r = -0,72, p = 0,02). En d’autres termes, plus la difficulté de la tâche augmente, plus les participants passent de temps à regarder les extraits non pertinents du passage avant de trouver l’extrait pertinent qui contient la réponse. Ces résultats montrent que le regard basé sur le smartphone peut aider à détecter les difficultés de compréhension de la lecture.

Fig. 9 : Effet de la difficulté de compréhension de la lecture sur le regard pour les tâches factuelles.

a Le diagramme à barres montre le % de durée de fixation sur la partie pertinente du passage (normalisé par la hauteur) lorsque les participants ont répondu correctement à la question factuelle vs. non. Les barres d’erreur indiquent la moyenne ± s.e.m. (n = 53, 13 tâches pour les réponses correctes vs. les réponses fausses). b Exemple de carte thermique de fixation pour une tâche factuelle facile ; c une tâche factuelle difficile. d-f Diagrammes de dispersion montrant différentes mesures en fonction de la difficulté de la tâche. d Temps pour répondre à la question en secondes (comprend le temps passé à lire la question et le passage) ; e nombre de fixations sur le passage ; f pourcentage de temps sur la région pertinente, calculé comme le % de la durée totale de fixation sur la partie pertinente du passage (normalisé par la hauteur). La corrélation statistique indiquée est le coefficient de corrélation de rang de Spearman (n = 10 tâches) ; test t bilatéral à échantillon unique. La bande de confiance représente l’intervalle de confiance bootstrapped de 68 %.

.

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée.