Exactidão do modelo
Treinamos uma rede neural convolucional (ConvNet) com várias camadas de alimentação para frente. O modelo toma como entrada uma imagem RGB da câmera frontal de um smartphone recortada para as regiões dos olhos, e aplica três camadas de convolução para extrair os recursos do olhar. Os recursos são combinados em camadas adicionais com pontos de referência de canto dos olhos automaticamente extraídos, indicando a posição dos olhos dentro da imagem para uma estimativa final na tela. Este modelo base foi primeiro treinado usando o conjunto de dados GazeCapture37 disponível ao público, depois aperfeiçoado usando dados de calibração e personalizado ajustando um modelo de regressão adicional (detalhes na seção “Métodos”) à saída do recurso de observação da ConvNet, descrita abaixo.
A calibração, os participantes foram solicitados a fixar em um estímulo circular verde que aparecia em uma tela preta. O estímulo apareceu em locais aleatórios na tela. As imagens da câmera frontal foram gravadas a 30 Hz e os timestamps foram sincronizados com a localização do marcador. Na terminologia ML, as imagens e as localizações dos marcadores serviram como entradas e alvos, respectivamente. Durante a inferência, as imagens da câmera foram alimentadas em seqüência ao modelo base afinado, cuja penúltima camada serviu como entrada para o modelo de regressão para obter a estimativa final e personalizada do olhar. A precisão do modelo foi avaliada em todos os participantes através do cálculo do erro em cm entre as localizações dos estímulos das tarefas de calibração (ground truth) e as localizações estimadas dos olhares.
Para testar o efeito da personalização na precisão do modelo, coletamos dados de 26 participantes enquanto eles visualizavam os estímulos no telefone, montados em um suporte do aparelho. Semelhante aos típicos estudos de rastreamento ocular na mesa de trabalho, focalizamos em uma cabeça quase frontal (sem inclinação/plano/rolo; ver “Métodos”, estudo 1). A Figura 1 mostra como a precisão varia com o número de quadros de calibração. Enquanto o modelo básico tem um erro alto de 1,92 ± 0,20 cm, a personalização com ~100 quadros de calibração levou a uma redução de quase quatro vezes no erro resultando em 0,46 ± 0,03 cm (t(25) = 7,32, p = 1,13 × 10-7). Observe que 100 quadros de calibração em diferentes locais da tela correspondem a <30 s de dados, o que é bastante razoável para estudos de rastreamento ocular onde a calibração é normalmente realizada no início de cada estudo (ou durante o estudo para contabilizar quebras ou grandes mudanças na pose). O melhor participante teve erro de 0,23 cm, enquanto o pior participante teve erro de 0,75 cm (os percentis eram de cm). A uma distância de visualização de 25-40 cm, isso corresponde a uma precisão de 0,6-1∘, que é melhor que 2,44-3∘ para trabalhos anteriores37,38,
As melhorias em relação ao trabalho anterior são devidas a uma combinação de melhor arquitetura de modelo, calibração/personalização e configurações UX ótimas. Em particular, o ajuste fino e a personalização do modelo usando ~30 s de dados de calibração sob configurações ideais de UX (perto da cabeça frontal, curta distância de visualização de 25-40 cm) levou a grandes melhorias de precisão (1,92-0,46 cm). Enquanto as mudanças na arquitetura do modelo levaram a melhorias modestas na precisão (0,73 cm37 a 0,46 cm para o nosso, com ajuste fino e personalização aplicados a ambos os modelos), eles reduziram significativamente a complexidade do modelo em 50× (8 M vs. 170 K parâmetros do modelo), tornando-o adequado para implementação no dispositivo. Assim, nosso modelo é ao mesmo tempo leve e preciso.
Como mostrado na Fig. 1b, os erros foram comparáveis entre diferentes locais na tela do telefone, com erro ligeiramente maior em direção aos locais da tela inferior, uma vez que os olhos tendem a parecer parcialmente fechados quando os participantes olham para baixo (veja a Fig. 1 Suplementar). Enquanto esses números são reportados para telefones Pixel 2 XL, a personalização foi encontrada para ajudar também em outros dispositivos (veja a Fig. 3a Suplementar). Figuras 1a, b focalizado na cabeça frontal de modo que a face cobriu cerca de um terço da moldura da câmera. Para testar o efeito do uso da cabeça e da distância na precisão, analisamos o conjunto de dados GazeCapture37 sobre iPhones, que ofereceu mais diversidade no uso da cabeça/distância. Como visto nas Figuras Suplementares 3b-e, o melhor desempenho foi alcançado para o uso próximo da cabeça frontal e menor distância até o telefone (onde a região dos olhos parecia maior), e a precisão decaiu com o aumento da pan/tilt/roll, ou à medida que os participantes se afastaram mais do telefone. Assim, todos os estudos neste trabalho focaram nas configurações ideais de UX, nomeadamente perto da cabeça frontal, com distâncias de visão curtas de 25-40 cm até ao telefone. Embora isso possa parecer restritivo, vale a pena notar que a configuração mais comum de rastreamento ocular para pesquisa prévia de movimento ocular8,12,14,16,18,29 muitas vezes requer hardware caro e configurações mais controladas, como o apoio do queixo com pouca iluminação interna e distância de visualização fixa.
Comparação com rastreadores oculares móveis especializados
Para entender a lacuna de desempenho entre nosso rastreador ocular smartphone e os rastreadores oculares móveis de última geração e caros, comparamos nosso método contra os óculos Tobii Pro 2, que é um rastreador ocular montado na cabeça com quatro câmeras infravermelhas perto do olho. Selecionamos a finalidade da cabeça frontal, uma vez que os óculos Tobii funcionam melhor nesse ajuste. Treze usuários realizaram uma tarefa de calibração sob quatro condições – com e sem óculos Tobii, com um suporte de dispositivo fixo e segurando livremente o telefone na mão (ver Fig. 2). Com o suporte do dispositivo fixo, descobrimos que a precisão do rastreador ocular do smartphone (0,42 ± 0,03 cm) era comparável aos óculos Tobii (0,55 ± 0,06 cm, teste t de dois pares de cauda, t(12) = -2,12, p = 0,06). Resultados semelhantes foram obtidos no teste manual (0,59 ± 0,03 cm no Tobii vs. 0,50 ± 0,03 cm no nosso; t(12) = -1,53, p = 0,15). A distribuição de erros por usuário tanto para o suporte do dispositivo quanto para a configuração portátil pode ser encontrada no Suplemento Fig. 4.
Vale notar que os rastreadores oculares especializados como os óculos Tobii Pro representam uma barra alta. São óculos montados na cabeça com quatro câmaras de infravermelhos (duas perto de cada olho) e uma câmara centrada no mundo. Assim, a entrada são imagens infravermelhas de alta resolução de close-up dos olhos (a uma distância de 5-10 cm do olho). Em contraste, nosso método utiliza a câmera RGB frontal única do smartphone, a uma distância de visão maior (25-40 cm do olho), daí a região dos olhos parecer pequena. Apesar desses desafios, é promissor que nosso rastreador ocular smartphone alcance precisão comparável à dos rastreadores oculares móveis de última geração.
Validação em tarefas oculares padrão
Como uma validação de pesquisa, testamos se os principais resultados de pesquisas anteriores sobre movimento ocular em tarefas oculares usando grandes monitores e rastreadores oculares caros, poderiam ser replicados em pequenos monitores smartphone usando nosso método. Vinte e dois participantes realizaram prosaccata, busca suave e tarefas de busca visual como descrito abaixo (detalhes em “Métodos”, estudo 2). A Figura 3a mostra a configuração para a tarefa de prosaccata. Calculamos a latência da sacadela, uma medida comumente estudada, como o tempo desde quando o estímulo apareceu até quando o participante moveu seus olhos. Como visto na Fig. 3b, a latência média da saccata foi de 210 ms (mediana de 167 ms), consistente com 200-250 ms observados em estudos anteriores41,
Para investigar movimentos suaves dos olhos de perseguição, os participantes foram solicitados a executar dois tipos de tarefas – uma em que o objeto se movia suavemente ao longo de um círculo, e outra ao longo de uma caixa. Tarefas semelhantes foram recentemente demonstradas como sendo úteis para detectar concussão42,43. As figuras 3c-e mostram uma amostra do percurso de observação de um participante seleccionado aleatoriamente, e o mapa de calor a nível populacional de todos os utilizadores e ensaios para a tarefa de perseguição suave do círculo. Consistente com a literatura anterior em desktops, os participantes tiveram um bom desempenho nesta tarefa, com um erro de rastreamento baixo de 0,39 ± 0,02 cm. Resultados semelhantes foram obtidos para a tarefa da caixa de busca suave (ver Figura Complementar 5).
Além das tarefas simples oculomotoras, investigamos a busca visual, que tem sido uma área de foco principal da pesquisa de atenção desde a década de 198012,44,45. Dois fenômenos bem conhecidos aqui são: (1) o efeito da saliência do alvo (dissemelhança ou contraste entre o alvo e os itens de distracção circundantes no visor, conhecidos como distractores)46,47; (2) e o efeito do tamanho definido (número de itens no visor)44,45 no comportamento da busca visual.
Para testar a presença destes efeitos nos telefones, medimos padrões de olhar à medida que 22 participantes realizavam uma série de tarefas de busca visual. Variamos sistematicamente a intensidade da cor ou orientação do alvo em relação aos distractores. Quando a cor (ou orientação do alvo) apareceu semelhante aos distractores (baixa saliência do alvo), foram necessárias mais fixações para encontrar o alvo (ver Fig. 4a, c). Em contraste, quando a cor (ou orientação) do alvo apareceu diferente dos distractores (saliência elevada do alvo), foram necessárias menos fixações (Fig. 4b, d). Verificámos que em todos os utilizadores e ensaios, o número de fixações para encontrar o alvo diminuiu significativamente à medida que a saliência do alvo aumentava (ver Fig. 4e, f para contraste de intensidade de cor: F(3, 63) = 37,36, p < 10-5; para contraste de orientação: F(3, 60) = 22,60, p < 10-5). Estes resultados confirmam o efeito da saliência do alvo sobre a busca visual, visto anteriormente em estudos de desktop12,44,46,47.
Para testar o efeito do tamanho do set na busca visual, variamos o número de itens no display de 5, 10 a 15. A Figura 4g mostra que o efeito do tamanho do conjunto depende da saliência do alvo. Quando a saliência do alvo é baixa (diferença na orientação entre o alvo e os distractores, Δθ = 7∘), o número de fixações para encontrar o alvo aumentou linearmente com o tamanho definido (inclinação = 0.17; medidas repetidas de um lado ANOVA F(2, 40) = 3.52, p = 0.04). Em contraste, quando a saliência do alvo é média-alta (Δθ = 15∘), o número de fixações para encontrar o alvo não variou significativamente com o tamanho definido (F(2, 40) = 0,85, p = 0,44). Para alvos muito salientes (Δθ = 75∘), encontramos um efeito negativo do tamanho definido no número de fixações (inclinação = -0.06; F(2, 40) = 4.39, p = 0.02). Esses achados são consistentes com trabalhos anteriores em desktops47,48,49,50. Para resumir, nesta seção, replicamos os principais achados sobre tarefas oculomotoras como prosaccadeamento, busca suave e tarefas de busca visual usando nosso rastreador de olhos smartphone.
Validação em imagens naturais
Validamos ainda mais nosso método testando se achados anteriores sobre movimentos oculares para estímulos ricos, como imagens naturais, obtidos a partir de rastreadores de olhos caros em desktops com telas grandes poderiam ser replicados em telas pequenas, como smartphones, usando nosso método. Alguns fenômenos bem conhecidos sobre o olhar em imagens naturais são que o olhar é afetado por (a) a tarefa sendo executada (conhecida desde as experiências clássicas de rastreamento ocular de Yarbus em 196730); (b) a saliência dos objetos na cena19,51,52; e (c) a tendência de fixar perto do centro da cena51,53. Para testar se o nosso rastreador de olhos smartphone pode reproduzir esses achados, coletamos dados de 32 participantes enquanto eles visualizavam imagens naturais sob duas condições de tarefa diferentes: (1) visualização livre e (2) busca visual de um alvo (ver “Métodos”, estudo 3).
Como esperado, os padrões de visão foram mais dispersos durante a visualização livre, e mais focados em direção ao objeto alvo e suas prováveis localizações durante a busca visual (ver Fig. 5). Por exemplo, a terceira linha da Fig. 5 mostra que durante a visualização livre, os participantes passaram um tempo olhando para a pessoa e para o sinal que ele aponta na cena, enquanto que durante a busca visual de um “carro”, os participantes evitaram o sinal e em vez disso se fixaram na pessoa e no carro. Em todas as imagens, a entropia do olhar foi significativamente maior para visualização livre do que para busca visual (16,94 ± 0,03 vs. 16,39 ± 0,04, t(119) = 11,14, p = 10-23). A análise adicional do desempenho da busca visual mostrou que, de acordo com os achados anteriores54 , a duração total da fixação para encontrar o alvo diminuiu com o tamanho do alvo (r = -0,56, p = 10-11; n = 120 imagens), confirmando que alvos maiores são mais fáceis de encontrar do que alvos menores. Além do tamanho, descobrimos que a densidade de saliências do alvo tem um efeito significativo no tempo para encontrar o alvo (r = -0,30, p = 0,0011; n = 120 imagens), ou seja, alvos mais salientes são mais fáceis de encontrar que alvos menos salientes, consistente com a literatura anterior19,
Finalmente, uma vez que a saliência tem sido extensivamente estudada usando rastreadores de olhos de mesa19,51,52, nós comparamos diretamente os padrões de olhar obtidos com nosso rastreador de olhos smartphone com aqueles obtidos com rastreadores de olhos de mesa especializados, como o Eyelink 1000 (usando o conjunto de dados OSIE52). Observe que esta comparação coloca uma barra alta. A configuração da área de trabalho com EyeLink 1000 não só envolveu hardware especializado com fonte de luz infravermelha e câmeras infravermelhas próximas ao olho com alta resolução espaço-temporal (até 2000 Hz), mas também usou configurações altamente controladas com apoio para o queixo (e condições de iluminação fraca) e exibiu a imagem em uma tela grande (22″, 33 × 25∘ ângulo de visão). Em contraste, nossa configuração de estudo usou a câmera de auto-fé (RGB) do smartphone em configurações mais naturais (iluminação interna natural, sem apoio para o queixo, apenas um suporte para o telefone) com imagens vistas em uma pequena tela móvel (6″, ângulo de visão médio de 12 × 9∘). Assim, as duas configurações diferem de várias maneiras (tela grande vs. tela pequena móvel, configurações controladas, custo do rastreador de olhos, taxa de amostragem).
Apesar dessas diferenças, descobrimos que os mapas de calor do olhar das duas configurações são qualitativamente semelhantes. A Figura 7 mostra os heatmaps mais similares e dissimilares do desktop vs. mobile (similaridade medida usando a correlação de Pearson). Nosso rastreador de olhos do smartphone foi capaz de detectar hotspots de olhar similares como os caros heatmaps do desktop, com uma diferença chave, sendo que os heatmaps do olhar móvel parecem mais embaçados (veja Discussão Complementar para mais análises). O borrão é devido a uma combinação do tamanho pequeno da tela do celular, e a menor precisão/ruído do rastreador de olhos do smartphone (sem descanso no queixo, sem câmeras infravermelhas perto do olho). Além do desfoque, os mapas de calor do olhar do desktop e do celular estão altamente correlacionados tanto no nível de pixel (r = 0,74) quanto no nível de objeto (r = 0,90, veja a Tabela 1). Isto sugere que nosso rastreador de olhos do smartphone poderia ser usado para escalar análises de saliência em conteúdo móvel, tanto para imagens estáticas quanto para conteúdo dinâmico (enquanto os participantes rolam e interagem com o conteúdo, ou assistem a vídeos).
O lado esquerdo mostra os heatmaps mais similares do celular versus o do desktop, enquanto o lado direito mostra os heatmaps menos similares. As colunas referem-se a: a e d imagem original; b e e mobile gaze heatmap com uma largura de borrão de 24 px; c e f desktop gaze heatmap com uma largura de borrão de 24 px (correspondente ao 1∘ desktop view angle). Veja a Figura Suplementar 9 e a Tabela Complementar 1 para resultados semelhantes com uma largura de borrão maior de 67 px (correspondente ao 1∘ ângulo de visão móvel).
Teste na tarefa de compreensão de leitura
Além da validação da pesquisa em tarefas oculomotoras e imagens naturais, testamos se o nosso rastreador de olhos smartphone poderia ajudar a detectar a dificuldade de compreensão de leitura, já que os participantes rolaram naturalmente e leram passagens no telefone. Dezessete participantes leram passagens do tipo SAT ao telefone (com interações de rolagem), e responderam duas perguntas de múltipla escolha (ver “Métodos”, estudo 4). Uma das perguntas era factual e podia ser respondida encontrando o trecho relevante dentro da passagem. A outra pergunta exigia uma interpretação mais detalhada da passagem – chamamos a isto a tarefa “interpretativa”. Como esperado, descobrimos que os padrões de olhar são diferentes para tarefas factuais versus tarefas interpretativas. Os padrões de olhares foram mais focalizados em partes específicas da passagem para tarefas factuais e mais dispersos pela passagem para tarefas interpretativas (ver Fig. 8). Em todos os usuários e tarefas, a entropia do olhar foi maior para as tarefas interpretativas do que para as tarefas factuais (8,14 ± 0,16 vs. 7,71 ± 0,15; t(114) = 1,97, p = 0,05).
a Exemplo de passagem mostrada ao participante (texto real substituído por dummy por razões de direitos autorais). A caixa de delimitação verde destaca o trecho relevante para a tarefa factual (caixa mostrada apenas para fins de visualização, os participantes não viram isto). b Mapa de calor a nível populacional para a tarefa factual, para a passagem mostrada em (a). c Mapa de calor para a tarefa interpretativa da passagem mostrada em (a). d-f Semelhante a (a-c) exceto que a tarefa factual apareceu após a tarefa interpretativa. Em ambos os exemplos, o olhar estava mais disperso pela passagem da tarefa interpretativa do que pelas tarefas factuais.
Em tarefas factuais, nós examinamos se existem diferenças nos padrões de olhar quando os participantes responderam a pergunta corretamente vs. não. Nós colocamos a hipótese de que o olhar deve ser focado no trecho relevante da passagem para os participantes que responderam corretamente, e o olhar deve ser mais disperso ou focado em outras partes da passagem para respostas incorretas. A Figura 9a mostra que os participantes gastaram significativamente mais tempo fixando dentro das regiões de passagem relevantes do que as irrelevantes quando responderam corretamente (62,29 ± 3,63% de tempo em relevantes vs. 37,7 ± 3,63% em irrelevantes; t(52) = 3,38, p = 0,001). Esta tendência foi invertida para respostas erradas, embora não significativas (41,97 ± 6,99% sobre relevante vs. 58,03 ± 6,99% sobre irrelevante; t(12) = -1,15, p = 0,27).
Próximo, examinamos o efeito da dificuldade no nível de tarefa sobre o olhar e o tempo de resposta. Quantificamos a dificuldade da tarefa como as respostas %incorretas por tarefa (veja as Figuras Suplementares 6-7 para medidas adicionais de dificuldade da tarefa que levam tempo e precisão em consideração). A Figura 9b-f mostra exemplos de mapas de calor do olhar para tarefas fáceis vs. difíceis, e os scatterplots correspondentes de várias métricas como uma função da dificuldade da tarefa. Como esperado, o tempo para responder aumentou com a dificuldade da tarefa, embora não significativamente (correlação de ranking do Spearman r = 0,176, p = 0,63). O número de fixações dos olhos na passagem aumentou com a dificuldade da tarefa (r = 0,67, p = 0,04). Um olhar mais atento mostrou que o melhor preditor foi a fração do tempo de olhar gasto no trecho relevante (normalizado por altura), que foi fortemente correlacionado negativamente com a dificuldade da tarefa (r = -0,72, p = 0,02). Em outras palavras, conforme a dificuldade da tarefa aumentava, os participantes gastavam mais tempo olhando os trechos irrelevantes da passagem antes de encontrar o trecho relevante que continha a resposta. Estes resultados mostram que o olhar baseado no smartphone-based gaze pode ajudar a detectar a dificuldade de compreensão de leitura.
a Barplot mostra % de duração de fixação na parte relevante da passagem (normalizada por altura) quando os participantes responderam a pergunta factual corretamente vs. não. As barras de erro denotam a média ± s.e.m. (n = 53, 13 tarefas para respostas corretas vs. erradas). b Exemplo de mapa de fixação para tarefa factual fácil; c tarefa factual difícil. d-f Quadros de dispersão mostrando diferentes métricas em função da dificuldade da tarefa. d Tempo para responder a pergunta em segundos (inclui o tempo gasto na leitura da pergunta e da passagem); e número de fixações na passagem; f tempo percentual na região relevante, computado como a % duração total da fixação na porção relevante da passagem (normalizada por altura). A correlação estatística relatada é o coeficiente de correlação de classificação do Spearman (n = 10 tarefas); teste t de duas etapas de uma amostra. A banda de confiança representa o intervalo de confiança de 68%.