Model accuracy

多層のフィードフォワード畳み込みニューラルネットワーク(ConvNet)を学習させました。 このモデルは、スマートフォンの前面カメラから目の領域に切り取られたRGB画像を入力とし、3層の畳み込みを適用して視線特徴を抽出する。 この特徴量は、画像内の目の位置を示す自動抽出された目尻のランドマークと追加層で結合され、最終的に画面上の視線推定が行われます。 この基本モデルは、まず一般に利用可能なGazeCaptureデータセット37を使用して学習され、次にキャリブレーションデータを使用して微調整され、以下に説明するConvNetからの視線特徴出力に追加の回帰モデル(詳細は「方法」のセクションで)を適合することによって個人化された。 刺激は画面上のランダムな位置に表示された。 前面カメラからの画像は30Hzで記録され、タイムスタンプはマーカー位置と同期していた。 MLの用語では、画像とマーカー位置がそれぞれ入力とターゲットとなる。 推論中、カメラ画像は順に微調整されたベースモデルに送られ、その最終層は最終的に個人化された視線推定値を得るための回帰モデルへの入力として機能した。 モデルの精度は、キャリブレーションタスクからの刺激位置(グランドトゥルース)と推定視線位置の間のcmの誤差を計算することによって、すべての参加者全体で評価された

モデルの精度に対する個人化の効果を調べるために、デバイススタンドに取り付けられた携帯電話で刺激を見ている26人の参加者からデータを収集した。 デスクトップでの典型的なアイトラッキング研究と同様に、我々は、ほぼ正面からのヘッドポーズ(チルト/パン/ロールなし、「方法」、研究1参照)に焦点を当てました。 図1は、精度がキャリブレーションフレームの数によってどのように変化するかを示しています。 ベースモデルは1.92 ± 0.20cmと高い誤差を持ちますが、約100個のキャリブレーションフレームでパーソナライズすると、誤差が約4倍になり、0.46 ± 0.03cmとなりました(t(25) = 7.32, p = 1.13 × 10-7)。 これは、通常キャリブレーションが各スタディの始めに(または休憩や大きなポーズの変化を考慮しスタディ中に)行われるアイトラッキングスタディにとって非常に合理的なデータです。 最高の参加者は0.23cmの誤差があり、最悪の参加者は0.75cmの誤差がありました(thパーセンタイルはcm)。 25~40cmの視聴距離では,これは0.6~1∘の精度に相当し,先行研究37,38の2.44~3∘より優れている。

Fig. 1: Our smartphone eye tracker.

a Gaze estimation accuracy(mean ±s.e.m., a.). n = 26参加者)、パーソナライズのためのキャリブレーションフレームを使用すると改善されます。 円の半径は、その画面位置での平均モデル誤差を示す。

以前の研究に対する改善は、より良いモデルアーキテクチャ、キャリブレーション/パーソナライズ、および最適な UX 設定の組み合わせに起因します。 特に、最適な UX 設定 (前頭部の近く、25 ~ 40 cm の短い視距離) の下で約 30 秒間のキャリブレーション データを使用してモデルを微調整およびパーソナライズすることで、大きな精度向上 (1.92 ~ 0.46 cm) がもたらされました。 モデルアーキテクチャの変更により、精度の向上はわずかであったものの(微調整とパーソナライズを両モデルに適用した場合、0.73cm37から0.46cm)、モデルの複雑さは50倍となり(8M vs. 170Kモデルパラメータ)、デバイスへの実装に適したものとなりました。 したがって、我々のモデルは軽量かつ正確である。

図1bに示すように、誤差はスマホ画面上の異なる位置で同等であり、参加者が下を向くと目が一部閉じて見える傾向があるので、画面下の位置に向かってわずかに大きな誤差があった(補足図1参照)。 これらの数値はPixel 2 XL電話について報告されていますが、パーソナライゼーションは他のデバイスでも有効であることがわかりました(補足図3aを参照のこと)。 図1a、bは、顔がカメラフレームの約3分の1を覆うような正面からのヘッドポーズに焦点を当てました。 また、このようなヘッドポーズと距離が精度に与える影響を検証するため、ヘッドポーズ・距離がより多様なiPhoneのGazeCapture37データセットを分析した。 補足図3b-eに見られるように、最良のパフォーマンスは、ほぼ正面からの頭位と携帯電話までの短い距離(目の領域が大きく見える)で達成され、精度はパン/チルト/ロールの増加、または参加者が電話から遠くなるにつれて減少した。 したがって、本論文のすべての研究は、最適なUX設定、すなわち前頭部付近のヘッドポーズと携帯電話までの短い視聴距離(25~40cm)に焦点を当てました。 これは制限的に見えるかもしれませんが、先行する眼球運動研究8,12,14,16,18,29で最も一般的なアイトラッキング設定は、しばしば高価なハードウェアと、薄暗い室内照明と固定視聴距離で顎置きなどのより制御された設定を必要とすることは、注目に値します。

特殊なモバイルアイトラッカーとの比較

我々のスマートフォンアイトラッカーと最先端の高価なモバイルアイトラッカーとの性能の差を理解するために、目の近くに4つの赤外線カメラがあるヘッドマウントアイトラッカーであるTobii Pro 2メガネと我々の手法を比較しました。 Tobii Pro 2は、目の近くに4つの赤外線カメラを搭載したヘッドマウント型のアイトラッカーで、私たちは正面からのヘッドポーズを選択しました。 13人のユーザーが、Tobiiグラスを使用した場合、使用しない場合、デバイスを固定した場合、携帯電話を自由に手に持った場合の4つの条件でキャリブレーション作業を行いました(図2参照)。 固定式スタンドの場合、スマートフォンのアイトラッカーの精度 (0.42 ± 0.03 cm) は、Tobiiグラスの精度 (0.55 ± 0.06 cm, 両側ペア t-test, t(12) = -2.12, p = 0.06) と同等であることが判明しました。 手持ちの設定でも同様の結果が得られました(Tobiiの0.59 ± 0.03 cmに対して、我々の0.50 ± 0.03 cm; t(12) = -1.53, p = 0.15)。 図2:トビー眼鏡と我々のモデルの精度比較

Study setupは、4つの実験条件を示しています。 e, f 専用アイトラッカー(Tobiiグラス)と我々のスマートフォンアイトラッカー(平均±s.e.m.、n = 13人)のデバイススタンドと手持ち設定の精度比較(平均±s.e.m.、n = 13人)。 統計的な比較では、両方の設定で精度に有意差はありませんでした(デバイススタンド: t(12) = -2.12, p = 0.06; ハンドヘルド: t(12) = -1.53, p = 0.15; 両側ペアt検定)

Tobii Proメガネのような専用アイトラッカーが高いハードルに相当することは注目すべきことです。 これらは、4 つの赤外線カメラ (各目の近くに 2 つ) と 1 つのワールド センター カメラを備えたヘッドマウント型のメガネです。 したがって、入力は目のクローズアップ(目から5~10cmの距離)の高解像度赤外線画像です。 一方、本手法では、スマートフォンの前面RGBカメラ1台を使用し、より大きな視距離(目から25~40cm)で撮影するため、目の領域が小さく表示されます。 これらの課題にもかかわらず、我々のスマートフォン用アイトラッカーが、最先端のモバイルアイトラッカーと同等の精度を達成したことは有望である。

標準的な眼球運動タスクでの検証

研究の検証として、大型ディスプレイと高価なデスクトップ用アイトラッカーを用いた眼球運動タスクに関する過去の眼球運動研究からの主要知見が、我々の方法を用いて小さなスマートフォンディスプレイで再現できるかどうかをテストしました。 22名の参加者は、以下に示すように、プロサッカード、スムーズパシュート、ビジュアルサーチのタスクを行いました(詳細は「方法」、研究2に記載)。 図3aは、プロサッカード課題のセットアップを示す。 一般に研究されているサッケード潜時は、刺激が現れてから被験者が目を動かすまでの時間として計算される。 図3bに見られるように、平均サッケード潜時は210ms(中央値167ms)であり、先行研究41で観察された200~250msと一致した。

図3:標準眼球運動タスクにおけるスマートフォン注視

1 プロサッケードタスク。 各試行は800msの中心固定で始まり、その後ランダムな位置にターゲットが現れ、1000msの間とどまる。 b プロサッカード課題におけるサッカード潜時分布 c 滑走課題。 d 黒で示した一人のユーザのスキャンパス例(緑がグランドトゥルース) e 全ユーザと試行による母集団レベルのヒートマップ

滑らかな追跡眼運動を調べるために、被験者は2種類の課題を行うよう求められた。1つは円に沿って滑らかに動く物体、もう1つは箱に沿って動く物体であった。 同様の課題は、最近、脳震盪の検出に有用であることが証明されている42,43。 図3c-eは、無作為に選択された参加者の視線スキャンパスのサンプルと、滑らかな追跡の円タスクの全ユーザーとトライアルからの母集団レベルのヒートマップである。 デスクトップに関する過去の文献と同様に、参加者はこのタスクで良好なパフォーマンスを示し、トラッキングエラーは0.39±0.02cmと低いものであった。 同様の結果は、滑らかな追跡ボックス課題でも得られた(補足図5参照)。

単純な眼球運動課題を超えて、1980年代から注意研究の主要な焦点となっている視覚探索について調べた12,44,45。 ここでよく知られている現象は2つある。 (1)標的の顕著性(ディスプレイ内の標的と周囲の散乱物(distractor)の非類似度やコントラスト)の効果46,47、(2)セットサイズ(ディスプレイ内のアイテム数)の視覚探索行動への効果44,45。

電話におけるこれらの効果の存在を調べるために、22名の被験者に一連の視覚探索課題を実施して視線のパターンを測定しました。 我々は、ターゲットの色の強さまたは方向とディストラクターとの相対的な関係を系統的に変化させた。 ターゲットの色(または向き)がディストラクターと似ている(ターゲットの顕著性が低い)場合、ターゲットを見つけるために多くの固視を必要としました(図4a、c参照)。 一方、標的の色(または向き)がディストラクターと異なって見える場合(標的顕著性が高い)、より少ない固視化が必要でした(図4b、d)。 また、すべてのユーザと試行において、標的の顕著性が高くなると、標的を見つけるための固視数が有意に減少することがわかった(色の濃さの対比はFig.4e、f参照。 図4e,fは色の強弱対比:F(3, 63) = 37.36, p < 10-5、方位対比:F(3, 63) = 10-5。 図4e,f参照)。 これらの結果は、デスクトップ研究12,44,46,47で以前に見られた、視覚探索におけるターゲットの顕著性の効果を確認するものである。

Fig. 4: Smartphone gaze during visual search.

a,b,e Effect of target’s color contrast on visual search performance, e ターゲットの色コントラストの関数として、ターゲットを見つけるための固着回数(プロットは平均±標準偏差、n = 44-65試行/コントラストレベル)。 ディスプレイのアイテム数は5、10、15の間で変化し、ターゲットの方向コントラストは低 (Δθ = 7∘) から中高 (Δθ = 15∘) 、超高 (Δθ = 75∘) に変化する。 プロットは、固視数の平均±s.e.m.を示す(セットサイズとΔθの各組み合わせについてn=42〜63試行)

視覚探索に対するセットサイズの効果を調べるために、ディスプレイ中のアイテム数を5、10、15と変化させた。 図4gは、セットサイズの効果がターゲットの顕著性に依存することを示す。 標的の顕著性が低い場合(標的と散乱物の方向の差、Δθ = 7∘)、標的を見つけるための固視数はセットサイズとともに直線的に増加した(傾き = 0.17; 一元配置反復測定ANOVA F(2, 40) = 3.52, p = 0.04)。 一方、標的の顕著性が中程度の場合(Δθ = 15∘)、標的を見つけるための固定回数はセットの大きさによって有意に変化しなかった(F(2, 40) = 0.85, p = 0.44)。 また、非常に顕著な標的(Δθ = 75∘)では、固視の回数にセットサイズの負の効果が見られた(傾き = -0.06; F(2, 40) = 4.39, p = 0.02)。 これらの知見は、デスクトップに関する先行研究47,48,49,50と一致する。 まとめると、このセクションでは、プロサッカード、滑走路追跡、視覚探索タスクなどの眼球運動タスクに関する主要な知見を、我々のスマートフォン用アイトラッカーで再現した。

自然画像での検証

我々はさらに、自然画像などの豊富な刺激に対する眼球運動について、大型ディスプレイのある高価なデスクトップのアイトラッカーから得た過去の知見が、我々の方法を用いてスマートフォンなどの小型ディスプレイに再現できるかどうかを検証することによって我々の方法の妥当性を確認した。 自然画像における視線については、(a)実行中のタスクに視線が影響されること(1967年のYarbusによる古典的なアイトラッキング実験から知られている30)、(b)シーン内のオブジェクトの顕著性19,51,52、(c)シーン中心付近に固定する傾向51,53などがよく知られた現象である。 我々のスマートフォン用アイトラッカーがこれらの知見を再現できるかどうかを検証するために、我々は32人の参加者から、2つの異なるタスク条件下で自然画像を見たときのデータを収集しました。 (1) 自由閲覧、(2) ターゲットの視覚的探索(「方法」、研究3参照)

予想通り、自由閲覧では視線パターンがより分散し、視覚探索ではターゲットオブジェクトとその可能性が高い場所に集中した(図5参照)。 例えば、Fig.5 3段目では、自由視聴時には参加者は人物と彼が指差す標識に時間をかけて見ているのに対し、「車」を探す視覚探索時には標識を避け、人物と車に焦点を合わせていることがわかります。 すべての画像において、視線エントロピーは自由視聴の方が視覚探索より有意に高いことがわかった(16.94±0.03 vs. 16.39±0.04, t(119) = 11.14, p = 10-23)。 視覚探索性能の追加分析の結果、これまでの知見54と同様に、標的を見つけるための全固定時間は標的の大きさに応じて減少し(r = -0.56, p = 10-11; n = 120 images)、大きい標的は小さい標的より見つけやすいことが確認されました。 また、大きさだけでなく、標的の顕著性密度も標的を見つける時間に有意な影響を与えることが分かりました(r = -0.30, p = 0.0011; n = 120 images)、すなわち。 1312>

Fig. 5: 自然画像への視線は、実行中のタスクに依存する。

列は、a オリジナル画像、b 自由閲覧時の固視ヒートマップ、c 自由閲覧時の単一参加者のスキャンパス例、d 目標物(各画像のタイトルに明記)の視覚探索時の固視ヒートマップ、e 視覚探索タスクの単一参加者のスキャンパス例、を表している。

次に、スマートフォンで自然画像を自由に閲覧した際の中心傾向の有無を検証した。 図6aは、本研究の全画像における視線エントロピーを示したものである。 視線エントロピーの低い例は、シーン内の1つか2つの顕著なオブジェクトを含む画像(例:シーン内の1人の人物や動物)であり、高いエントロピーの画像は、複数の関心オブジェクト(例:複数の人物、家具のある室内)を含んでいます。 同様の結果は、デスクトップ型アイトラッカーでも報告されています51,52。 私たちのスマートフォンのアイトラッカーからのすべてのユーザーと画像全体の固定を平均化すると、デスクトップに関する先行文献51,53と一致し、中心バイアスを明らかにした(図6bを参照)。 b 全ユーザーと画像全体の固定の平均化により、中心への偏りが明らかになった。

最後に、顕著性はデスクトップのアイトラッカーを使って広範囲に研究されているので、我々はスマートフォンアイトラッカーから得られた視線パターンを、(OSIEデータセット52を使用して)Eyelink 1000などの特別なデスクトップアイトラッカーから得られたものと直接比較しました。 この比較は、高いハードルを課すものであることに注意してください。 EyeLink 1000によるデスクトップセットアップでは、高い時空間解像度(最大2000Hz)を持つ赤外線光源と赤外線カメラを目の近くに配置した特殊なハードウェアを使用するだけでなく、あご置き(および薄暗い照明条件)を使用し、画像を大きなスクリーン(22″、33×25∘視野角)に表示する高度な制御が行われました。 一方、我々の研究セットアップは、より自然な環境(自然な室内照明、あご置きなし、携帯電話用のスタンドのみ)で、スマートフォンの既存の自撮りカメラ(RGB)を使用し、画像は小さなモバイル画面(6″、視野角中央値12×9∘)で表示されました。 このように、2つの設定は多くの点で異なっています(大画面のデスクトップ対小画面のモバイル、制御された設定、アイトラッカーコスト、サンプリングレート)

これらの違いにもかかわらず、2つの設定からの視線ヒートマップは定性的には類似していることが分かりました。 図7は、デスクトップとモバイルの最も類似したヒートマップと非類似のヒートマップを示しています(ピアソンの相関を使用して測定した類似度)。 スマートフォンのアイトラッカーは、高価なデスクトップと同様の注視ホットスポットを検出することができましたが、モバイルの注視ヒートマップはよりぼやけて見えることが大きな違いです(さらなる分析については補足説明を参照してください)。 このぼやけは、モバイル画面の小さなディスプレイと、スマートフォンのアイトラッカーからの低い精度・ノイズの組み合わせによるものです(あご台なし、目の近くの赤外線カメラなし)。 ブレを除けば、デスクトップとモバイルの視線ヒートマップはピクセルレベル(r = 0.74)およびオブジェクトレベル(r = 0.90、表1参照)の両方で高い相関があります。 これは、私たちのスマートフォンのアイトラッカーが、静的な画像と動的なコンテンツ(参加者がスクロールしてコンテンツと相互作用したり、ビデオを見たりする)の両方について、モバイルコンテンツで顕著性分析をスケールするために使用できることを示唆している。

Fig. 7: 自然画像視聴におけるモバイルとデスクトップの視線の比較

左側は最も似ているモバイル対デスクのヒートマップを示し、右側は最も似ていないヒートマップを示しています。 列は以下の通り:aおよびd元画像、bおよびeぼかし幅24pxのモバイル注視ヒートマップ、cおよびfぼかし幅24px(デスクトップ視野角1∘に相当)のデスクトップ注視ヒートマップです。 より大きなぼかし幅67px(1∘モバイル視野角に相当)での同様の結果については、補足図9と補足表1を参照。

Table 1 モバイルとデスクトップの視線の相関関係。

読解タスクでのテスト

眼球運動タスクと自然画像での研究検証にとどまらず、参加者が携帯電話で自然にスクロールして文章を読んでいるときに、私たちのスマートフォンのアイトラッカーが読解力の難しさを検出するのに役立つかどうかをテストしてみました。 17名の参加者が、携帯電話でSATのような文章を読み(スクロール操作あり)、2つの多肢選択問題に答えました(「方法」研究4参照)。 質問の1つは事実に基づくもので、文章中の該当箇所を探すことで回答できるものでした。 もう1つの質問では、文章をより詳細に解釈する必要があり、これを「解釈」タスクと呼んでいます。 予想通り、事実に基づく課題と解釈に基づく課題では、視線のパターンが異なることがわかりました。 視線パターンは、事実に基づくタスクではパッセージの特定の部分に集中し、解釈的タスクではパッセージ全体に分散していました(図8参照)。 すべてのユーザーとタスクにおいて、視線エントロピーは、解釈的タスクの方が事実的タスクよりも高いことがわかりました(8.14 ± 0.16 vs. 7.71 ± 0.15; t(114) = 1.97, p = 0.05)。 9751>

a 参加者に見せたサンプル文章(著作権の関係で実際のテキストはダミーに置き換えています)。 b (a)で示されたパッセージに対する、事実に基づくタスクの集団レベルの注視ヒートマップ。 c (a)で示されたパッセージに対する解釈タスクのヒートマップ。 d-f 解釈タスクの後に事実に基づくタスクが表示された以外は(a-c)と同様。

事実課題において、問題に正解した場合とそうでない場合で視線パターンに違いがあるかどうかを検討した。 正解した参加者の視線はパッセージの関連する抜粋部分に集中し、不正解の場合は視線がより分散するか他の部分に集中するはずであると仮定しました。 図9aは、正解した参加者が関連するパッセージの領域内で注視する時間が、無関係な領域内で注視する時間よりも有意に長いことを示しています(関連する領域で62.29 ± 3.63% vs 無関係な領域で37.7 ± 3.63%; t(52) = 3.38, p = 0.001) 。

次に、課題レベルの難易度が視線と回答までの時間に及ぼす影響を調べました。 課題の難易度は、課題ごとの不正解率として定量化しました(時間と正確さを考慮した課題の難易度の追加尺度については、補足図6~7を参照)。 図9b-fは、簡単なタスクと難しいタスクの注視ヒートマップの例と、タスクの難易度の関数としての様々な測定基準の対応する散布図である。 予想通り、回答までの時間はタスクの難易度とともに増加しましたが、有意ではありませんでした(スピアマンの順位相関 r = 0.176, p = 0.63)。 また、文章への視線固定の回数は、課題の難易度とともに増加しました(r = 0.67, p = 0.04)。 さらに詳しく見ると、最も良い予測因子は、関連する抜粋に費やされた視線時間の割合(身長で正規化)であり、これは課題の難易度と強い負の相関があった(r = -0.72, p = 0.02)。 言い換えれば、課題の難易度が上がるにつれて、参加者は答えを含む関連箇所を見つける前に、通路中の無関係な箇所を見る時間が長くなったのです。 これらの結果は、スマートフォンを用いた注視が読解困難の検出に役立つことを示している。

Fig. 9: Effect of reading comprehension difficulty on gaze for factual task.

a Barplot shows % fixing duration on the relevant portion of passage (normalized by height) when participants answered correctly and not the factual question.The Marriage on the past of the fact factual task? エラーバーは平均±s.e.m.を示す(n = 53、正解と誤答の13タスク)。 d-f 課題の難易度の関数として異なる指標を示す散布図。 d 質問に答えるまでの時間(秒)(質問と文章を読む時間を含む)、e 文章上の修正回数、f 関連領域上の時間割合、文章の関連部分上の総修飾時間%として計算(高さで正規化される)。 統計的相関は、スピアマンの順位相関係数(n = 10タスク)、両側1標本t検定で報告。 信頼帯はブートストラップした68%信頼区間を表す。

コメントを残す

メールアドレスが公開されることはありません。