Learning-based Region Selection for End-to-End Gaze Estimation (BMVC2020)

Balin
6 min readNov 16, 2021

--

Introduction

右邊為作者提出的方法

作者認為 Appearance-based 的 Gaze estimation 如果用固定的位置當成 Input 很容易受到環境影響,且頭部方向如果很歪或有部份遮擋不見得能得到最 Informative 的區域,因此提出可以基於 Image content 動態選擇 Facial regions 的方式,貢獻如下。

  1. 提出可以動態選擇 Informative regions 的 Region Selection Network(RSN)和進行 Gaze 預測的 Gaze estimation network(Gaze Net) 的 End-to-end framework。
  2. 透過 Three-stage 的方式以及提出新的 Loss 去訓練 RSN module without the label. 
  3. SOTA within GazeCapture and cross-dataset evaluations, particularly for challenging cases, e.g. difficult lighting conditions, extreme head angles, self-occlusion.

Method

  • 先將臉部的影像(Input image)透過 RSN,讓其從 Location pool 隨機選擇 M 個 Region 然後將表示原本位置用的 Region grids 和 Crop 下來的臉部資訊以及 Input image(只有某些實驗有 Input image) 丟到 Gaze Net,讓其可以辨識出哪些 Regions 比較適合 Gaze estimation 的任務。
  • Gaze Net 的部份會將 Region grids、Regions 和 Input image(可不輸入)經過 Backbone 後將其 Feature concatenate,之後丟掉三層的 FC layers 去預測 2D gaze direction(g)。

然而要有效的訓練 RSN 並不容易,即使是人類用標註的方式也無法準確的知道說哪裡是 Informative regions,而且也無法直接拿 Gaze Net 的 Accuracy 當作 Supervision signal,因為 RSN 會先許選擇有比較高 Gaze estimation error 的地方,因此很容易卡在 local minima,因此採用以下 Three stages 的方式進行訓練。

Training procedure

Stage one:

  • 用 Supervised 的方式訓練 Gaze,此時的 Regions 是 Randomly selected。

Stage two:

  • 透過 RSN(下標 _s) 和 Random(下標 _r) 的方式選取的 Regions 分別丟入 Gaze Net 然後分別輸出 g_s 和 g_r,並計算兩者個 estimation error e_s/e_r,但因為原本的 g_s/g_r 是二維球座標系的 yaw 和 pitch,所以要轉換為三維的向量然後算 cosine similarity。
  • 而訓練 RSN 的目標為讓其根據 Gaze error 輸出兩個區域的選擇機率,因此透過以下的 Loss 讓其機率和 Error 成正比。
  • i = index, δ = 3.0 (防止 p_s/p_r 的值太大)。

Stage three:

  • RSN 收斂後訓練 Gaze net from scratch,此時的 Regions 是透過 RSN 產生,Input face image 只有在有些實驗有當成 Gaze net 的 input,

Once the RSN is fully trained, we re-train the gaze net to learn to predict more accurate gaze estimates given optimized region selections.

Experiment

Datasets

  • GazeCapture, EYEDIAP and MPIIGaze

Baseline 的 Single-region 是分別訓練只有左/右眼的 Gaze net 然後平均兩者的 Performance,而有 RSN 的方法會選擇比較清楚的那隻眼睛,+Face 表示有加入 Input face image。

(h) 是 Failure case
Two-region (first row) and three-region (second row)
GazeCapture evaluation

比較其他 Model 在 single/cross dataset 的 Performance。

Reference

[BMVC2020]

Sign up to discover human stories that deepen your understanding of the world.

Free

Distraction-free reading. No ads.

Organize your knowledge with lists and highlights.

Tell your story. Find your audience.

Membership

Read member-only stories

Support writers you read most

Earn money for your writing

Listen to audio narrations

Read offline with the Medium app

--

--

No responses yet

Write a response