360-Degree Gaze Estimation in the Wild Using Multiple Zoom Scales (BMVC 2021)

Balin
4 min readDec 7, 2021

--

Introduction

台大林軒田實驗室出的論文,主要有兩個貢獻。

  1. 提出透過 Multiple scales 的方式解決 Gaze estimation in the wild 資料大小不一的問題,與 Baseline 相同不需要使用 Eye, head pose, facial keypoints 之類的資訊,只需要簡單的 Head detector。
  2. 透過 Polar representation 的方式預測 Backward yaw angle prediction 減輕球座標角度不連續的問題。

Method

  • 利用現有的 Head detector 得到 Head-crop image (I),Input 一段影像,輸出每個 Frame 的 yaw(θ_p) 和 pitch(Φ_p),θ 和 Φ 為球座標系的 yaw 和 pitch,下標 _p = predict, _g = ground truth。
  • 但因為球座標系在正後方是 π 和 -π 交界的地方會導致不連續的問題,因此此篇改預測 sin(θ){θ_s}, cos(θ){θ_c}, and sin(Φ) 並用 tanh activation 保證輸出在合理的 Range。
  • 作者認為 0 度左右的時候 θ_s 比較準,且因為 tanh 分布的關係會導致很難預測 0 度和 +- 90 度左右的值,因此另外用下面的方式計算 Weight。
  • Loss 的部分和 Baseline model(Gaze360) 一樣,σ = uncertainty, τ = quantile,σ 是模型輸出的一個 probability,這邊的概念和這篇論文的 Reliable output 的概念也很像,τ 設定為 0.1 和 0.9,最後的 Loss 是兩者計算完的平均。
MSA (Multiple Scale Aggregation)
  • Input sequence 從第一幀影像原本的 Size(C_0) 依序 Crop 越大直到 C_T,使得臉部範圍越大,然後再依序回到原本的 Size(C_0),讓輸入能有不同 Scale 的影像,之後再丟到 MSA,實驗設定 T = 3,Crop 大小分別為 [224,200,175,150]。
  • MSA 的部分就是 Backbone 加上對不同 Scale 的 Feature 做 Max-pooling 之後進行 Predict。

Experiment

Backbone 為 Resnet18,Static 表示沒用 Multi-crop,SSA 是沒有 Multi-crop 的 MSA,raw 表示直接預測 θ,avg 是直接平均 θ_s 和 θ_c。

Gaze360 dataset

Reference

[arxiv]

--

--