Generalizing Gaze Estimation with Outlier-guided Collaborative Adaptation (ICCV 2021)

Balin
5 min readNov 7, 2021

--

Introduction

  • 提出 Plug-and-Play gaze adaptation framework (PnP-GA),透過Unsupervised 的方式產生 Target domain 的 Gaze estimation,且可輕鬆用在其他 Gaze estimation 架構上。
  • 提出 Outlier-guided loss,有別於一般 L1 和 L2 loss,可以讓模型比較能夠學習到 Outliers 的資訊,作者會有這想法主要是因為定義好 Noise labels 並優化 Error-prone 的部分在其他 Paper 中有證明對 Model generalization 是有幫助的。

Method

we propose a novel Plug-and-Play Gaze Adaptation (PnP-GA) framework with outlier-guidance and collaborative learning.

Model agnostic collaborative learning

  • 由於架構單純可以簡單套用到不同 Model 上,是作者提到的優點之一,另外 Temporal Average 是用 α 為 0.99 的 EMA 去計算參數的平均,用來解決直接計算兩者之間 Loss 導致 Error amplification 的問題,之後將兩者的 Feature 計算 JS divergence。

Outlier-guided loss function

  • Feature extractor 有 H (實驗設定為 10) 個 Models,先計算 Target domain output 的 Mean (μ) 和 Variance (σ)。
  • 並用 Source domain 的 Output 減掉 μ 除以 σ,u 表示一般常態分佈的分位數,ϵ 是 Hyperparameter 實驗設定為 0.05,將小於此分布的 g_k 當成 Reliable output,表示在合理的 Distribution 裡面。
  • Φ 是 Cumulative distribution function 沒概念的話可以看這個網址,γ 設定為 0.01,因此可以將 In/Outlier 給定不同的比重,此 Loss 同樣也會對 Target domain 進行計算。
  • 為了方便理解作者有提供下面這張圖比較 Loss 的曲線,Reliable range 則表示 Reliable output 的範圍。
  • 在 Source domain 的 Gaze estimation 透過 Supervised 的方式訓練 L1 distance。
  • Total loss 如下,λ_1 = 0.01,λ_2 = 0.1。

Experiment

使用的資料集有 ETH-XGaze (D_E)、Gaze360 (D_G)、MPI-IGaze (D_M)和 EyeDiap (D_D),其中 ETH-XGaze 和 Gaze360 資料的 distribution 較大因此拿來當 Source domain,後面兩個則當 Target domain。

  • Source only 表示沒用 Domain adaption,架構為 ResNet18。
  • 為了公平比較,其他的 Models 也都用 ResNet18 當作 Backbone。
  • oma = L_OG, js = L_JS, sg = L_SG
  • 比較 L1, L2, L_OG。
  • Hyperparameter

Reference

[arxiv]

--

--