Visual Focus of Attention Estimation in 3D Scene
with an Arbitrary Number of Targets (CVPR2021)

Balin
4 min readOct 18, 2021

--

Introduction

  • 透過 body frame 當作坐標系去 normalize 角度資訊,並將其轉換為 180x180 的 2D map,每個 pixel 就可以代表對應的 yaw, elevation angles,如此一來就不會被相機的相對位置影響,且可以丟進 CNN based 的 model,並 input 數個 targets,且做 data augmentation 也會變容易。

Method

  • 架構圖如下,藍色的 block 為 3x3 conv + activation function,橘色的為 encoder residual block,紅色為 decoder residual block,紫色為 1x1 conv,白色為單獨的 activation function,綠色為 up/downsampling。
  • 基於 3D position 和有 binary 的 speaking status 的情況,其概念為把所有的 feature 如 head pose, gaze, target directions 取出來計算其和身體方向的仰角轉角資訊,換句話說就是基於 body frame 的坐標系進行計算,讓其不會受到 camera 位置的影響,因此這些 normalize 後的資訊就可以 encode 成相同的 feature space,用 180x180 的 2D map 表示,每個 pixel 則代表 yaw 和 elevation 角度,讓其可以 represent 多個 targets,而此角度會用以下 2D gaussian 生成一個如上圖左上的範圍,除了 speaking status 是全部 1 (如果有在講話) 或 0 的值,最後將這 5 個 map concatenate 在一起當成 network 的 input。

Body frame estimation

  • 透過 OpenPose 得到的,為右上圖片的綠點,只取上半身的部分。

Head pose

  • 透過 Headfusion method 取得,若是和身體的方向的 yaw 角為 0 則表示頭跟身體朝同一個方向,但不代表一定是看向相機,因為是基於身體的坐標系。

Gaze estimation

  • Kenneth 提出的方法透過 mesh 的方式將臉部轉正後再用 Toolkit 的眼睛偵測得到 crop 的 eye images (36x60),之後透過 GazeNet 取得 Gaze direction。

Loss

  • M_out: output map
  • M_tar: target map
  • M_vsal: visual saliency map(淺在有可能的 targets)

Experiment

Dataset: KTH-Idiap, UBImpressed

Result

vfoaAcc 和 F1 score 都是越高越好。

Reference

[Open access]

--

--