Visual Focus of Attention Estimation in 3D Scene
with an Arbitrary Number of Targets (CVPR2021)

4 min readOct 18, 2021

--

Introduction

透過 body frame 當作坐標系去 normalize 角度資訊，並將其轉換為 180x180 的 2D map，每個 pixel 就可以代表對應的 yaw, elevation angles，如此一來就不會被相機的相對位置影響，且可以丟進 CNN based 的 model，並 input 數個 targets，且做 data augmentation 也會變容易。

Method

架構圖如下，藍色的 block 為 3x3 conv + activation function，橘色的為 encoder residual block，紅色為 decoder residual block，紫色為 1x1 conv，白色為單獨的 activation function，綠色為 up/downsampling。

基於 3D position 和有 binary 的 speaking status 的情況，其概念為把所有的 feature 如 head pose, gaze, target directions 取出來計算其和身體方向的仰角轉角資訊，換句話說就是基於 body frame 的坐標系進行計算，讓其不會受到 camera 位置的影響，因此這些 normalize 後的資訊就可以 encode 成相同的 feature space，用 180x180 的 2D map 表示，每個 pixel 則代表 yaw 和 elevation 角度，讓其可以 represent 多個 targets，而此角度會用以下 2D gaussian 生成一個如上圖左上的範圍，除了 speaking status 是全部 1 (如果有在講話) 或 0 的值，最後將這 5 個 map concatenate 在一起當成 network 的 input。

Body frame estimation

透過 OpenPose 得到的，為右上圖片的綠點，只取上半身的部分。

Head pose

透過 Headfusion method 取得，若是和身體的方向的 yaw 角為 0 則表示頭跟身體朝同一個方向，但不代表一定是看向相機，因為是基於身體的坐標系。

Gaze estimation

用 Kenneth 提出的方法透過 mesh 的方式將臉部轉正後再用 Toolkit 的眼睛偵測得到 crop 的 eye images (36x60)，之後透過 GazeNet 取得 Gaze direction。

Loss

M_out: output map
M_tar: target map
M_vsal: visual saliency map(淺在有可能的 targets)

Experiment

Dataset: KTH-Idiap, UBImpressed

Result

vfoaAcc 和 F1 score 都是越高越好。

Reference

Computer Vision

Computer Science

Balin

Written by Balin

NTUST CSIE

Help
Status
About
Careers
Press
Blog
Privacy
Terms
Text to speech
Teams