An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale (ICLR2021)

Jul 10, 2021

--

Introduction

由於 Transformer 在 NLP 上表現很好，最近流行拿來做在影像上，俗稱 Vision Transformer (ViT)，較不容易飽和，在大的資料集表現得比一般 Convolution 還好，且可以有任意長度的 input，但這部分會受到記憶體的限制。

Method

故意用和原始 NLP 的 Transformer 相似的架構，原本 Transformer 的 input 是一串 1D 的 embeddings，為了處理影像便將其改成 input 為 N 個 P*P 大小的 Patch，而 Transformer 需要固定大小為 D 的 Latent Vector 當作輸入，所以要先透過(1)把 Patch 變成 D 維的 patch embeddings，這部分也可以改成 feature map，MSA 是 multiheaded self-attention，LN 是 Layernorm，l 表示 layer。

Experiment

沿襲 BERT 的架構使用 Base、Large、Huge。

ViT-H/14 表示 ViT-Huge，patch 大小為 14x14。

在許多 VTAB 的 benchmark 表現都很好。

但其實裡面還有很多實驗，主要可以看出來 ViT 需要在比較大的 Dataset 才會有比較好的 Accuracy。

Hybrid 就是用 backbone output 的 feature map 當作 ViT 的 input。

從數據來說看起來很強，除了需要比較多的 data ，不意外最近新的論文都是做 Transformer，可以得到比較 global 的資訊，算是最近的趨勢，連特斯拉大老也用 ViT 相關的架構，連結可看後面 Reference。

Reference

[Tesla workshop]

Machine Learning

Balin

Written by Balin

NTUST CSIE

Help
Status
About
Careers
Blog
Privacy
Terms
Text to speech
Teams