An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale (ICLR2021)

Balin
Jul 10, 2021

Introduction

  • 由於 Transformer 在 NLP 上表現很好,最近流行拿來做在影像上,俗稱 Vision Transformer (ViT),較不容易飽和,在大的資料集表現得比一般 Convolution 還好, 且可以有任意長度的 input,但這部分會受到記憶體的限制。

Method

  • 故意用和原始 NLP 的 Transformer 相似的架構,原本 Transformer 的 input 是一串 1D 的 embeddings,為了處理影像便將其改成 input 為 N 個 P*P 大小的 Patch,而 Transformer 需要固定大小為 D 的 Latent Vector 當作輸入,所以要先透過(1)把 Patch 變成 D 維的 patch embeddings,這部分也可以改成 feature map,MSA 是 multiheaded self-attention,LN 是 Layernorm,l 表示 layer。

Experiment

  • 沿襲 BERT 的架構使用 Base、Large、Huge。
  • ViT-H/14 表示 ViT-Huge,patch 大小為 14x14。
  • 在許多 VTAB 的 benchmark 表現都很好。
  • 但其實裡面還有很多實驗,主要可以看出來 ViT 需要在比較大的 Dataset 才會有比較好的 Accuracy。
  • Hybrid 就是用 backbone output 的 feature map 當作 ViT 的 input。
  • 從數據來說看起來很強,除了需要比較多的 data ,不意外最近新的論文都是做 Transformer,可以得到比較 global 的資訊,算是最近的趨勢,連特斯拉大老也用 ViT 相關的架構,連結可看後面 Reference。

Reference

[arxiv]

[Tesla workshop]

--

--