Big Self-Supervised Models are Strong Semi-Supervised Learners (NeurIPS2020)

6 min readAug 29, 2021

Introduction

此篇為 SimCLR 的第二版，兩者概念都相同，跟 NLP 任務一樣會先從 Self-Supervised 的方式得到 General 的 Pretrained presentation 之後再用少量的 Labeled data 做 Supervised fine-tuning，藉此完成 Semi-Supervised learning。

此外也可以透過 distillation 的方式再次利用 unlabeled 的資料，提升最後在 Fine-tuning 任務上的結果。

主要有以下三個步驟：

使用 ResNet 和 SimCLRv2 做 Unsupervised 的 pretraining
用部分 Labeled data 做 Supervised fine-tuning
運用 Unlabeled data 進行在特定任務使用 distillation

然後有幾個透過實驗得出來的結論：

用越大的網路 (deep and wide) 做 self-supervised pretraining 或 fine-tuning 會大幅增加準確度，且越少的 label 效果越明顯。

透過 distillation 的方式做 fine-tuning 可以讓模型適應指定的任務並減少模型大小(或是說減少多餘的參數)，同時做第二次的 self-supervised。
projection head 的深度也可以改善 representation quality，並提高從 projection head 的 middle layer 做 fine-tuning 的 performance。

Method

與 v1 不同的地方

用了更大的模型進行實驗 (ResNet-50 to ResNet-152 (3+SK))
使用更深的 projection head (2-layer to 3-layer)
使用移動平均 weight 的 memory network 並將其輸出當成 negative examples

Self-supervised pretraining with SimCLRv2

與 v1 一樣的架構對兩個不同 augmentation 的結果透過 ResNet encode 之後再接上 MLP projection head 計算如下的 contrastive loss。

Fine-tuning

task-agnostically 到 task-specific 常見的作法，v1 pretrain 完之後是直接把 projection head 丟掉然後在 encode 完的地方 fine-tuning，v2 則是在 projection head 的 middle layer 進行 fine-tuning，就可以直接把他當成特定任務上的 head 來使用。

Self-training / knowledge distillation via unlabeled examples