논문 제목: An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale
An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale
<논문 리뷰 목차>
1. 배경
- 제안모델
- ViT 모델 아키텍처
- Fine-Tuning & Higher Resolution
- 평가 방법
- 평가 결과 분석
- 논문의 기여점 및 한계점
- 느낀점
- 질의사항
[1. 배경]
1) 선행 모델
- Transformer를 시작으로 Bert, GPT 등 여러 NLP task 다루는 모델 등장
- 컴퓨터 비전 분야에서, 여전히 Convolution 아키텍처가 압도적
- CNN-like 아키텍처에 self-attention 접목시키는 연구가 활발히 진행됨
- 미해결 문제점
- 현실적인 input 사이즈만큼 scale 되지 않음
→ 특수화된 어텐션 패턴을 사용하기 때문에 현대 하드웨어 가속기에서 효과적으로 확장되지 않음.
→ So, 대규모 이미지 인식에서는 여전히 고전적인 ResNet 유사 아키텍처가 최첨단
2) 제안 모델의 차별점
- 비슷한 기존 모델과의 비교
- Cordonnier et al. (2020)의 모델
- 선행 모델 요약: 입력 이미지에서 2x2 크기의 패치를 추출하고 그 위에 전체 self-attention을 적용
- 선행 모델의 한계: 작은 해상도의 이미지에만 적용 가능
- 제안 모델의 차별점:
- 추가적으로 대규모 사전 훈련을 통해 vanilla Transformer가 최첨단 CNN만큼 또는 그 이상의 성능을 보여줌
- ViT는 중간 해상도 이미지도 처리 가능
- image GPT 모델 (iGPT, Chen et al., 2020a)
- 선행 모델 요약: 이미지 해상도와 색 공간을 줄인 후 이미지 픽셀에 Transformers를 적용
- 생성 모델로 비지도 방식으로 훈련되며, 분류 성능을 위해 선형으로 미세 조정하거나 탐색
- ImageNet에서 최대 72%의 정확도를 달성
- 제안 모델의 차별점:
- 이미지 인식을 ImageNet보다 더 큰 scale에서 탐구