Week4 01
강의1
- Computer Vision
- 입력이 되는 데이터에 대해 잘 이해 해야 함
Vision Transformer
- 이미지 데이터 모델에 입력하기 전 정규화 수행
- 수렴 속도 향상
- 과적합 방지
- 성능 향상
- Fully Connected Layer를 이용해서 차원을 확장하는 것
- 모델의 표현력을 높이고, 각 레이어가 더 풍부한 정보를 학습할 수 있도록 돕기 위함
강의 3
-
Embedding Feature analysis
-
샘플을 통해 모델의 행동 관찰
- 고차원 데이터 => 차원 축소를 통해 관찰
- t-SNE => 고차원 -> 2차원 데이터로 시각화
- Class visualization - Gradient ascent
- dummy image로 시작
- back propagtion으로 이미지 업데이트
- 재이용해서 score를 맥시마이즈 하는 스타일로 업데이트
- 모델이 이미지에 대해 이해하고있는 바를 알 수 있음
- 클래스 스코어가 아닌 특정 채널의 액티베이션을 최대화하는 방향으로도 사용가능
-
Model decision explanation
- 특정 모델이 특정 데이터를 보고 어떤 판단을 했을 때
- 어떤 부분을 보고 그런 결과를 도출하게 됐는지 분석 할 수 있는 방법
- CAM
- 맨 마지막 layer를 FCL 대신 GAP을 사용 => fcn은 위치정보 사라짐
- 위치 정보나 그런것들이 label이나 supervision으로 주어지지않고도
- GAP이용해서 localization기능을 만들 수 있다
- 네트워크 아키텍쳐의 변형 (모델 수정) 과 재학습이 필요하다는 단점
- ResNet, GoogleNet 은 마지막 average pooling layer를 GAP으로 해석하여 재학습 없이 바로 사용가능하다는 장점있음
- Grad-CAM => 모델 수정이나 재학습없이 한번에 클래스 엑티베이션 map을 구할 수 있음
- 어떻게 weight를 얻어낼 까가 key idea
- ViT visualization
- CLS 토큰 활용
- GAN dissection => 응용 사례
-
Data augmentation
- 데이터셋은 거의 항상 편향되어 있음
- 모델의 일반화성능에 방해
- 소수의 데이터를 가지고도 데이터를 불려줘서 실제 다양한 데이터분포를 커버하려는 노력
- 밝기조정, 회전, crop등 다양한 기법 활용
Brightness adjustment
=> 밝기 조정Rotate, flip
Crop
=> 일부분만 관측하고도 똑같은 성능 낼 수 있게 학습 => 인덱싱 통해 일부 잘라줘서 구현Affine transformation
=> 이미지 왜곡하지만line, length ration paralleism
은 보존- CutMix => Mixing both images and labels => 구현은 간단하지만 모델의 performance를 획기적으로 올릴 수 있는 방법
- RandAugment => 여러가지 augmentation을 시도하고 각각 평가하는 것을 반복함 => 최적의 policy 찾기
- Policy => {N augmentations to apply}
- copy-paste => strong augmentation
- Video Motion Magnification => 수정된 비디오는 실제세상에 없는 비디오
- Synthetic data
- Fur
댓글남기기