Week4 01

2024-08-30 1 분 소요

강의1

Computer Vision
입력이 되는 데이터에 대해 잘 이해 해야 함

Vision Transformer

이미지 데이터 모델에 입력하기 전 정규화 수행
- 수렴 속도 향상
- 과적합 방지
- 성능 향상
Fully Connected Layer를 이용해서 차원을 확장하는 것
- 모델의 표현력을 높이고, 각 레이어가 더 풍부한 정보를 학습할 수 있도록 돕기 위함

강의 3

Embedding Feature analysis
샘플을 통해 모델의 행동 관찰
고차원 데이터 => 차원 축소를 통해 관찰
- t-SNE => 고차원 -> 2차원 데이터로 시각화
Class visualization - Gradient ascent
- dummy image로 시작
- back propagtion으로 이미지 업데이트
- 재이용해서 score를 맥시마이즈 하는 스타일로 업데이트
- 모델이 이미지에 대해 이해하고있는 바를 알 수 있음
- 클래스 스코어가 아닌 특정 채널의 액티베이션을 최대화하는 방향으로도 사용가능
Model decision explanation
- 특정 모델이 특정 데이터를 보고 어떤 판단을 했을 때
- 어떤 부분을 보고 그런 결과를 도출하게 됐는지 분석 할 수 있는 방법
- CAM
  - 맨 마지막 layer를 FCL 대신 GAP을 사용 => fcn은 위치정보 사라짐
  - 위치 정보나 그런것들이 label이나 supervision으로 주어지지않고도
  - GAP이용해서 localization기능을 만들 수 있다
  - 네트워크 아키텍쳐의 변형 (모델 수정) 과 재학습이 필요하다는 단점
    - ResNet, GoogleNet 은 마지막 average pooling layer를 GAP으로 해석하여 재학습 없이 바로 사용가능하다는 장점있음
  - Grad-CAM => 모델 수정이나 재학습없이 한번에 클래스 엑티베이션 map을 구할 수 있음
    - 어떻게 weight를 얻어낼 까가 key idea
- ViT visualization
  - CLS 토큰 활용
- GAN dissection => 응용 사례
Data augmentation
- 데이터셋은 거의 항상 편향되어 있음
- 모델의 일반화성능에 방해
- 소수의 데이터를 가지고도 데이터를 불려줘서 실제 다양한 데이터분포를 커버하려는 노력
- 밝기조정, 회전, crop등 다양한 기법 활용
  - Brightness adjustment => 밝기 조정
  - Rotate, flip
  - Crop => 일부분만 관측하고도 똑같은 성능 낼 수 있게 학습 => 인덱싱 통해 일부 잘라줘서 구현
  - Affine transformation => 이미지 왜곡하지만 line, length ration paralleism 은 보존
  - CutMix => Mixing both images and labels => 구현은 간단하지만 모델의 performance를 획기적으로 올릴 수 있는 방법
  - RandAugment => 여러가지 augmentation을 시도하고 각각 평가하는 것을 반복함 => 최적의 policy 찾기
    - Policy => {N augmentations to apply}
- copy-paste => strong augmentation
- Video Motion Magnification => 수정된 비디오는 실제세상에 없는 비디오
- Synthetic data
Fur

Twitter Facebook LinkedIn

Dangtae

Week4 01

강의1

Vision Transformer

강의 3

공유하기

댓글남기기

참고

Week5 04

Week5 03

Week5 02

Week5 01