1 분 소요

강의1

  • Computer Vision
  • 입력이 되는 데이터에 대해 잘 이해 해야 함

Vision Transformer

  • 이미지 데이터 모델에 입력하기 전 정규화 수행
    • 수렴 속도 향상
    • 과적합 방지
    • 성능 향상
  • Fully Connected Layer를 이용해서 차원을 확장하는 것
    • 모델의 표현력을 높이고, 각 레이어가 더 풍부한 정보를 학습할 수 있도록 돕기 위함

강의 3

  • Embedding Feature analysis

  • 샘플을 통해 모델의 행동 관찰

  • 고차원 데이터 => 차원 축소를 통해 관찰
    • t-SNE => 고차원 -> 2차원 데이터로 시각화
  • Class visualization - Gradient ascent
    • dummy image로 시작
    • back propagtion으로 이미지 업데이트
    • 재이용해서 score를 맥시마이즈 하는 스타일로 업데이트
    • 모델이 이미지에 대해 이해하고있는 바를 알 수 있음
    • 클래스 스코어가 아닌 특정 채널의 액티베이션을 최대화하는 방향으로도 사용가능
  • Model decision explanation

    • 특정 모델이 특정 데이터를 보고 어떤 판단을 했을 때
    • 어떤 부분을 보고 그런 결과를 도출하게 됐는지 분석 할 수 있는 방법
    • CAM
      • 맨 마지막 layer를 FCL 대신 GAP을 사용 => fcn은 위치정보 사라짐
      • 위치 정보나 그런것들이 label이나 supervision으로 주어지지않고도
      • GAP이용해서 localization기능을 만들 수 있다
      • 네트워크 아키텍쳐의 변형 (모델 수정) 과 재학습이 필요하다는 단점
        • ResNet, GoogleNet 은 마지막 average pooling layer를 GAP으로 해석하여 재학습 없이 바로 사용가능하다는 장점있음
      • Grad-CAM => 모델 수정이나 재학습없이 한번에 클래스 엑티베이션 map을 구할 수 있음
        • 어떻게 weight를 얻어낼 까가 key idea
    • ViT visualization
      • CLS 토큰 활용
    • GAN dissection => 응용 사례
  • Data augmentation

    • 데이터셋은 거의 항상 편향되어 있음
    • 모델의 일반화성능에 방해
    • 소수의 데이터를 가지고도 데이터를 불려줘서 실제 다양한 데이터분포를 커버하려는 노력
    • 밝기조정, 회전, crop등 다양한 기법 활용
      • Brightness adjustment => 밝기 조정
      • Rotate, flip
      • Crop => 일부분만 관측하고도 똑같은 성능 낼 수 있게 학습 => 인덱싱 통해 일부 잘라줘서 구현
      • Affine transformation => 이미지 왜곡하지만 line, length ration paralleism 은 보존
      • CutMix => Mixing both images and labels => 구현은 간단하지만 모델의 performance를 획기적으로 올릴 수 있는 방법
      • RandAugment => 여러가지 augmentation을 시도하고 각각 평가하는 것을 반복함 => 최적의 policy 찾기
        • Policy => {N augmentations to apply}
    • copy-paste => strong augmentation
    • Video Motion Magnification => 수정된 비디오는 실제세상에 없는 비디오
    • Synthetic data
  • Fur

업데이트:

댓글남기기