Week5 03

2024-09-07 1 분 소요

강의 7강

Visual-language model
- Toward AGI
  - 사람의 지능 => perception 과 high level coginition으로 나눠서 생각할 수 있음
  - cognition은 어려운문제 => LLM 등장 => 부족한 부분 => Multi-modal interface를 만들어주면 어떨까?
- Early vision-language model
  - Cross-modal reasoning
    - Refrencing => visual data와 text가 주어졌을 때 두개의 데이터를 참조하면서 추론하는 형태의 모델링 방법
  - Show, attend and tell
    - image가 주어졌을 때 feature를 뽑고 어떤 부분을 보고 caption을 생성해야하는지 보기 위해 attention map을 추출함
    - attention map과 features를 weighted combination을 통해 feature z1를 뽑음
    - 처음엔 start word token을 이용해 다음 hidden feature(h1)를 생성하고 이를 이용해 다음단어를 decoding하고 다음단어가 참고를 해야하는 attention map을 도출
    - 다시 feature를 통해 z2도출, 이전단어를 이용해 h2 형성 그렇게 다음단어를 도출하고 이와같은 방식을 반복하여 captioning
  - Transformer
  - Flamingo
    - 이미지와 이미지에 대한 설명 페어를 줬을 때 이 이미지는 뭐야? 라고 물어봤을 때 그걸 completion하는 형태로 학습된 모델
    - Module base training과 유사하게 Language model은 pre-training 해놓고 fix를 해놓고
    - 새로운 learnable layer를 중간에 삽입 (Gated cross attention layer), 이부분만 학습을 진행
    - Strong한 vision encoder를 가져와서 이미지 feature 뽑게끔 만듦 => layer에 눈을 연결해줌
    - 이때 연결을 해주기 위해 Perceiver Resampler라는 모듈을 사용
    - Perceiver
    - input의 사이즈가 굉장히 다채로울 때 항상 fix dimensional data로 치환을 해주는 형태의 resampler
    - Vision input은 Key, Value 형태로 들어가고 Language input은 query형태로 들어감
    - cross-attention layer 삽입해서 학습 진행 => 파라미터는 적으면서 빠르게 적은 데이터로 학습하는 visual language model 이 만들어지게 됨
LLaVA
- Large Language and Vision Assistant
- visual-reasoning model
- pre-trained 된 large language model 사용
- Flamingo와 마찬가지로 strong Vision Encoder를 가져오고
- Language model이 이해할 수 있는 토큰 형태로 converting해주는 Projection layer 하나를 학습
- 학습을 시키기 위해 데이터 필요 => GPT-assisted visual instruction data 생성
  - conversation, detailed description, complex reasoning 이용 해서 학습데이터로 활용
- image feature가 token으로 interpretation가능하도록 만듦
- 이후 language model을 같이 fine-tuning하는 형태로 학습 진행 => Visual data와 Language instruction 이해하는 형태로 fitting
InstructBLIP
- LLaVA에서의 Projection layer가 훨씬 더 복잡한 Q-former로 변경됨
- Q-Former
  - Image Transformer
  - Text transformer
  - 두개를 가지고 Image-Text Contrastive Learining 둘의 alingment를 측정하는 형태
  - => Shares self-attention 을 함으로써 구현될 수 있음
  - Attention Masking을 통해 각각의 정보가 어느정도 섞일지, 어떤 방향으로 섞일지 결정
- X-InstructBLIP
Other visual reasoning
- Visual programming
  - Compositional visual reasoning without training
  - In-Context learning
    - 앞쪽의 예시를 줌으로써 learning
- PaLM-E
  - An Embodied Multimodal Language Model

Twitter Facebook LinkedIn

Dangtae

Week5 03

강의 7강

공유하기

댓글남기기

참고

Week5 04

Week5 02

Week5 01

Week4 03