Week5 03
강의 7강
-
Visual-language model
-
Toward AGI
- 사람의 지능 => perception 과 high level coginition으로 나눠서 생각할 수 있음
- cognition은 어려운문제 => LLM 등장 => 부족한 부분 => Multi-modal interface를 만들어주면 어떨까?
-
Early vision-language model
-
Cross-modal reasoning
- Refrencing => visual data와 text가 주어졌을 때 두개의 데이터를 참조하면서 추론하는 형태의 모델링 방법
-
Show, attend and tell
- image가 주어졌을 때 feature를 뽑고 어떤 부분을 보고 caption을 생성해야하는지 보기 위해 attention map을 추출함
- attention map과 features를 weighted combination을 통해 feature z1를 뽑음
- 처음엔 start word token을 이용해 다음 hidden feature(h1)를 생성하고 이를 이용해 다음단어를 decoding하고 다음단어가 참고를 해야하는 attention map을 도출
- 다시 feature를 통해 z2도출, 이전단어를 이용해 h2 형성 그렇게 다음단어를 도출하고 이와같은 방식을 반복하여 captioning
-
Transformer
-
Flamingo
- 이미지와 이미지에 대한 설명 페어를 줬을 때 이 이미지는 뭐야? 라고 물어봤을 때 그걸 completion하는 형태로 학습된 모델
- Module base training과 유사하게 Language model은 pre-training 해놓고 fix를 해놓고
- 새로운 learnable layer를 중간에 삽입 (Gated cross attention layer), 이부분만 학습을 진행
- Strong한 vision encoder를 가져와서 이미지 feature 뽑게끔 만듦 => layer에 눈을 연결해줌
- 이때 연결을 해주기 위해 Perceiver Resampler라는 모듈을 사용
- Perceiver
-
input의 사이즈가 굉장히 다채로울 때 항상 fix dimensional data로 치환을 해주는 형태의 resampler
-
Vision input은 Key, Value 형태로 들어가고 Language input은 query형태로 들어감
- cross-attention layer 삽입해서 학습 진행 => 파라미터는 적으면서 빠르게 적은 데이터로 학습하는 visual language model 이 만들어지게 됨
-
-
-
LLaVA
- Large Language and Vision Assistant
- visual-reasoning model
- pre-trained 된 large language model 사용
- Flamingo와 마찬가지로 strong Vision Encoder를 가져오고
- Language model이 이해할 수 있는 토큰 형태로 converting해주는 Projection layer 하나를 학습
- 학습을 시키기 위해 데이터 필요 => GPT-assisted visual instruction data 생성
- conversation, detailed description, complex reasoning 이용 해서 학습데이터로 활용
- image feature가 token으로 interpretation가능하도록 만듦
- 이후 language model을 같이 fine-tuning하는 형태로 학습 진행 => Visual data와 Language instruction 이해하는 형태로 fitting
- InstructBLIP
- LLaVA에서의 Projection layer가 훨씬 더 복잡한 Q-former로 변경됨
- Q-Former
- Image Transformer
- Text transformer
- 두개를 가지고 Image-Text Contrastive Learining 둘의 alingment를 측정하는 형태
- => Shares self-attention 을 함으로써 구현될 수 있음
- Attention Masking을 통해 각각의 정보가 어느정도 섞일지, 어떤 방향으로 섞일지 결정
- X-InstructBLIP
- Other visual reasoning
- Visual programming
- Compositional visual reasoning without training
- In-Context learning
- 앞쪽의 예시를 줌으로써 learning
- PaLM-E
- An Embodied Multimodal Language Model
- Visual programming
댓글남기기