1 분 소요

강의 7강

  • Visual-language model

    • Toward AGI

      • 사람의 지능 => perception 과 high level coginition으로 나눠서 생각할 수 있음
      • cognition은 어려운문제 => LLM 등장 => 부족한 부분 => Multi-modal interface를 만들어주면 어떨까?
    • Early vision-language model

      • Cross-modal reasoning

        • Refrencing => visual data와 text가 주어졌을 때 두개의 데이터를 참조하면서 추론하는 형태의 모델링 방법
      • Show, attend and tell

        • image가 주어졌을 때 feature를 뽑고 어떤 부분을 보고 caption을 생성해야하는지 보기 위해 attention map을 추출함
        • attention map과 features를 weighted combination을 통해 feature z1를 뽑음
        • 처음엔 start word token을 이용해 다음 hidden feature(h1)를 생성하고 이를 이용해 다음단어를 decoding하고 다음단어가 참고를 해야하는 attention map을 도출
        • 다시 feature를 통해 z2도출, 이전단어를 이용해 h2 형성 그렇게 다음단어를 도출하고 이와같은 방식을 반복하여 captioning
      • Transformer

      • Flamingo

        • 이미지와 이미지에 대한 설명 페어를 줬을 때 이 이미지는 뭐야? 라고 물어봤을 때 그걸 completion하는 형태로 학습된 모델
        • Module base training과 유사하게 Language model은 pre-training 해놓고 fix를 해놓고
        • 새로운 learnable layer를 중간에 삽입 (Gated cross attention layer), 이부분만 학습을 진행
        • Strong한 vision encoder를 가져와서 이미지 feature 뽑게끔 만듦 => layer에 눈을 연결해줌
        • 이때 연결을 해주기 위해 Perceiver Resampler라는 모듈을 사용
        • Perceiver
        • input의 사이즈가 굉장히 다채로울 때 항상 fix dimensional data로 치환을 해주는 형태의 resampler

        • Vision input은 Key, Value 형태로 들어가고 Language input은 query형태로 들어감

        • cross-attention layer 삽입해서 학습 진행 => 파라미터는 적으면서 빠르게 적은 데이터로 학습하는 visual language model 이 만들어지게 됨
  • LLaVA

    • Large Language and Vision Assistant
    • visual-reasoning model
    • pre-trained 된 large language model 사용
    • Flamingo와 마찬가지로 strong Vision Encoder를 가져오고
    • Language model이 이해할 수 있는 토큰 형태로 converting해주는 Projection layer 하나를 학습
    • 학습을 시키기 위해 데이터 필요 => GPT-assisted visual instruction data 생성
      • conversation, detailed description, complex reasoning 이용 해서 학습데이터로 활용
    • image feature가 token으로 interpretation가능하도록 만듦
    • 이후 language model을 같이 fine-tuning하는 형태로 학습 진행 => Visual data와 Language instruction 이해하는 형태로 fitting
  • InstructBLIP
    • LLaVA에서의 Projection layer가 훨씬 더 복잡한 Q-former로 변경됨
    • Q-Former
      • Image Transformer
      • Text transformer
      • 두개를 가지고 Image-Text Contrastive Learining 둘의 alingment를 측정하는 형태
      • => Shares self-attention 을 함으로써 구현될 수 있음
      • Attention Masking을 통해 각각의 정보가 어느정도 섞일지, 어떤 방향으로 섞일지 결정
    • X-InstructBLIP
  • Other visual reasoning
    • Visual programming
      • Compositional visual reasoning without training
      • In-Context learning
        • 앞쪽의 예시를 줌으로써 learning
    • PaLM-E
      • An Embodied Multimodal Language Model

업데이트:

댓글남기기