1 분 소요

day 1

  • 편향 b: 데이터 x와 상호 작용하지 않고 출력에 영향을 미침 ex) 데이터 x: 3072 x 1 가중치: 10 x 3072 출력: 10 x 1, bias: 10 x 1

  • wx+b => w’x’으로 간략하게 표현할 수도 있지만 이 안에 bias 항도 포함된다는 것 기억하기!

  • 3강 p35 -log 로 마이너스 기호 붙이는 이유! => 1에 가까워질수록 0, 0에 가까워질수록 무한대에 가까운 로스를 주기 위해서

  • 새들포인트

  • 힌지 손실이 계산적으로 더 효율적 => 미분값이 일정하므로

  • 쿨백 라이블러 발산

  • torch.argmax() => 특정 차원에서 최댓값의 index를 찾기 위해 사용

    ex) torch.argmax(t1, dim = 0) 열방향으로 비교해서 최대 index 도출

  • stack 개념 한번더 짚고 가기

  • cat 개념 한번더 짚기

  • backward() 함수 진행방식 => f(x,y,z) 가 있을 때 f.backwar() 시행하면 x,y,z 각각의 gradient 계산함!

    따라서 x.grad y.grad z.grad 각각 나옴

  • super(Simple_NN, self).init()

day 2

  • Weight initialization 파트에서 표준정규분포에 0.01을 곱해주는 이유는 초기 가중치를 매우 작은 값으로 만들기 위함
  • 하지만 이는 신경망이 깊어질수록 문제가 생기는데 0.01이 거듭제곱되면서 0에 수렴하고 tanh씌운값이 0으로 가기 때문!
  • small Gausian random, Large Gausian random, Xavier initialization
  • train_loss /= len(train_loader.dataset) # 일반적으로 샘플당 손실평균을 구함! dataset크기 상관없이 손실값 일관되게 해석 가능

day 3

  • 밑바닥부터 시작하는 딥러닝
  • 모두의 딥러닝 책 사서 공부하기
  • 과제2에 치이기

day 4

  • RNN 은 병렬화가 어려움 시퀀스 데이터를 순서에 맞게 넣어야하므로 한번에 처리하는 병렬화 불가

EX) X1,X2,X3 이런식으로 순서대로 들어가야하고 한번에 같이 못함

  • many to many RNN => 입력 sequence와 출력 sequence 길이 같아야함 => seq2seq 모델 등장
  • RNN back propagation과정에서 기울기 소실, 기울기 폭발 과정 수식적으로 이해해보기
  • attention은 input과 output의 길이가 달라도 되는이유? 설명하기
  • embedding => 워드 임베딩: 텍스트를 벡터로 변환

day 5

  • 좀 더 적극적으로 내것으로 만들기 위해 노력할 것
  • 그때 그때 새로 알게되고 이해한 내용 정리하기
  • wikidocs 내용 정독하기 => 앞에서부터 한번 읽어보면 내용 정리에 도움이 될듯!
  • 주말동안 할일 생각해보기
  • 주간 회고 한번 작성해보기
  • 학습정리와 주간회고는 별개로 글 작성하기
  • 학습정리는 그날그날 공부하면서 모르는 내용과 알게된 내용 정리하기 => 이후 복습때 모르는 내용 공부!

주간 회고

  • 이번주차는 딥러닝, 머신러닝에 대한 내 지식이 정말 얕다는 것을 뼈저리게 느낀 시간이었ㄷ.
  • 하지만 여기에 굴하지 않고 이번 주말동안 내것으로 최대한 만들것이다!
  • wikidocs, 딥러닝 도서 등을 이용해 이번주차 내용을 최대한 이해하고 넘어갈것이다
  • 집에서 공부만 하기보단 헬스장 가서 몸도 좀 써야겠다 => 스트레스 해소, 건강관리!
  • 또한 집에 같은 의자에만 앉아있으니 베겨서 저녁타임엔 랩실활용 공부도 하기!

댓글남기기