주간학습회고-2주차

2024-08-07 1 분 소요

편향 b: 데이터 x와 상호 작용하지 않고 출력에 영향을 미침 ex) 데이터 x: 3072 x 1 가중치: 10 x 3072 출력: 10 x 1, bias: 10 x 1
wx+b => w’x’으로 간략하게 표현할 수도 있지만 이 안에 bias 항도 포함된다는 것 기억하기!
3강 p35 -log 로 마이너스 기호 붙이는 이유! => 1에 가까워질수록 0, 0에 가까워질수록 무한대에 가까운 로스를 주기 위해서
새들포인트
힌지 손실이 계산적으로 더 효율적 => 미분값이 일정하므로
쿨백 라이블러 발산
torch.argmax() => 특정 차원에서 최댓값의 index를 찾기 위해 사용

ex) torch.argmax(t1, dim = 0) 열방향으로 비교해서 최대 index 도출
stack 개념 한번더 짚고 가기
cat 개념 한번더 짚기
backward() 함수 진행방식 => f(x,y,z) 가 있을 때 f.backwar() 시행하면 x,y,z 각각의 gradient 계산함!

따라서 x.grad y.grad z.grad 각각 나옴
super(Simple_NN, self).init()

Weight initialization 파트에서 표준정규분포에 0.01을 곱해주는 이유는 초기 가중치를 매우 작은 값으로 만들기 위함
하지만 이는 신경망이 깊어질수록 문제가 생기는데 0.01이 거듭제곱되면서 0에 수렴하고 tanh씌운값이 0으로 가기 때문!
small Gausian random, Large Gausian random, Xavier initialization
train_loss /= len(train_loader.dataset) # 일반적으로 샘플당 손실평균을 구함! dataset크기 상관없이 손실값 일관되게 해석 가능

EX) X1,X2,X3 이런식으로 순서대로 들어가야하고 한번에 같이 못함

참고