![](https://img1.daumcdn.net/thumb/R750x0/?scode=mtistory2&fname=https%3A%2F%2Fblog.kakaocdn.net%2Fdn%2FbFnpnG%2FbtrozkAFObU%2F1x5zroKyKUaeOghuwImn8K%2Fimg.png)
Xavier initializer
·
DL·ML
논문에 언급된 내용이 아닌 주관적인 생각은 파란색으로 표기하였습니다. Abstract 왜 random initialization을 사용하는 gradient descent가 deep neural network에서 저조한 결과가 나오는지 알아본다. non-linear activation function이 각각 학습에 어떤 영향을 미치는지 알아본다. 이 연구에서, sigmoid activation은 random initialization을 사용하는 DNN에 unsuit함을 알아낸다. 덜 saturate하는 새로운 non-linearity(softsign activation)가 학습에 유의미한 성과를 가져옴을 보여주었다. activation과 gradient가 layer별로 어떻게 변화하는지 살펴보았다. 훨씬 ..