[paper review] Efficient Estimation of Word Representations in Vector Space (Word2Vec)
·
DL·ML
Abstract Propose two model architrectures for computing continuous word vector (CBOW, Skip-Gram) Propose two modified NNLM model using binary tree Introduce new method to measure word similarity Show that newly introduced models can be trained on very large model (reduced time complexity) Previous Works 기존에 있었던 word vector 학습 모델은 크게 두 가지로 나눌 수 있었다. 1. SVD(Singular Value Decomposition) 기반 모델 LSD(..
[DL] Hierarchical Softmax
·
DL·ML
Introduction Word2Vec에서 weight를 학습하기 위해서 마지막에 Softmax function을 사용한다. 이때 Skip-gram에서 사용하는 softmax function은 다음과 같이 정의된다 : $$ p(w_O | w_I) = {{ \exp{\left( {v'_{w_O}}^T v_{w_I} \right)} } \over { \sum^W_{w=1} \exp{\left( {v'_{w}}^T v_{w_I} \right)}} } $$ 이때 분모는 corpus 안에 있는 모든 단어들을 대상으로 inner product를 하는 것이다. 보통 $W$는 $10^5-10^7$ 사이의 값이므로 대단히 computationally expensive하다. time complexity는 $O(W)$이다...
[ML] Reduced Error Pruning
·
DL·ML
Decision Tree Training은 가장 널리 사용되는 machine learning 방법론 중 하나이다. 이 중 자주 사용되는 것은 ID3, ASSISTANT, C4.5가 있다. 여기서는 ID3의 간략한 소개와 ID3의 pruning 방법 중 하나인 Reduced Error Pruning에 대해서 다루어보고자 한다. Decision Tree의 간략한 소개 Decision Tree는 학습에 Tree 형태의 decision tree를 사용한다. 다음과 같은 모양이다. 전체 형태를 보면 맨 위의 root node, 중간의 branch node, 말단의 leaf node로 구성되어 있다. 말단 노드인 leaf node에 class label이 붙어 있는 것을 알 수 있고, branch node는 특성들..
[DL] RNN(Recursive Neural Network)의 이해
·
DL·ML
RNN(Recurrent Neural Network) Sequential data 일반적으로 deep neural network에서는 input과 output이 하나의 vector인 one-to-one으로 이루어진다. 하지만 어떤 경우에는 sequential data가 input이나 output에 포함되는 경우가 있다. 예를 들어 stochastic process(time series)나 ordered data structures가 있다. speech recognition이 time series에 해당하는 주요 예시가 될 것이고, machine translation이 ordered data structure의 예가 될 것이다. 이런 경우에 one-to-many나 many-to-many, many-to-o..
Xavier initializer
·
DL·ML
논문에 언급된 내용이 아닌 주관적인 생각은 파란색으로 표기하였습니다. Abstract 왜 random initialization을 사용하는 gradient descent가 deep neural network에서 저조한 결과가 나오는지 알아본다. non-linear activation function이 각각 학습에 어떤 영향을 미치는지 알아본다. 이 연구에서, sigmoid activation은 random initialization을 사용하는 DNN에 unsuit함을 알아낸다. 덜 saturate하는 새로운 non-linearity(softsign activation)가 학습에 유의미한 성과를 가져옴을 보여주었다. activation과 gradient가 layer별로 어떻게 변화하는지 살펴보았다. 훨씬 ..
[paper review] ImageNet Classification with Deep Convolutional Neural Network (AlexNet)
·
DL·ML
Abstract participated in LSVRC-2010 contest classify 1.2 million high-resolution images into the 1000 different classes on the test data, acheived top-1 and top-5 error rate of 37.5% and 17.5% architecture has 60 million parameters and 650,000 neurons consists of 5 Conv layer, 3 FC layer Used non-saturating neuron and GPU implementation 1. Introduction 지금까지의 machine learning method를 이용한 object r..
경사하강법(Gradient Descent)
·
DL·ML
• gradient descent(경사 하강법) · gradient descent 신경망의 최적화(optimization) 과정에서는 gradient descent를 사용한다. gradient는 결과값에 대한 weight의 편미분 벡터이다. 기하적으로는 기울기가 가장 가파른 접선 벡터를 의미하여 steepest descent(최급경사법)이라고도 한다. 예컨대 다음과 같은 간단한 이변수 함수를 정의하자. 이 함수 f의 gradient는 다음과 같이 쓸 수 있다. gradient가 가리키는 방향으로 접근함으로써, 극소값 또는 극대값을 얻을 수 있다. (반드시 최소값 또는 최대값이 되는 것은 아니다) 위의 예를 시각화해 보자. 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 1..