The Linear Explanation of Adversarial Examples
Goodfellow et al.은 이 논문에서 adversarial example이 가능한 것은 high-dimensional space에서 linear behavior를 보이기 때문이라고 설명한다. linearity는 model의 model의 train을 용이하게 하지만 vulnerability를 크게 만든다.
linear model에서의 adversarial example의 existence는 다음과 같이 보일 수 있다.
일반적인 경우 input feature의 precision은 1/255로 제한되고 그 이하의 값은 discard된다. 따라서 feature의 precision보다 작은 perturbation $η, \|η\|_∞ < ε$이 포함된 adversarial input $\tilde x = x + η$에 대해서 classifier가 다르게 behave하는 rational하지 않으므로 동일한 class를 assign한다고 가정한다.
이때 weight vector $w$와의 dot product를 생각해보면 다음과 같다.
$$ w^T\tilde x = w^Tx + w^T η$$
이 경우 activation은 $w^Tη$만큼 커진다. 이때 η의 sign이 w와 같으면 norm은 maximize된다. 전체 변동되는 양은 n dimension에 average manitude m에 대해 εmn만큼 커지게 된다.
즉, 각각의 element는 infinitesimal하여 드러나지 않지만 전체의 크기는 매우 커지게 되어 steganography와 같은 효과를 가지게 되는 것이다.
요약하자면, input signal의 작은 차이는 그 데이터의 label을 다르게 보도록 만들지는 않지만, 작은 차이들이 실제로 input 값으로 들어갈 경우에는 충분히 큰 linear layer에 대해서 그 값이 매우 커진다는 것이다. 생각해보면 굳이 ε는 1/255보다 작을 필요도 없다. 육안으로 보기에 별 차이가 없으면 되기 때문이다.
Linear Perturbation of Non-Linear Models
Methods
Experiments
Results
Discussion
References
Footnotes
'DL·ML' 카테고리의 다른 글
Adversarial Attack (1) | 2024.07.15 |
---|---|
MoE(Mixture-of-Experts, ICLR 2017) (0) | 2024.07.08 |
VAE Loss Derivation (in progress) (1) | 2024.04.07 |
[ODAI] DOTA benchmark (2) | 2024.03.06 |
Grounding DINO architecture (0) | 2024.02.27 |