Maximum sum of a contiguous subsequence 문제를 앞으로 배울 여러 방식으로 접근해봅니다

딥러닝 모델의 optimization을 담당하는 gradient descent 알고리즘은 딥러닝의 핵심 중 하나입니다. 다양한 gradient descent 알고리즘들이 어떻게 발전해왔고, 각 장점은 무엇인지, 그리고 그 안에서 헷갈리는 용어들을 정리해봅니다.

사실 KL divergence는 전혀 낯선 개념이 아니라 우리가 알고 있는 내용에 이미 들어있는 개념입니다. 두 확률분포 간의 차이를 나타내는 개념인 KL divergence가 어디서 나온 것인지 먼저 파악하고, 이에 대한 몇 가지 특성들을 쉬운 말로 짚어봅니다.

Cross entropy는 두 분포 사이에 존재하는 정보량을 나타내는 개념이다.라는 식의 설명을 너무 많이 들었습니다. 하지만 이 개념이 정확히 무엇인지는 잘 설명되지 않고 그냥 쓰이는 것 같습니다. 이번 기회에 cross entropy가 정확히 무엇인지, 무엇을 하는지, 그리고 다른 별명들이 왜 붙는지에 대해 알아보겠습니다.