Intro
최근 딥시크가 적은 비용만으로 GPT를 뛰어넘는 성능을 보였다는 이야기로 뉴스가 떠들썩했다. 그동안 천문학적 비용이 들어 LLM을 만드는 일은 사실상 OpenAI와 같은 미국 기업에 독점권을 내어주다시피 하던 세계 흐름에서 그렇지 않을 수 있다는 새로운 반향을 일으킨 것과 같았기 때문에 많은 사람들이 관심을 집중했었다. 이에 어떤 모델이길래 이만큼 주목을 받는 것인지 궁금해져 학습 방법과 성능에 대해 쓱 훑어보려 한다. 또 오픈소스로 누구나 쓸 수 있도록 공개하였기 때문에 앞으로 활용해볼 여지도 많다.
Methods
딥시크의 가장 큰 주장은 LLM 베이스 모델을 강화학습만으로도 GPT o1 만큼의 코딩/수학적 능력까지 키울 수 있다는 것으로 강화학습이 LLM 학습에 큰 도움이 된다는 주장이다.