ABOUT ME

-

Today
-
Yesterday
-
Total
-
  • Seeking Deeper: DeepSeek 사건의 오해와 본질[삼성증권 이종욱 팀장] 리뷰
    애널리스트 보고서 리뷰 2025. 1. 31. 14:45

    우리가 설 명절을 보내는 동안 미국 증시는 DeepSeek라는 중국에서 만든 AI 챗봇으로 꽤나 떠들석했습니다. 본질은 미국이 중국에 반도체 견제를 했음에도 중국 AI 스타트업이 ChatGPT와 성능이 비슷한 챗봇을 개발했다는 것인데요. 최신 엔비디아 반도체를 쓰지 않았다는 점 역시 미국 빅 테크, 특히 엔비디아 주가에는 너무나 부정적일 수 밖에 없는 이슈인데, 이 레포트에서는 해당 이슈에 대해서 크게 우려하지 않는 내용입니다. 이 쪽 전문가가 아닌 저로서는 현재 상황에 대한 본질을 이해하기 위해서 꼭 읽을 수 밖에 없었던 레포트였습니다.

     

    DeepSeek는 좋은 모델이지만 특별히 좋은 모델은 아니다

    DeepSeek의 주요 기술적 특징은 다음과 같습니다:

    • 강화학습(RL) 기반 성능 개선: R1 Zero 모델이 재귀적 학습(recursive learning) 방식으로 성능을 최적화
    • 다단계 보상 기반 강화학습: 학습을 단계적으로 최적화해 성능을 향상시키는 방식
    • GRPO(Group Relative Policy Optimization) 적용: 효율적인 AI 학습을 위한 알고리즘

    📌 하지만, 삼성증권은 이 기술들이 사실 특별한 것이 아니라 기존 AI 업계에서 사용되던 방법이라고 지적하고 있습니다. 이쪽에서 문외한인 사람들은 어려운 말들 뿐이라 하나하나 용어를 살펴볼 필요가 있겠습니다.

     

    먼저 강화학습(Recursive Learning)이 뭔지 살펴 보겠습니다. 강화학습이란 학습한 결과를 다시 학습 데이터로 활용하여 점진적으로 성능을 향상시키는 기법으로, 쉽게 말하면, "스스로 학습한 내용을 다시 피드백하며 점점 더 똑똑해지는 방식"이라고 볼 수 있습니다. 우리는 이런 강화학습을 본 적이 있죠. 바로 알파고와 이세돌 9단의 바둑대결에서 말입니다. 알파고는 기존 바둑 기보를 학습한 후, 자기 자신과 끊임없이 대국을 두면서 스스로 실력을 향상시켰습니다.

    ChatGPT도 역시 똑같이 학습을 하긴 합니다. 다만, ChatGPT는 개발사(OpenAI)가 주기적으로 새로운 데이터를 학습시키고, 피드백을 반영하는 방식으로 개선시키고 있는 것이 다른 점이라고 할 수 있겠습니다. DeepSeek가 지속적으로 자기 학습을 통해서 성능을 개선하는 반면, ChatGPT는 업데이트를 인위적으로 해준다라고 이해하시면 되겠습니다. '지속적'과 '주기적'이라는 말이 엄청 상대적인 말이기는 합니다. '지속적'이 정말 '실시간'으로 계속 반영될 수 있다면 DeepSeek가 혁명적인 모델이 될 수 있겠습니다. 하지만 이렇게 되려면 엄청난 연산 자원과 안정성이 필요할 것으로 생각합니다. 이건 DeepSeek가 애초에 얘기했던 저렴한 비용으로 비슷한 성능을 구현한다는 논리와 맞지 않는 상황이라고 볼 수 있겠습니다.

     

    다단계 보상 기반 강화학습AI가 목표를 달성하기까지 여러 단계를 거치면서 각 단계별 보상을 받아 학습하는 방식을 의미합니다. 즉, 단순히 한 번의 행동에 대한 보상을 받는 것이 아니라, 긴 프로세스를 고려해 여러 단계에서 보상을 최적화하면서 학습하는 기법입니다. 

     

    기존 강화학습과는 어떻게 다르냐고 생각해 볼 수 있겠는데,

    기존 강화학습 (Single-step Reward)은

    • 보통 AI가 **즉각적인 보상(Immediate Reward)**을 받으며 학습
    • 예를 들어 **알파고(AlphaGo)**가 한 수를 두고 보상을 받는 방식,
      • "이 수를 두면 승리 확률이 올라가니까 보상 +1"
      • "이 수를 두면 불리해지니까 보상 -1"

    다단계 보상 기반 강화학습 (Multi-step Reward)은

    • 한 번의 행동에 대한 즉각적인 보상이 아니라, 여러 단계를 거친 후 최종적으로 받는 보상을 고려하면서 학습
    • 예: AI가 체스를 둘 때, 몇 수 앞을 내다보고 전체적인 전략을 고려하여 학습
      • "지금 이 수를 두면 당장은 불리하지만, 5수 뒤에 좋은 기회가 생기니까 보상 부여"
      • "즉각적인 보상이 없어도, 장기적으로 승리를 유도하는 플레이를 강화"

    로 정리해 볼 수 있겠습니다. 자율주행에서도 이런 학습이 적용이 되는데요, 신호등이 바뀔 것을 고려해 미리 속도를 줄이면 보상을 높게 부여해서, 즉각적인 속도 증가보다는 안전한 주행을 목표로 보상을 부여하는 방식으로 이용할 수 있습니다.

     

    그런데 결국 다단계 보상 기반 강화학습이란 것도 사람의 피드백 과정이 꼭 필요합니다. AI는 보상의 기준을 스스로 정할 수 없고, 사람의 피드백이 없으면 AI 학습 방향이 잘못될 수 있기 때문입니다. 아래 표에 보면, ChatGPT와 DeepSeek의 강화학습을 비교해 놓았는데,

    비교 항목 ChatGPT DeepSeek R1
    강화학습 기법 RLHF (인간피드백 기반 강화학습) RL+다단계 보상 기반 강화 학습
    보상 방식 사람이 직접 평가하여 보상 설정 다단계 보상을 활용한 강화학습 적용
    실시간 학습 여부 실시간 학습 없음, 주기적 업데이트 실시간 학습 여부 불명확

     

     

    현재로서는 RL이나 다단계 보상 모두 사람의 힘이 필요하기 때문에 지속적인 학습이라기 보다는 ChatGPT처럼 사람의 인위적인 업데이트가 필요한 상황으로 보입니다. 결국 똑같이 하고 있는 걸 DeepSeek가 좀 더 세련되게 표현했다고 생각해 볼 수 있겠습니다.

     

     

     

     

     

    댓글

Designed by Tistory.