중국의 DeepSeek, 글로벌 기술을 뒤흔든 후 주장에 대한 의문 제기

Elon Musk 와 Palmer Luckey는 중국 스타트업이 주장하는 예산과 칩 사용에 의문을 제기하였습니다.

DeepSeek에 대한 의문

구글과 OpenAI의 창작물에 필적하는 기능을 갖춘 AI 모델로 충격파를 일으킨 중국의 DeepSeek는 여러가지 의문에 직면해 있습니다.

지난주 발표된 연구 논문에서 DeepSeek 개발팀은 원래 미국 수출 규제를 준수하도록 설계된 덜 발전된 칩인 Nvidia H800 GPU 2,000대를 사용했으며, R1의 기본 모델인 V3를 훈련하는 데 560만 달러를 지출했다고 밝혔습니다.

OpenAI의 CEO Sam Altman은 챗봇 GPT-4를 훈련하는 데 1억 달러 이상이 들었다고 밝혔으며, 분석가들은 이 모델이 최대 25,000개의 고급 H100 GPU를 더 사용한 것으로 추정하고 있습니다.

2023년 말 연쇄 창업가 량웬펑(Liang Wenfeng)이 설립한 DeepSeek의 발표는 AI의 선두에 서려는 기업들이 데이터 센터와 고가의 고급 칩에 수십억 달러를 투자해야 한다는 널리 퍼진 믿음을 뒤집은 것입니다.

또한 최첨단 칩의 수출을 금지함으로써 중국의 AI 부문을 제한하려는 미국의 노력의 효과에 대한 의문도 제기했습니다.

발전용 AI를 구동하는 GPU 공급을 거의 독점하고 있는 캘리포니아에 본사를 둔 엔비디아의 주가는 월요일 17% 급락하여 칩 대기업의 시장 가치에서 약 5930억 달러가 사라졌으며, 이는 스웨덴의 국내총생산(GDP)과 비슷한 수치입니다.

가상현실 회사 오큘러스(Oculus) VR의 설립자인 팔머 럭키(Palmer Luckey)는 수요일에 DeepSeek의 예산 주장을 "거짓말"이라고 부르며 너무 많은 "유용한 바보들"이 "중국 선전"에 속았다고 비난했습니다.

럭키는 X에 올린 게시물에서 "중국 헤지펀드가 미국 AI 스타트업에 대한 투자를 늦추고, 엔비디아와 같은 미국 대기업에 대한 공매도 서비스를 제공하며, 제재 회피를 숨기도록 추진하고 있다"고 말했습니다.

"미국은 우리의 미디어 기기가 기술 기업을 싫어하고 트럼프 대통령이 실패하는 것을 보고 싶어하기 때문에 사이프들에게 비옥한 침대입니다."

지난주 CNBC와의 인터뷰에서 스케일 AI의 CEO인 알렉상드르 왕(Alexandr Wang)도 DeepSeek의 계정에 의문을 제기하며 미국의 수출 통제로 인해 언급할 수 없었던 5만 개의 고급 H100 칩에 더 접근할 수 있다는 것은 그의 "이해"라고 말했습니다.

왕은 자신의 주장에 대한 증거를 제공하지 않았습니다.

도널드 트럼프 미국 대통령의 최측근 중 한 명인 기술 억만장자 엘론 머스크는 왕의 주장에 대한 게시물 아래 X에 "분명히"라는 글을 올리며 딥시크의 회의론자들을 지지했습니다.

딥시크는 논평 요청에 응답하지 않았습니다.

하지만 이전 딥시크 모델을 개발한 박사 과정 지원자 왕지한은 "대화는 저렴하다"며 스타트업의 비평가들에게 반격했습니다

왕은 딥시크의 주장을 액면 그대로 받아들여서는 안 된다는 알자지라의 질문에 대해 X에 대해 "비판하기 쉽습니다."라고 답했습니다.

왕은 유휴 대화에 참여하는 사람들에 대한 중국어 관용구를 영어로 번역하여 "코드 작업에 더 많은 시간을 할애하고 딥시크 아이디어를 직접 재현한다면 종이 위에서 이야기하는 것보다 더 나을 것"이라고 덧붙였습니다.

그는 딥시크가 600만 달러 미만을 지출하고 R1의 기본 모델을 훈련하는 데 덜 발전된 칩을 사용했다고 생각하는지에 대한 질문에는 직접 답변하지 않았습니다.

2023년 중국 매체 웨이브와의 인터뷰에서 량(Liang)은 당시 조 바이든 미국 대통령 행정부가 수출을 금지하기 전에 회사가 H800보다 오래된 엔비디아의 A100 칩 10,000개를 비축했다고 말했습니다.

R1의 한계

R1 사용자들은 또한 1989년 천안문 광장 학살과 대만의 지위 등 중국에서 발생한 R1의 기원으로 인해 직면한 한계를 지적합니다.

딥시크가 미국 기술 섹터에 미칠 수 있는 잠재적 영향에 대한 초기 공포가 사라지기 시작했다는 신호로 화요일 엔비디아의 주가는 9% 가까이 회복했습니다.

기술주 중심의 나스닥 100 지수는 전날 3% 이상 하락한 후 1.59% 상승했습니다.

퀸즐랜드 대학교의 AI 전문 교수인 팀 밀러는 딥시크의 주장에 얼마나 많은 주식을 투자해야 하는지 말하기 어렵다고 말했습니다.

밀러는 알자지라와의 인터뷰에서 "모델 자체는 작동 방식에 대한 몇 가지 세부 사항을 제공하지만, 그들이 주장하는 주요 변경 사항의 비용이 -제가 이해하기로는- 모델 자체에 '등장'하는 것은 아닙니다."라고 말했습니다.

밀러는 "경종"을 본 적이 없다고 말했지만, 연구 논문을 신뢰하는 것에 대해서는 찬성과 반대 모두 합리적인 논거가 있다고 말했습니다.

"이 돌파구는 놀랍습니다. 거의 '사실이라고 하기에는 너무 좋은' 스타일입니다. 비용 분석은 불분명합니다."라고 Miller는 말합니다.

반면에 그는 컴퓨터 과학에서 돌파구가 가끔 발생한다고 말했습니다.

밀러는 "이러한 대규모 모델은 매우 최근의 현상이기 때문에 효율성을 찾을 수밖에 없습니다."라고 말했습니다.

"다른 사람들이 복제하기에 비교적 간단할 것이라는 것을 알고 있었다면, 만약 그들이 모두 b**********라면 어리석게 보일 것이라는 것을 알았을 것입니다. 이미 작품을 복제하기 위해 노력하는 팀이 있습니다."

비용 하락

비영리 단체인 CivAI의 공동 창립자 루카스 한센은 딥시크가 미국의 수출 통제를 우회했는지 여부는 알기 어려웠지만, 이 스타트업이 주장한 교육 예산은 R1 자체가 아닌 OpenAI의 GPT-4와 거의 동등한 수준인 V3를 언급했다고 말했습니다.

"GPT-4는 2022년 말에 훈련을 마쳤습니다. 2022년 이후 알고리즘과 하드웨어가 많이 개선되어 GPT-4 클래스 모델 훈련 비용이 감소했습니다. GPT-2도 비슷한 상황이 발생했습니다. 당시에는 훈련이 심각한 작업이었지만 이제는 90분 만에 20달러에 훈련할 수 있습니다."라고 한센은 알 자지라와의 인터뷰에서 말했습니다.

한센은 "딥시크는 기본 모델인 V3를 사용하여 그 기본 모델이 더 신중하게 생각할 수 있도록 몇 가지 영리한 방법을 적용하여 R1을 만들었습니다."라고 덧붙였습니다.

"이 교육 과정은 기본 모델을 교육하는 비용에 비해 상대적으로 저렴합니다. 이제 DeepSeek이 기본 모델을 사고 모델로 부트스트랩하는 방법에 대한 세부 정보를 발표했으니, 수많은 새로운 사고 모델을 보게 될 것입니다."

☞ 딥시크 이용자에 대한 개인정보 주의보

딥시크 이용자의 개인정보를 딥시크가 과도하게 요구하고 있으며 이것은 그대로 딥시크 개발사에서 관리하는 것으로 알려져 있어 이용자들의 주의가 필요하다고 합니다.

'오늘의 이슈' 카테고리의 다른 글

파월(Fed 의장)의 금리 유지 결정에 트럼프, 맹비난 (2)	2025.01.30