중국의 깊은 씨는 글로벌 기술을 흔들고 나서 클레임에 대한 질문에 직면합니다.

0
35

Elon Musk와 Palmer Luckey는 중국 스타트 업의 주장 된 예산 및 칩 사용에 의문을 제기 한 기술 리더 중 하나입니다.

중국의 깊은 씨는 글로벌 기술을 흔들고 나서 클레임에 대한 질문에 직면합니다.
중국의 깊은 씨는 대담한 주장이 정밀한 조사를 견뎌 낼지에 대한 의문에 직면합니다. [Greg Baker/AFP]

Google과 Openai의 창작물을 바탕으로 한 기능을 갖춘 AI 모델로 충격파를 일으킨 후, 중국의 Deepseek은 대담한 주장이 조사에 부합하는지에 대한 의문에 직면하고 있습니다.

Hangzhou에 기반을 둔 Startup의 발표는 Silicon Valley의 최신 모델 비용의 일부로 R1을 개발했다는 ​​발표는 AI에서 미국의 지배력과 최고 기술 회사의 스카이 시장 평가에 대한 의문의 가정을 즉시 요구했습니다.

그러나 일부 회의론자들은 신발 끈 예산으로 일한다는 Deepseek의 설명에 도전했으며,이 회사는 더 많은 고급 칩과 더 많은 자금을 조달 할 수 있다고 제안했습니다.

“DeepSeek의 주장을 액면가로 받아 들일 수 있는지 여부는 매우 열린 질문입니다. AI 커뮤니티가 그들을 파헤칠 것이고 우리는 알게 될 것입니다.”워싱턴 대학의 컴퓨터 과학 및 공학 명예 교수 인 Pedro Domingos는 Al Jazeera에 말했다.

Domingos는“6 백만 달러의 모델을 훈련시킬 수 있다는 것은 저에게 그럴듯합니다.

광고

“그러나 DeepSeek은 다른 사람들이 더 비싼 모델을 구축하지 않고는 더 많은 비용이 들었던 미세 조정 및 후 처리 모델의 비용 일 가능성이 매우 높습니다.”

지난 주에 발표 된 연구 논문에서 Deepseek Development 팀은 원래 미국 수출 컨트롤을 준수하도록 설계된 덜 고급 칩 인 2,000 개의 NVIDIA H800 GPU를 사용했으며 R1의 기초 모델 V3를 훈련시키는 데 5.6 백만 달러를 소비했다고 밝혔다.

Openai CEO Sam Altman은 챗봇 GPT-4를 훈련시키는 데 1 억 달러가 넘는 비용이 들었고 분석가들은이 모델이 25,000 개 더 고급 H100 GPU를 사용했다고 추정했습니다.

2023 년 후반 연쇄 기업가 Liang Wenfeng이 설립 한 Deepseek의 발표는 AI의 최

또한 가장 진보 된 칩의 수출을 금지함으로써 중국의 AI 부문을 제한하려는 워싱턴의 노력의 효과에 대한 의문을 제기했다.

캘리포니아에 기반을 둔 NVIDIA의 주식은 월요일에 전력 생성 AI가 17 % 급락 한 GPU의 공급에 대한 근거리 단위를 보유한 칩 대기업의 시장 가치에서 거의 5,930 억 달러를 지우고 있습니다. 스웨덴의).

Deepseek의 R1이 최소한 상당한 성과를 나타내는 광범위한 합의가 있지만, 일부 유명한 관찰자들은 액면가에서의 주장을 제기하지 않도록 경고했습니다.

광고

수요일 가상 현실 회사 인 Oculus VR의 창립자 인 Palmer Luckey는 Deepseek의 주장 된 예산을“가짜”로 표시했으며“중국 선전”에 빠지는“유용한 바보”가 너무 많았다 고 비난했습니다.

Luckey는“미국 AI 신생 기금에 대한 투자를 늦추고, Nvidia와 같은 미국 타이탄에 대한 자신의 반바지를 서비스하고, 제재 회피를 숨기려고 중국 헤지 펀드에 의해 추진되고있다”고 Luckey는 말했다.

“미국 미디어 장치가 기술 회사를 미워하고 트럼프 대통령이 실패하기를 원하기 때문에 미국은 이와 같은 Psyops의 비옥 한 침대입니다.”

지난주 CNBC와의 인터뷰에서 Scale AI의 CEO 인 Alexandr Wang은 Deepseek의 계정에 의문을 제기했으며, 우리 수출로 인해 이야기 할 수없는 5 만 명이 더 고급 H100 칩에 액세스 할 수 있다는 것이 그의“이해”라고 말했습니다. 통제 수단.

왕은 그의 주장에 대한 증거를 제공하지 않았다.

사향
Elon Musk는 2025 년 1 월 20 일 워싱턴 DC 대통령 취임 퍼레이드 행사에서 연설합니다. [Matt Rourke/AP]

도널드 트럼프 미국 대통령의 가장 가까운 신뢰자 중 한 명인 기술 억만 장자 엘론 머스크 (Elon Musk)는 Deepseek의 회의론자들을 뒷받침하여 Wang의 주장에 대한 게시물 아래 X에“명백히”를 썼습니다.

DeepSeek은 의견 요청에 응답하지 않았습니다.

그러나 초기 Deepseek 모델에서 일한 박사 후보 인 Zihan Wang은 스타트 업의 비평가들에게“토크는 싸다”고 말했다.

왕은 X에서 Al Jazeera의 질문에 대한 응답으로 DeepSeek의 주장을 액면가로 받아 들여서는 안된다는 제안에 대해 X에서“비판하기가 쉽다”고 말했다.

Wang은 유휴 대화에 참여하는 사람들에 대한 중국 관용구의 영어 번역을 사용하여“코드 작업을하고 심각한 아이디어를 스스로 재현하는 것이 더 낫다”고 덧붙였다.

광고

그는 DeepSeek이 6 백만 달러 미만을 소비했다고 믿고 R1의 기초 모델을 훈련시키기 위해 덜 고급 칩을 사용했는지 여부에 대한 질문에 직접 응답하지 않았습니다.

중국 미디어 아울렛 파도와의 2023 년 인터뷰에서 Liang은 그의 회사가 H800보다 오래된 Nvidia의 A100 칩 중 10,000 명을 비축했다고 Joe Biden 대통령의 행정이 수출을 금지했다고 밝혔다.

R1 사용자는 또한 중국의 기원, 즉 Tiananmen Square의 1989 년 학살과 대만 상태를 포함하여 베이징이 민감한 주제의 검열로 인해 직면 한 제한을 지적합니다.

미국 기술 부문에 대한 Deepseek의 잠재적 영향에 대한 초기 공황이 물러나 기 시작했다는 신호로, 화요일 Nvidia의 주가는 거의 9 %를 회복했습니다.

기술이 많은 NASDAQ 100은 전날 3 % 이상 감소한 후 1.59 % 상승했습니다.

퀸즐랜드 대학교 (University of Queensland)의 AI를 전문으로하는 팀 밀러 (Tim Miller)는 Deepseek의 주장에 얼마나 많은 주식을 두어야하는지 말하기가 어렵다고 말했다.

Miller는“모델 자체는 그것이 어떻게 작동하는지에 대한 몇 가지 세부 사항을 제공하지만, 내가 주장하는 주요 변화의 비용은 모델 자체에 너무 많이 나타나지 않습니다.”라고 Al Jazeera는 말했습니다.

밀러는“알람 벨”을 보지 못했지만 연구 논문을 신뢰하는 것에 대한 합리적인 주장이 있다고 말했다.

“획기적인 것은 믿어지지 않습니다. 거의 ‘진실하기에는 너무 좋습니다’스타일. 비용의 고장은 불분명하다”고 Miller는 말했다.

광고

다른 한편으로, 그는 컴퓨터 과학에서 때때로 돌파구가 발생한다고 말했다.

Miller는“이러한 거대한 규모의 모델은 매우 최근의 현상이므로 효율성을 찾아야합니다.

“그들이 다른 사람들이 재생산하기가 합리적으로 간단 할 것이라는 것을 알았을 때, 그들은 모두가 B *********** 가라면 어리석게 보일 것임을 알고 있었을 것입니다. 이미 작품을 재현하려고 노력하는 팀이 있습니다.”

하락 비용

비영리 Civai의 공동 설립자 인 Lucas Hansen은 Deepseek이 미국 수출 통제를 우회하는지 여부를 알기가 어렵다고 말했다.

“GPT-4는 2022 년 후반 훈련을 마쳤습니다. 2022 년 이래 많은 알고리즘 및 하드웨어 개선이 있었으며 GPT-4 클래스 모델 교육 비용을 줄였습니다. GPT-2에서도 비슷한 상황이 발생했습니다. 그 당시 훈련을하는 것은 진지한 사업 이었지만 이제는 90 분 안에 20 달러에 훈련 할 수 있습니다.”Hansen은 Al Jazeera에게 말했습니다.

Hansen은“DeepSeek은 기본 모델 (이 경우 v3)을 가져 와서 R1을 만들었고 해당 기본 모델이 더 신중하게 생각하도록 가르치는 몇 가지 영리한 방법을 적용했습니다.

“이 교육 과정은 기본 모델 교육 가격과 비교할 때 비교적 저렴합니다. DeepSeek은 기본 모델을 사고 모델로 부트 스트랩하는 방법에 대한 세부 정보를 발표 했으므로 수많은 새로운 사고 모델이 보일 것입니다.”