梁文鋒用V4打破質(zhì)疑,但Coding、to B商業(yè)化、人才爭奪,DeepSeek還有硬仗要打。
文|《中國企業(yè)家》記者 閆俊文見習(xí)編輯|李原 編輯|何伊凡
DeepSeek-V4上線幾日,圍繞它的討論仍未停止。梁文鋒用V4的強勢發(fā)布,回擊了外界對于DeepSeek迭代緩慢的質(zhì)疑。
從效果來看,V4參數(shù)放大明顯。其擁有1M(百萬字)超長上下文,分為DeepSeek-V4-Pro和Flash兩個版本。其中,Pro版本模型參數(shù)規(guī)模達到1.6T,比V3大出兩倍,在開源陣營位列最高梯隊,向OpenAI和谷歌看齊。
大參數(shù)版本也標(biāo)志著,DeepSeek正在放棄“小而美”路線,轉(zhuǎn)而追求“參數(shù)暴力美學(xué)”與稀疏架構(gòu)效率并行。
更重要的突破來自于國產(chǎn)算力適配。DeepSeek將華為昇騰和英偉達共同寫進技術(shù)報告,在英偉達GPU和華為昇騰NPU平臺上均驗證了細粒度專家并行方案。在昇騰平臺上,V4實現(xiàn)了1.50至1.73倍的推理加速,使得V4成為全球首個在國產(chǎn)算力底座上完成訓(xùn)練與推理驗證的萬億參數(shù)級模型。
在這背后,DeepSeek面臨的模型適配和上下游產(chǎn)業(yè)鏈,工作量之龐大、艱巨,被千芯科技董事長陳巍形容為“爬雪山、過草地”。這也不免讓DeepSeek難以將全部精力,放在模型的性能優(yōu)化上。
但這場勝利意味著什么,市場情緒給出了有力證明。4月24日當(dāng)天,寒武紀、摩爾線程、沐曦等國產(chǎn)芯片公司收盤價上漲2%至7%不等,并同時宣布,當(dāng)天全量適配V4模型。
發(fā)布同時,DeepSeek的價格閃電戰(zhàn)也同步上演。
《中國企業(yè)家》獲悉,DeepSeek近日推出DeepSeek-V4-Pro模型API限時2.5折優(yōu)惠,活動截至2026年5月31日。優(yōu)惠后,該模型輸入價格降至0.025元(緩存命中)、3元(未命中),輸出6元,較原價1元、12元、24元大幅下調(diào),已接近Flash版本水平。
DeepSeek稱,受高端算力限制,當(dāng)前Pro版服務(wù)吞吐有限,預(yù)計下半年昇騰950超節(jié)點批量上市后,價格還將進一步下調(diào)。
不過需要注意的是,在模型廠商正掀起“Token漲價潮”的背景下,DeepSeek逆勢而行,一方面在于其素以“價格殺手”自居,算力能力和供給資源充足——但另一個可能性是:用戶熱情不足。
《中國企業(yè)家》觀察到:在4月24日、25日上線兩天,DeepSeek的API服務(wù)和網(wǎng)頁對話服務(wù)均很穩(wěn)定,沒有發(fā)生“擁堵”的事故報告。市場總體對DeepSeek的反饋體驗,也比較“冷靜”。
而V4的“難產(chǎn)”本身,是這家明星創(chuàng)業(yè)公司正在面對的多重壓力:核心人才被競爭對手爭搶、國產(chǎn)算力適配還面臨漫長攻堅、與模型大廠和創(chuàng)企圍繞代碼能力需要貼身肉搏,以及懸而未決的融資傳聞。
DeepSeek的優(yōu)勢依然清晰:技術(shù)頂尖、開源心智強、性價比突出、國產(chǎn)芯片適配領(lǐng)先、開發(fā)者生態(tài)基礎(chǔ)好。但其短板同樣現(xiàn)實:to B大客戶交付經(jīng)驗不足、場景化解決方案不夠豐富、組織規(guī)模與巨頭差距明顯、商業(yè)化仍處于爬坡期。
如今大模型已不再是單一維度的天才或技術(shù)方面的競賽,而是一家公司資金、資源、人才、組織、戰(zhàn)略的集團作戰(zhàn),這也需要DeepSeek不斷在技術(shù)理想和嚴峻現(xiàn)實之間做出選擇。
實測V4:能力很強,Coding仍需突破
一直以來,DeepSeek的創(chuàng)新方法論是,通過底層架構(gòu)創(chuàng)新,實現(xiàn)極致成本控制,壓榨每一個Token的潛力。
這一次,V4在架構(gòu)上,DeepSeek開創(chuàng)了全新的注意力機制——“CSA(壓縮稀疏注意力)+HCA(重度壓縮注意力)”的混合注意力架構(gòu)。這一創(chuàng)新主要目標(biāo)是對Token進行條目化的極致壓縮,以進一步降低對計算和顯存的需求。
技術(shù)報告顯示,在100萬Token的上下文設(shè)置下,與DeepSeek-V3.2相比,DeepSeek-V4-Pro僅需27%的單Token推理FLOPs(?浮點運算數(shù)?)和10%的KV緩存。
一位專家對《中國企業(yè)家》指出,V4在訓(xùn)練和推理中采用“FP4+FP8”混合精度,而非業(yè)界通用的FP32標(biāo)準(zhǔn)精度格式。DeepSeek固然是為了實現(xiàn)更快的計算速度、更低的緩存需求,但也為此犧牲了準(zhǔn)確率。
特別是當(dāng)模型參數(shù)規(guī)模達到1.6萬億時,這種“壓榨”是否仍能維持輸出質(zhì)量的穩(wěn)定性,也成為了V4在實際應(yīng)用中的最大考驗。
在模型穩(wěn)定性上,《中國企業(yè)家》將V4的技術(shù)報告丟給了DeepSeek,要求V4進行翻譯并給出關(guān)鍵指標(biāo)的解讀。在專家模式下,上傳文件花了15秒,全文翻譯大概耗時20分鐘。雖然從長文本理解、信息抽取、邏輯梳理能力上,V4表現(xiàn)不錯,但也出現(xiàn)了丟失圖片的問題。
此外,隨著代碼能力正成為頂級模型的必爭之地,DeepSeek也正在遭遇強力阻擊。
在V4技術(shù)報告的Coding相關(guān)測試集里,出現(xiàn)了多處明顯的數(shù)據(jù)空白,顯示缺少與月之暗面K2.6、智譜GLM-5.1的直接對標(biāo)結(jié)果。DeepSeek給出的解釋是:“由于K2.6和GLM-5.1的API太忙,無法回應(yīng)查詢?!?/p>
這句略帶無奈的表述,也折射出了大模型戰(zhàn)局的殘酷:過去半年,月之暗面與智譜均將代碼能力、Coding Agent、工程化能力作為戰(zhàn)略制高點,API調(diào)用量與企業(yè)接入量暴漲。
盡管DeepSeek強調(diào),V4-Pro在代碼智能體任務(wù)上已與K2.6、GLM-5.1達到可比水平,但行業(yè)普遍認為,代碼能力、工具穩(wěn)定性、工程化魯棒性將直接決定MaaS收入、開發(fā)者生態(tài)黏性與大客戶付費意愿。這也意味著,DeepSeek下一輪攻堅的核心戰(zhàn)場,必須清晰指向代碼與Agent。
關(guān)鍵的權(quán)衡
雖然V4的表現(xiàn)有不盡如人意的地方,但它對全行業(yè)的標(biāo)志性意義,顯然更為重大。
上海財經(jīng)大學(xué)特聘教授、FutureLabs未來實驗室首席專家胡延平對《中國企業(yè)家》說:V4預(yù)覽版可以說不負各方期待,也成功在國產(chǎn)芯片適配的前提下,通過對注意力機制的改進,降低了計算和緩存開銷,提升了效率。
過去近5個月,在外界對DeepSeek“迭代放緩”的持續(xù)質(zhì)疑中,業(yè)內(nèi)卻清楚:DeepSeek的攻堅,并非單純在調(diào)優(yōu)模型效果,而是要完成一次從英偉達CUDA生態(tài),向國產(chǎn)芯片“昇騰NPU”等生態(tài)的全棧遷移——這是一場沒有硝煙的硬仗。
多位底層架構(gòu)專家向《中國企業(yè)家》證實,超大模型在國產(chǎn)芯片上的遷移,難度遠超想象。
一家AI Infra初創(chuàng)公司CEO曾告訴《中國企業(yè)家》:適配新生態(tài)架構(gòu),會面臨算子缺失,大量自定義算子需重新開發(fā)的問題,編譯器也會經(jīng)常出bug,訓(xùn)練中途易崩潰。“相當(dāng)于我造了一個賽車,理論速度有150公里/小時,但我可能要跑100次才能跑出一個這樣的速度,它不是那么穩(wěn)定。”
《中國企業(yè)家》綜合各方信息來看,DeepSeek為適配國產(chǎn)算力,做出了一系列關(guān)鍵權(quán)衡:采用更低精度混合精度(FP4+FP8),降低顯存壓力與計算復(fù)雜度;強化稀疏注意力與KV緩存壓縮,減少芯片間通信量;優(yōu)化MoE負載均衡策略,提升在非均勻芯片集群上的穩(wěn)定性;放棄了部分極端基準(zhǔn)刷分,優(yōu)先保證長上下文、多輪、Agent場景的魯棒性。
陳巍將DeepSeek對華為昇騰的適配,比作“爬雪山、過草地”的事情。這個工作量非常大,會讓DeepSeek難以將全部精力,放在模型的性能優(yōu)化上。
對于DeepSeek來說,其通信庫、集合通信、分布式策略需深度重構(gòu);萬億參數(shù)MoE模型對集群穩(wěn)定性、顯存帶寬、網(wǎng)絡(luò)延遲要求近乎苛刻。這都會導(dǎo)致,V4開發(fā)十分艱難。
從根本上說,這是涉及到整個產(chǎn)業(yè)鏈上下游優(yōu)化、水準(zhǔn)提升的過程,比如芯片良率、芯片性能,大模型的整體Infra部署和優(yōu)化等,是一個水漲船高的過程。
胡延平表示,超大參數(shù)的大模型開始訓(xùn)練之后,需要集群里的每一張卡都要保持最佳狀態(tài),計算集群協(xié)同工作的要求度很高,除了算力卡的穩(wěn)定,還要求顯存帶寬、連接與網(wǎng)絡(luò)等各個方面跟得上。訓(xùn)練任務(wù)動輒持續(xù)一兩個月,任何一張卡、一條鏈路不穩(wěn),都可能導(dǎo)致整體任務(wù)失敗。
不過,DeepSeek走出了最艱難的全棧遷移第一步后,已經(jīng)證明中國大模型的自主可控,已經(jīng)在成為可落地、可商用、可規(guī)?;默F(xiàn)實。隨著下半年,昇騰950批量交付,V4-Pro的吞吐能力還將大幅提升。
增長暗戰(zhàn):人才、資本、競爭三座大山
V4的強勢發(fā)布,暫時平息了外界對DeepSeek技術(shù)能力的質(zhì)疑,但更多的挑戰(zhàn),也擺在了梁文鋒面前。人才流失、資本選擇、行業(yè)內(nèi)卷、商業(yè)化壓力,都在把這家以技術(shù)理想主義著稱的公司,拖入集團作戰(zhàn)。
V4技術(shù)報告顯示,本次參與作者共270人,名單中包括梁文鋒——但一個不容忽視的細節(jié)是:過去5個月,已經(jīng)有10位署名作者離開了DeepSeek。
其中最受關(guān)注的,是代碼與推理核心負責(zé)人郭達雅。據(jù)《晚點LatePost》報道,郭達雅以億元年薪,加盟了字節(jié)跳動。他深度參與了DeepSeekV3、R1、Coder、Math等關(guān)鍵模型研發(fā),是代碼能力、推理架構(gòu)、工程化的核心貢獻者。
基座架構(gòu)、MoE分布式、推理引擎、長上下文、代碼Agent等關(guān)鍵崗位,都高度依賴核心人員的判斷與經(jīng)驗;骨干流失不僅影響研發(fā)節(jié)奏,更可能帶來技術(shù)路線、架構(gòu)偏好、工程文化的波動。
梁文鋒能在人員變動的情況下,如期推出V4并實現(xiàn)1.6T的大參數(shù)更新,說明其已建立了可復(fù)制、可擴展、不依賴單一個人的工程化體系。但如何留住核心人才、激勵早期成員、穩(wěn)定團隊軍心,仍是DeepSeek必須解決的長期問題。
V4發(fā)布前后,市場也再次傳出重磅消息:DeepSeek計劃開啟新一輪融資,估值約200億美元,阿里、騰訊等都被列為潛在投資方。
胡延平直言:“DeepSeek應(yīng)該融資,甚至上市。模型上限提升,來自用戶反饋、參數(shù)規(guī)模、Agent網(wǎng)絡(luò),這些都需要巨大投入?!?/p>
更重要的是,整個行業(yè)正在從模型競賽轉(zhuǎn)向Token工廠競賽。DeepSeek選擇降價、擴參數(shù),都是在為Token時代做準(zhǔn)備——而Token工廠,也需要更巨額的資金投入。
對于梁文鋒來說,更深層的命題剛剛開始:如何把模型優(yōu)勢,轉(zhuǎn)化為持續(xù)、高毛利、可規(guī)?;氖杖??如何建立不依賴個人的技術(shù)迭代機制與人才激勵體系?如何在技術(shù)探索與商業(yè)交付之間保持平衡?如何從“模型公司”升級為“平臺生態(tài)公司”?
梁文鋒已經(jīng)用V4回應(yīng)了一切質(zhì)疑,DeepSeek仍在最強玩家序列。但未來真正的決戰(zhàn),才剛剛開始。