梁文鋒,一位既擁有理想主義精神、又敢于創(chuàng)新突破的企業(yè)家。他曾在量化投資領域累積了豐富實戰(zhàn)經(jīng)驗,如今卻全身心投入對人工智能大模型的深度探索,直指**通用人工智能(AGI)**的終極目標。令人欽佩的是,他堅信語言大模型是通往 AGI 的關鍵通道,因此專注于底層技術(shù)研究,并不急于推出應用。
在技術(shù)研發(fā)理念上,梁文鋒深諳創(chuàng)新的高昂成本和漫長周期,卻依然保持堅定的信念與遠見。面對風險與不確定性,他不愿為了短期商業(yè)利益而偏離長期目標,這種**“長期主義”無疑可貴。人才策略方面,他主要招募對 AI 充滿熱愛和好奇的年輕人,給他們最大化的自由空間與開放包容的工作環(huán)境,希望由此激發(fā)原生的探索精神。從商業(yè)視角來看,他強調(diào)普惠原則**,希望盡可能降低大模型的使用門檻,反對形成少數(shù)人的技術(shù)壟斷。此外,他也認可開源對生態(tài)發(fā)展與人才匯聚的正向價值,認為這種文化行為能帶動更大范圍的技術(shù)共創(chuàng)。
雖然行業(yè)面臨高端芯片禁運等不利因素,但他堅持不融資,僅憑自身力量投入研究與開發(fā)。對于中國 AI 發(fā)展,他呼吁應當擺脫對歐美成果的單向模仿,在原創(chuàng)方面形成突破,積極參與到全球創(chuàng)新浪潮之中。隨著2024 年 12 月 16 日 DeepSeek R1 大模型的即將發(fā)布,梁文鋒不禁在朋友圈罕見地轉(zhuǎn)發(fā)文章并寫道:“3 年過去了,舊世界分崩離析,新時代正在光速到來?!?/span>
這句看似“豪氣干云”的評語,實則折射出他對當前 AI 格局的深刻洞見,也顯示了他對于未來進程的強大自信。
DeepSeek 創(chuàng)始人梁文鋒的 60 條思考
以下內(nèi)容,源于梁文鋒在訪談、交流與內(nèi)部研討中的觀點整理。它既是 DeepSeek 發(fā)展脈絡的注腳,也是在 AGI 賽道上如何思考與行動的生動展現(xiàn)。
1. 我們做大模型,其實和量化投資、金融沒有直接關聯(lián)。 我們真正追求的,是通用人工智能(AGI)的終極形態(tài)。
2. 語言大模型是抵達 AGI 的必經(jīng)之路, 因為它已經(jīng)初步展現(xiàn)出某些通用智能特征,所以我們從這里切入。
3. 我們不會急于設計基于模型的衍生應用, 而是把全部精力放在基礎研究上。從長遠看,隨著大模型技術(shù)門檻下降,無論何時入局,都能找到應用機會。我們的志向非常明確——不做垂直領域或應用,只做純粹的研究和探索。
4. 我對“人類智能的本質(zhì)就是語言”這一觀點深信不疑。 人的思維過程,本質(zhì)上就是一種語言編織。因此,基于語言大模型,未來極有可能出現(xiàn)“類人思考”的 AGI。
5. 單純地復刻已有論文或開源代碼,訓練幾次或做個微調(diào)(finetune)就能得到一個基礎模型,成本并不高。 但如果真的要做前沿研究,需要大量算力和實驗對比,也需要高水平科研人才參與,這樣成本就會大幅上升。
6. 我們更想讓每一個小 App 都能輕松用上大模型, 而非只掌握在少數(shù)企業(yè)之手。大廠的模型也許會與自家生態(tài)綁定,但我們的模式更加開放與自由。
7. 從商業(yè)投資角度看,基礎研究的投入回報比并不高, 但既然我們有能力做,而且認為這是當下最合適的事情,就不會躊躇。
8. 從 1 張卡到 100 張卡,再到 1000 張卡,直至一萬張卡的過程, 外界可能會揣測其中有什么神秘的商業(yè)邏輯,但其實主要是好奇心在驅(qū)動——我們想知道 AI 的極限在哪。
9. 對于行內(nèi)人而言,ChatGPT 所引領的新一輪浪潮并不突兀, 因為早在 2012 年,AlexNet 就已經(jīng)帶來過一波重大沖擊。其顯著降低的錯誤率讓深度神經(jīng)網(wǎng)絡重新回到中心舞臺。雖然具體研究方向不斷演變,但“模型 數(shù)據(jù) 算力”始終是核心組合。到了 2020 年 OpenAI 發(fā)布 GPT-3 時,所有人都意識到大模型的走向非常清晰,需要大量算力做支撐。于是我們也開始盡可能多地部署計算資源。
10. 有些事情的價值,無法單純用金錢權(quán)衡。 就像家里買鋼琴,一方面負擔得起,另一方面還有一批“演奏者”對它充滿激情。
11. 人力成本是面向未來的投資,也是公司最寶貴的資產(chǎn)。 我們希望招到對 AI 保持極高好奇心的人,他們能在這里沉心研究,而不是盲目跟隨市場應用需求。
12. 招人時,我們更關注“基礎能力”而非“經(jīng)驗”。 如果只盯短期產(chǎn)出,經(jīng)驗豐富的人可能確實更實用;但若著眼于長線布局,創(chuàng)造力和熱愛才是關鍵。
13. 我們的核心技術(shù)團隊,絕大多數(shù)都是應屆或剛畢業(yè)一兩年的人。 他們沒有固化思維,會反復思考“怎么做才更適合現(xiàn)在”,而不是憑過去經(jīng)驗直接給出一個答案。
14. 我們選擇的人必須對 AI 充滿熱愛, 因為熱愛會讓他們主動找到我們,表達想一起做事的意愿。
15. 在 DeepSeek,沒有傳統(tǒng)意義上的 KPI 或任務指標。
16. 創(chuàng)新需要減少干預,給每個人足夠的施展空間和試錯機會。 真正的原創(chuàng)突破多來自于自發(fā)性,而不是領導層“教”出來的。我們會賦予員工充分信任,把重要的事情交給他們自行決策。
17. 我們的企業(yè)文化不落成文字, 因為任何寫進條文的東西,都可能在無形中限制創(chuàng)造力。更多時候,是依靠管理者用行動來示范,通過具體案例建立共識。
18. 用教科書式商業(yè)邏輯去衡量當下的創(chuàng)業(yè)公司,可能很難得出正確結(jié)論。 市場是動態(tài)的,真正起決定作用的往往是企業(yè)對變動的快速適應能力,而大公司由于組織結(jié)構(gòu)龐大,常常受已有經(jīng)驗和慣性的束縛,這為新公司帶來逆襲的機會。
19. 我們真正興奮的是驗證自己的猜想是否正確。 如果結(jié)果證明確實可行,那就是最大的動力。
20. 對 AGI 的信仰者,會在浪潮爆發(fā)前就準備好,并在浪潮過后仍然堅守。 他們通常會囤積大量算力,或者與云廠商簽下長協(xié),而不會只是短期租用資源。
21. 創(chuàng)新往往低效而昂貴,過程中還存在大量“浪費”。 只有經(jīng)濟發(fā)展到一定階段,才能支撐起這種大規(guī)模實驗式創(chuàng)新。OpenAI 之所以能成功,也離不開巨額資金的長期投入。
22. 有些動力很難用理性邏輯去解釋, 就好比程序員在工作結(jié)束后還要為開源社區(qū)無償貢獻代碼,類似長途跋涉后依舊樂此不疲。
23. 并不是所有人都能瘋狂一輩子, 但大多數(shù)人在年輕時期,都可能為了熱愛而不計回報地投入。
24. 我們的模型服務降價,主要跟隨自身節(jié)奏,基于成本核算定價。 原則是不虧本,也不謀取暴利。
25. 搶占用戶并非我們第一目標。 我們之所以降價,是因為在探索下一代模型結(jié)構(gòu)的過程中,成本有所下降;同時也希望讓更多人用得起大模型,讓 AI API 成為真正普惠的服務。
26. 如果以應用為導向,那么“沿用 Llama 結(jié)構(gòu)、快速上產(chǎn)品”也沒問題。 但我們針對的是 AGI,需要持續(xù)深入研究新結(jié)構(gòu),以便在有限資源下獲得更強模型能力。包括數(shù)據(jù)構(gòu)造、人類思維方式模擬等,我們都進行了大量前沿探索,并在發(fā)布的模型中做了體現(xiàn)。
27. 最重要的是參與全球創(chuàng)新進程。 長期以來,中國更多是在應用端快速變現(xiàn),但這一波大模型熱潮,為我們提供了切入前沿技術(shù)的窗口。我們希望借此推動整個 AI 生態(tài)的成長,而不是單純“趁機賺錢”。
28. 隨著經(jīng)濟實力增長,中國需要從搭便車者轉(zhuǎn)變?yōu)樨暙I者。 過去幾十年里,我們幾乎沒真正參與到核心 IT 技術(shù)的創(chuàng)新過程,只是“等技術(shù)成熟”后進行商業(yè)化。但對 AI 而言,光靠跟隨已不足以支撐未來,我們必須深入一線做創(chuàng)新。
29. 大多數(shù)中國公司更擅長“跟隨”而不是“原創(chuàng)”, 這是我們必須去改變的現(xiàn)實。
30. 創(chuàng)新的成本一向不低。 我們之所以常年采用“拿來主義”,與早期國情以及資源稟賦有關。但當下的經(jīng)濟體量和互聯(lián)網(wǎng)巨頭利潤規(guī)模,都足以支撐真正意義上的原創(chuàng)研發(fā),我們?nèi)钡氖墙M織高密度人才并給他們足夠空間。
31. 過去三十年我們只強調(diào)“掙錢”,對“創(chuàng)新”關注不足, 但隨著經(jīng)濟轉(zhuǎn)型,我們必須讓好奇心與創(chuàng)造力在商業(yè)之外也能被鼓勵和實現(xiàn)。
32. 在顛覆性技術(shù)的面前,閉源壁壘往往難以長久。 即便 OpenAI 閉源,也無法阻止后來者追趕。DeepSeek 的護城河并不在“封閉”,而在于團隊在不斷成長的過程中積累到的 know-how 與文化。
33. 選擇開源、發(fā)表論文其實并不會損失太多, 對技術(shù)人員來說,看到自己的工作被同行使用,是一種極大成就感。開源也帶有額外的文化吸引力。
34. 美國最賺錢的一批企業(yè),正是那些對硬核科技抱有極高耐心和投入的公司。
35. 中美 AI 差距最核心的部分在于“原創(chuàng)”與“模仿”。 如果我們無法打破模仿的依賴,就會永遠只充當追隨者。所以有些高成本、高風險探索并不是可選項,而是必經(jīng)之路。
36. 英偉達的崛起,是整個西方技術(shù)社區(qū)協(xié)同努力的結(jié)果, 他們能夠持續(xù)不斷預判下一代技術(shù),并在產(chǎn)業(yè)鏈上緊密聯(lián)動。中國想要在 AI 領域取得同樣成就,也需要形成自己的協(xié)同生態(tài)體系。
37. 我們不會閉源, 因為構(gòu)建強大的技術(shù)生態(tài)比封閉自守更為重要。
38. 短期內(nèi)我們也不考慮融資, 目前最大的瓶頸并非資金,而是高端芯片遭遇禁運。
39. 投入資金并不一定等同于創(chuàng)造力, 否則大廠就能將所有創(chuàng)新盡數(shù)包攬。
40. 我們認為當下正處于技術(shù)創(chuàng)新的爆發(fā)期,而非應用大規(guī)模落地的爆發(fā)期。 長期來看,我們希望能形成一個生態(tài):社會各界都能基于我們的基礎模型做二次開發(fā),而我們專注于前沿研究。
41. 如果商業(yè)上有需求,我們也能涉足應用, 但技術(shù)突破和創(chuàng)新始終擺在第一位。
42. 技術(shù)沒有絕對秘密,但重現(xiàn)和追趕需要大量時間與資源。 英偉達的顯卡從原理上而言并無不可復制之處,但他們在多代產(chǎn)品迭代中積累的團隊、經(jīng)驗和專利,構(gòu)成了極深的護城河。
43. 我們提供云服務并非核心目標, 真正的終點還是 AGI。
44. 大廠雖有龐大的用戶基礎,卻常受制于既有業(yè)務體系。 就像船體越大越難轉(zhuǎn)向,一旦技術(shù)革新到來,包袱也就隨之加重。
45. 也許未來能活下來的大模型創(chuàng)業(yè)公司只有兩三家, 現(xiàn)在還是普遍“燒錢”狀態(tài),但那些對自身定位清晰、能精細化管理成本的團隊,更有機會堅持到最后。
46. 我經(jīng)常思考的是,某項技術(shù)能否提升社會整體運行效率, 以及我們能否在產(chǎn)業(yè)分工鏈上找到適合的位置。只要大趨勢是讓社會更高效,這條路就有價值。
47. 我們最新發(fā)布的 V2 模型,完全由本土人才打造, 并沒有海外回歸的核心成員。雖然頂尖人才前 50 名或許還在國外,但我們正在努力培養(yǎng)本地的頂尖隊伍。
48. DeepSeek 內(nèi)部多數(shù)是自下而上的創(chuàng)新管理模式, 并不預先規(guī)定好每個人的分工。只要一個想法有潛力,團隊自然會協(xié)作投入。
49. 我們每個人對算力和人員調(diào)度沒有上限限制, 只要有人想做新實驗,隨時可以調(diào)用訓練集群的顯卡,也可自由邀請同事參與,前提是對方也感興趣。
50. 我們選人的首要標準永遠是熱愛與好奇心。 只有這樣,大家才會不計報酬去鉆研,擁有強烈的研究渴望。
51. 創(chuàng)新首先是一種“相信自己能行”的態(tài)度。 當 ChatGPT 問世后,國內(nèi)不少人感慨差距巨大,轉(zhuǎn)而專注應用,但創(chuàng)新需要冒險精神,而年輕人往往更有這份自信。
52. 我們在做行業(yè)里最有難度的事情,這恰恰能吸引真正的頂尖人才。 國內(nèi)不乏優(yōu)秀研究者,只是很多時候缺少被識別或被施展的機會。
53. OpenAI 也并非高高在上的“神”, 無法保證一直引領最前沿。
54. AGI 的實現(xiàn)期限可能是 2 年、5 年或 10 年, 但一定會在我們有生之年到來。公司內(nèi)部也沒有統(tǒng)一的路線圖,但我們在數(shù)學、代碼、多模態(tài)和自然語言等方向多點布局,保持對各種可能性的開放態(tài)度。
55. 未來將出現(xiàn)專門提供基礎模型和基礎算力的公司, 同時會有許多上下游伙伴在其之上衍生出多樣化產(chǎn)品和服務。
56. 我個人主要精力放在研發(fā)下一代大模型, 還有許多待解難題。
57. 所有曾經(jīng)的商業(yè)模式,都是屬于上一代的經(jīng)驗。 拿互聯(lián)網(wǎng)的路子去思考 AI 的盈利邏輯,可能就是刻舟求劍。
58. 外界關注到的是幻方量化 2015 年之后的部分, 但我們積累已經(jīng)有十多年了。
59. 中國產(chǎn)業(yè)結(jié)構(gòu)的轉(zhuǎn)型,越來越依賴硬核技術(shù)突破。 當社會意識到之前的“快錢”多半來自時代紅利,就會更加愿意投入真正的技術(shù)創(chuàng)新。
60. 未來將有更多“硬核創(chuàng)新”出現(xiàn),現(xiàn)在之所以缺乏共鳴, 是因為尚未有足夠多的成功案例為其正名。只有當那些潛心研究的人最終收獲成功,社會整體認知才會隨之轉(zhuǎn)變。
梁文鋒也曾為“量化之王”詹姆斯·西蒙斯(James Simons)的傳記《征服市場的人:西蒙斯傳》撰寫序言。在那篇序言的最后,他引用了西蒙斯的一句話:
“每當在工作中遇到困難的時候,我會想起西蒙斯的話:‘一定有辦法對價格建模?!?/span>
這句話在一定程度上,映射了梁文鋒對于**“創(chuàng)造、理解市場和模型”**的堅定信念。
詹姆斯·西蒙斯是量化投資領域的不朽傳奇,他所開創(chuàng)的文藝復興科技公司長久以來都蒙著一層神秘面紗,但這并不妨礙一代又一代年輕人被他的故事所激勵,紛紛投身量化行業(yè)。和所有顛覆式創(chuàng)新一樣,量化投資在萌芽時也曾被廣泛質(zhì)疑:“計算機怎么可能像人類那樣投資?” 可是西蒙斯卻預感到,隨著計算機軟硬件的演進,“不可能”總有一天會變?yōu)楝F(xiàn)實。
在量化投資的早年探索中,西蒙斯幾經(jīng)失敗,卻沒有放棄,篤信時間會站在他這邊。直到 20 世紀 80 年代末,計算機技術(shù)抵達一個臨界點,實用模型的初步成功讓西蒙斯抓住了關鍵機遇。1988 年,他創(chuàng)建大獎章基金,年近 50 的西蒙斯終于迎來轉(zhuǎn)折。從此之后,華爾街許多量化巨頭也陸續(xù)崛起,并且大都可以追溯到那一時期。
而在隨后的三十余年間,計算機技術(shù)持續(xù)演進,量化投資發(fā)展成為資本市場的寵兒。越來越多的“不可能”被技術(shù)擊破,也讓量化投資逐步成為 21 世紀金融領域的一大趨勢。文藝復興科技公司則借此勢能,始終站在行業(yè)前列。
值得一提的是,這三十余年也是金融監(jiān)管朝著更嚴格、更透明的方向進化的階段。昔日基金經(jīng)理依靠“內(nèi)幕消息”獲得交易優(yōu)勢的方式,已難以為繼。在信息時代,隨著規(guī)則的完善和數(shù)據(jù)的開放,量化投資與傳統(tǒng)投資幾乎站在同一起跑線上,也因此催生了量化的爆發(fā)。
當我們回看西蒙斯與文藝復興科技公司時,會發(fā)現(xiàn)他們之所以能持續(xù)輝煌數(shù)十年,離不開執(zhí)著的科研精神和對團隊組織的高度重視。更重要的是,西蒙斯所身處的時代,技術(shù)和市場環(huán)境都為量化鋪平了道路。本書中文版的出版,或許可以為國內(nèi)更多研究者和從業(yè)者帶來啟示:怎么在變動的時代中把握難得的機遇?如何管理一個始終站在潮頭的團隊?又怎樣看待科技對金融市場的深遠影響?
梁文鋒自稱“后輩”,能為西蒙斯的中文傳記作序,感覺十分榮幸:“每當我在工作中遭遇瓶頸時,都會想起西蒙斯那句‘一定有辦法對價格建模。’” 這既是一種技術(shù)自信,也是一種持續(xù)創(chuàng)新的動力??v觀量化投資乃至當今大模型的興起,不斷挑戰(zhàn)“不可能”的過程,也是人類一次次突破認知邊界的旅程。