21世紀(jì)經(jīng)濟(jì)報(bào)道 見(jiàn)習(xí)記者郭聰聰 實(shí)習(xí)生劉欣 北京報(bào)道
9月13日凌晨,OpenAI在沒(méi)有任何預(yù)告的情況下,扔出了o1-preview模型上線的重磅炸彈。
OpenAI對(duì)該模型介紹道,“ o1模型是一個(gè)新的大型語(yǔ)言模型,經(jīng)過(guò)強(qiáng)化學(xué)習(xí)(reinforcement learning,RL)訓(xùn)練,可以執(zhí)行復(fù)雜的推理。o1模型在回應(yīng)用戶之前會(huì)產(chǎn)生長(zhǎng)串的內(nèi)部思維鏈(chain of thought)。”這種內(nèi)部思維鏈,類似于人類通過(guò)逐步推理來(lái)解決問(wèn)題。
對(duì)此OpenAI稱,這是一個(gè)重要的進(jìn)展,代表了人工智能能力的新水平。
AI可以思考?o1模型超越人類頂尖水平實(shí)力
之前就有人猜測(cè)這次發(fā)布的模型可能會(huì)被命名為GPT-5,但o1系列的創(chuàng)新性令OpenAI不惜舍棄GPT系列命名,以“Orion(獵戶座)”重新命名了一個(gè)全新的o系列,可以說(shuō)是新開(kāi)一頁(yè)族譜了。OpenAI稱該命名存有“將‘計(jì)數(shù)器’重置為1”的寓意。
OpenAI 的研究負(fù)責(zé)人Jerry Tworek 表示,相較于GPT,o1模型采用了全新的優(yōu)化算法和專門為其定制的訓(xùn)練數(shù)據(jù)集進(jìn)行訓(xùn)練,它能夠比人類更快地回答更復(fù)雜的問(wèn)題。
那么o1系列模型到底有多強(qiáng)呢?
OpenAI官方發(fā)布了模型的對(duì)比測(cè)試,作為比較參照數(shù)值的是今年5月上新的GPT-4o模型與人類專家水平。
在組圖對(duì)比成績(jī)中可以直觀感受到,o1模型的絕對(duì)壓制力。OpenAI官網(wǎng)直言,結(jié)果表明o1模型在大多數(shù)推理任務(wù)中明顯優(yōu)于GPT-4o。
無(wú)論是在國(guó)際數(shù)學(xué)奧林匹克的選拔考試測(cè)試(AIME)、代碼競(jìng)賽還是博士及科學(xué)問(wèn)題的對(duì)比測(cè)試中,o1模型都?jí)旱故降哪雺耗壳暗腉PT-4o模型。在數(shù)學(xué)競(jìng)賽與代碼競(jìng)賽的正確率上,還未發(fā)布的o1正式版是GPT-4o模型的6-8倍。而在博士級(jí)科學(xué)推理問(wèn)題(GPQA Diamond)測(cè)試中,o1模型也表現(xiàn)出了接近甚至超越人類頂尖水平的實(shí)力。
比AI更恐怖的是,是AI可以思考。
之所以產(chǎn)生這種質(zhì)變的正確率,是因?yàn)閛1系列模型加入了RL技術(shù),逐漸生成“思維鏈”——這一類似于人類推理的思考方式。該技術(shù)通過(guò)獎(jiǎng)勵(lì)和懲罰來(lái)教導(dǎo)系統(tǒng),令系統(tǒng)學(xué)會(huì)了識(shí)別和糾正自己的錯(cuò)誤,同時(shí)也學(xué)會(huì)了將復(fù)雜的步驟分解為更簡(jiǎn)單的步驟。
OpenAI這次劃時(shí)代的模型創(chuàng)新帶來(lái)了人工智能從大語(yǔ)言模型的Scaling Law到新范式Self-play RL的跨時(shí)代轉(zhuǎn)變,這或是對(duì)于AGI時(shí)代發(fā)起的一次沖鋒。
從GPT到o1,o1模型強(qiáng)在哪里
自2018年6月GPT-1面世以來(lái),Open AI一直優(yōu)化拓展GPT系列模型,至2024年5月已迭代到了GPT-4o,期間還推出了專門設(shè)計(jì)用于對(duì)話生成任務(wù)ChatGPT。
在GPT系列模型一路迭代的過(guò)程中,目光更多聚焦精進(jìn)模型參數(shù)規(guī)模來(lái)提升性能,以大語(yǔ)言模型訓(xùn)練模型(Scaling Law)進(jìn)行多任務(wù)學(xué)習(xí),最終在GPT-4o中實(shí)現(xiàn)了文本、音頻和圖像的任何組合作為輸入的多模態(tài)大模型。
但此次推出的o1模型是OpenAI的革新之舉,代表了一種全新的推理能力。
首先是RL技術(shù)的差異,想當(dāng)年,AlphaGo戰(zhàn)勝人類棋手,背后就是用的是RL算法。OpenAI研究員Jason Wei表示,o1模型是一個(gè)在給出最終答案之前進(jìn)行思考的模型。通過(guò)RL技術(shù)訓(xùn)練模型,能夠更好地執(zhí)行鏈?zhǔn)剿伎肌?
除了訓(xùn)練方法上的差別外,不同于GPT-4o的多任務(wù)能力,o1 模型在處理復(fù)雜的編程和數(shù)學(xué)問(wèn)題時(shí)具有獨(dú)特優(yōu)勢(shì),并能解釋其推理過(guò)程。在處理復(fù)雜的推理任務(wù)的評(píng)測(cè)中,o1模型已證明了自己的絕對(duì)實(shí)力。
同時(shí)為滿足不同需求,OpenAI推出了o1-preview與o1-mini兩個(gè)o1模型。o1-preview注重深度思考與科學(xué)推理,每周速率限制為 30 條消息。o1-mini是一種經(jīng)濟(jì)高效的推理模型,非常擅長(zhǎng)STEM,尤其是數(shù)學(xué)和編碼,用于需要推理但不需要廣泛世界知識(shí)的應(yīng)用場(chǎng)景,每周速率限制為 50 條。
作為o1的早期模型,o1-preview尚為純文字版,還不具備ChatGPT處理文本、音頻和圖像組合輸入的能力。
目前,o1模型已經(jīng)逐步向所有ChatGPT Plus和 Team用戶開(kāi)放,后續(xù)OpenAI 將計(jì)劃為所有ChatGPT免費(fèi)用戶提供 o1-mini 訪問(wèn)權(quán)限。