12月11日,谷歌宣布發(fā)布最新大模型 Gemini 2.0,并推出基于此模型的AI智能體 Mariner。該智能體能夠瀏覽電子表格、購物網(wǎng)站等,甚至在用戶監(jiān)督下代表用戶采取行動。這一創(chuàng)新進(jìn)一步推動了人工智能技術(shù)的實際應(yīng)用。
Gemini 2.0:支持多模態(tài)輸入與高級推理
Gemini 2.0 是谷歌最新推出的大語言模型,其首個實驗版本 Gemini 2.0 Flash 支持多模態(tài)輸入與輸出,能夠直接生成圖文混合內(nèi)容,以及通過多語言文本轉(zhuǎn)語音(TTS)功能生成音頻。新模型的強大功能還包括調(diào)用谷歌搜索、代碼執(zhí)行,以及運行用戶定義的第三方函數(shù)。
谷歌CEO桑達(dá)爾·皮查伊(Sundar Pichai)表示:“Gemini 2.0 的高級推理能力使得解決復(fù)雜問題成為可能,例如高等數(shù)學(xué)方程、多模態(tài)查詢和編程問題。這一技術(shù)的突破將加速通用人工智能助手的構(gòu)建?!?
AI智能體Mariner:Chrome瀏覽器中的行動助手
基于 Gemini 2.0,谷歌專門為 Chrome 瀏覽器開發(fā)了 AI 智能體 Mariner。Mariner 的核心功能是幫助用戶瀏覽網(wǎng)頁并在需要時采取行動。例如,用戶可以讓 Mariner 瀏覽購物網(wǎng)站,將商品加入虛擬購物車,隨后由用戶確認(rèn)和完成購買。
谷歌項目經(jīng)理杰克琳·孔澤爾曼(Jaclyn Konzelmann)解釋,Mariner 的設(shè)計是“在用戶參與的情況下”使用,以確保用戶對最終決策有控制權(quán)。她補充道,雖然 Mariner 能夠簡化任務(wù)流程,但它仍處于實驗階段,并且可能犯錯?!傲奶鞕C器人在生成文本時的錯誤可能被忽略,但當(dāng)它試圖操作網(wǎng)站并采取其他行動時,錯誤的影響將更加明顯?!?
目前,谷歌正與外部少數(shù)測試人員分享 Mariner,但尚未公布何時向公眾發(fā)布。
谷歌的AI戰(zhàn)略與挑戰(zhàn)
除了 Mariner,谷歌還展示了新版數(shù)字助手 Project Astra,其功能包括對圖像、文本和語音命令做出反應(yīng)。這表明,谷歌正在通過一系列技術(shù)探索和產(chǎn)品,試圖在未來的人工智能市場中占據(jù)主導(dǎo)地位。
然而,谷歌的戰(zhàn)略也面臨阻力。美國司法部要求聯(lián)邦法官迫使谷歌出售或分拆 Chrome 瀏覽器,稱其涉嫌非法壟斷。作為谷歌 AI 戰(zhàn)略的重要平臺,Chrome 的未來發(fā)展可能對公司整體計劃產(chǎn)生重大影響。
技術(shù)的潛力與限制
盡管 Gemini 2.0 和 Mariner 展現(xiàn)了人工智能技術(shù)的巨大潛力,但谷歌也承認(rèn)這些工具尚未完全成熟。Mariner 的應(yīng)用仍需用戶監(jiān)督,而類似技術(shù)在操作網(wǎng)站時的潛在錯誤需要進(jìn)一步解決。
目前,AI 技術(shù)正在以驚人的速度發(fā)展,谷歌的最新嘗試為未來智能化瀏覽器和通用AI助手的實現(xiàn)鋪平了道路。隨著技術(shù)的不斷迭代,Mariner 和類似的AI工具可能成為日常生活中不可或缺的助手。