Site logo

“Gemini熱潮”再度席捲全球! 谷歌(GOOGL.US)Deep Think“硬核升級”直指大型科研工程

时间2026-02-13 08:51:45

谷歌A

谷歌

下载霸财智赢APP,买卖点即市预警,炒家心水交流 >>

智通財經APP獲悉,美國科技巨頭谷歌(GOOGL.US)對其風靡全球的Gemini 3 AI大模型的Deep Think(深度思考)模式在科學、編程、研究與工程學等方面進行了重大升級,這一最新升級聚焦於解決現代科學研究與工程領域的諸多複雜挑戰,可謂引爆新一輪席捲全球的“Gemini AI狂熱浪潮”。谷歌官方在一份聲明中表示,新的Deep Think模式現已在Gemini 3系列AI應用產品中面向 Google AI Ultra 訂閱用戶開放。該公司補充稱,這是其首次通過Gemini API向部分研究人員、工程師及大型企業提供Deep Think功能。

據谷歌介紹,通過更新後的Gemini 3 AI大模型Deep Think(深度思考)模式,訂閱用戶們可以將草圖變爲可3D打印的現實物體。Deep Think擁有強大的能力分析圖紙、對極度複雜形狀建模,並生成可用於3D打印製作實體物品的文件。

該公司在週四的一篇博客文章中表示:“除了其最先進的性能之外,Deep Think還旨在推動實際應用,使研究人員們能夠深度解讀複雜數據,並使工程師們能夠通過代碼與編程對複雜物理系統進行建模。“最重要的是,我們正在努力將Deep Think帶到研究人員與實踐者最需要它的地方——從Gemini API等表明接口開始。”谷歌在博客中表示。

谷歌可謂將Gemini 3 Deep Think(深度思考)從“偏抽象的高強度推理”進一步推向“能在真實科研與工程流程中落地”的專業推理引擎:強調在邊界不清、數據不完備、目標函數複雜的場景下,幫助研究者與工程師更快逼近可驗證的結論與可執行的方案。

這次升級最直觀的信號來自一系列硬核評測結果:在 Humanity’s Last Exam(無工具) 上達到 48.4%,在 ARC-AGI-2 上取得經 ARC Prize 基金會驗證的 84.6%,並在 Codeforces 競技編程基準中拿到 3455 Elo。這組成績同時指向“學術級推理、抽象歸納、工程化算法實現”三條能力曲線的同步擡升。

1770943944(1).png

更關鍵的是,Deep Think 的強項已不再侷限於數學/編程:谷歌披露其在2025國際物理奧賽、化學奧賽筆試部分達到“金牌水平”,並在更偏學術的 CMT-Benchmark(凝聚態理論) 上取得 50.5%。從能力版圖上看,這意味着它開始具備跨學科科研問題所需的“物理直覺 + 化學結構化推斷 + 數學形式化表達 + 代碼化求解”的組合拳,而非只在單一題型裏刷分。

Gemini 3 Deep Think模式此前於 2025年11月作爲 Gemini 3 AI應用產品套件的一部分對用戶們正式發佈。

“人類最後考試”成績刷新天花板

據瞭解,更新後的Deep Think 在若干學術基準測試中展現出更好的表現。該模型在 Humanity’s Last Exam(HLE,人類的最後考試)上創下全新標準(48.4%,無工具),該基準旨在測試當代前沿模型的能力極限。谷歌Deep Think模式在”人類的最後考試“中的炸裂表現遠高於此前公開發布的所有AI大型模型得分,被官方描述爲在這一極具挑戰性的基準上設定了新的行業水平(new standard)。這意味着在該特定推理測試中,它超越了以前的模型版本與競爭對手錶現,被視爲在該領域的領先成果。

谷歌官方指出,該模型在ARC-AGI-2(推理任務基準測試)上取得了前所未有的84.6%,並經ARC Prize Foundation(ARC 獎基金會)驗證。它還在 Codeforces(競技編程平臺,由競技編程挑戰構成的基準)上獲得了3455的Elo。該公司表示,去年該模型在數學與編程世界錦標賽中達到了金牌水平。

據該公司稱,除了高難度數學考驗與競技編程之外,Gemini 3 AI大模型Deep Think模式現在在化學與物理等更廣泛的科學領域也表現出色。

該公司指出,更新後的模型在2025年國際物理奧林匹克競賽與化學奧林匹克競賽的筆試部分也取得了金牌水平的最強勁大模型測試結果。它還在高級理論物理方面顯示出驚人的熟練度,在 CMT-Benchmark上取得了50.5% 的分數。

谷歌的 Gemini 與多款 AI 產品競爭,包括 OpenAI(OPENAI)的 ChatGPT 以及 Anthropic(ANTHRO)的 Claude。

更新後的Deep Think,堪稱全球新一輪“Gemini熱潮”的點火器

更新後的Gemini 3 Deep Think,不僅僅是一次單純的“模型更強”宣傳,而是把“高強度推理”明確產品化、並把落點從答題/寫代碼擴展到超大規模的科研與工程工作流。谷歌在官方發佈中把它定義爲面向科學、研究與工程挑戰的“專用推理模式”,同時強調其在 Humanity’s Last Exam 上“設定了新標準(48.4%,無工具)”、ARC-AGI-2上拿到84.6%等驚人成績,這種“硬指標 + 明確應用場景”的組合,天然更容易形成話題聚攏效應與開發者/機構的注意力迴流。

從底層技術邏輯看,Deep Think 的關鍵不在“記憶更多知識”,而在於推理過程的結構化與可擴展的推理算力:它通過迭代式推理在多個假設空間並行探索,並在“生成—驗證—修正”的閉環中不斷收斂;谷歌DeepMind幾乎在同一時間披露了以 Deep Think 驅動的研究型代理(如內部代號 Aletheia),用自然語言驗證器去抓邏輯漏洞、觸發重寫或推倒重來,這類“強驗證/強迴路”的機制,正是把AI大模型從“會說”推向“能做研究/能做工程”的核心路徑。

谷歌這次AI大模型升級不僅在Gemini App系列應用產品面向 Google AI Ultra訂閱用戶開放,還首次通過Gemini API向研究人員、工程師與企業提供早期訪問(部分報道提到與 Vertex AI 早期計劃聯動),這意味着它更容易被嵌入企業研發鏈條(數據分析、仿真建模、代碼驅動物理系統建模、自動化實驗/設計迭代等);再疊加“草圖到3D可打印文件”這類強演示型能力,無疑具備引爆傳播的產品特徵。

免责声明:本资讯不构成建议或操作邀约,市场有风险,投资需谨慎!