|
濒临Claude Opus 4.6和GPT Codex 5.3的狠恶攻势,反手便是一个Gemini 3 Deep Think的紧要升级。 ![]() 在Codeforces(一个包含多样竞技编程挑战的基准测试平台)上,它获取了惊东说念主的3455Elo分数,特出于宇宙第8名 ![]() 这下子,环球唯有7东说念主的编程水平能排在它前边了。而此前最高分是一年前o3拿下的2727 Elo。 ![]() Gemini 3 Deep Think的实力不啻于此,它还奏凯把ARC-AGI-2——这个公认测试AI推理才气的前沿基准,给刷到了史无先例的84.6% 要知说念,之前最强模子的得分在60%-70%之间逗留,Claude Opus 4.6的得益也唯有68.8%。 东说念主类临了履行(HLE)上,Gemini 3 Deep Think也刷新SOTA,拿下了48.4%的得益。 ![]() 官方暗意,新版Deep Think是谷歌额外修复的推理款式,旨在鼓舞智能前沿发展,并处罚科学、计划和工程限制的当代挑战。 另一位“尧舜禹”——清华物理系外传特奖得主姚顺宇(Shunyu Yao),昨年9月加入谷歌DeepMind,亦然这次Deep Think新模子的参与者。 ![]() 新版DeepThink如故走进了实验室 升级后的Gemini 3 Deep Think实力究竟有多强? {jz:field.toptypename/}它的缱绻不啻于赢得基准测试,而是要走进科研和工程限制,匡助工程师处理复杂任务。 新版Deep Think不错分析草图,对复杂神志进行建模,并奏凯生成用于3D打印的实体文献。这是它打印的一个条记本电脑支架:
谷歌VP Josh Woodward 在X上晒出了打印的效果,看起来对草图特出收复: ![]() 罗格斯大学的数学家Lisa Carbone,诳骗Gemini 3 Deep Think审阅了一篇高度专科的数学论文。 遏抑Gemini 3 Deep Think得胜地识别出了一个狭窄的逻辑颓势,而这个颓势在此前的东说念主工同业评审中均未被发现。
杜克大学的王安实验室,诳骗Gemini 3 Deep Think本事优化了复杂晶体滋长的制备按序,以期发现新的半导体材料。 遏抑Gemini 3 Deep Think得胜联想了一种大致滋长厚度大于 100 微米薄膜的工艺,达到了以往按序难以企及的精准筹画。
在X上,DeepSeek多模态团队计划员XiaoKang Chen也暗意:Gemini 3 Deep Think相配擅所长理科学限制中的长尾任务。 他给Deep Think输入了一张复杂分子结构的图片,随后模子便准确地臆想出了分子式。 ![]() 勇夺三项新SOTA,推理本钱缩短82% 昨年Deep Think额外版如故IMO等海外竞赛中夺下金牌。当前,全新升级后的Deep Think又在多项高难度的基准测试中全面刷新SOTA: 不使用任何器具,在HLE中获取新SOTA——48.4%在ARC-AGI-2测试中获取前所未有的84.6%的得益,并经 ARC Prize 基金会考据;在Codeforces上获取了惊东说念主的3455Elo分数;在2025年海外数学奥林匹克竞赛中达到金牌水平。 ![]() 其中,ARC-AGI-2被誉为AI界的“图灵测试”,旨在计算模子处理从未见过的新颖推理任务的才气 要知说念,昨年12月刚发布的初代Deep Think得分如故45.1%,不到三个月时期如故飙升到84.6%,比Opus 4.6还要强出一截。 而在ARC-AGI-1上,Gemini 3 Deep Think获取了96%的得益,奏凯顶到天花板了。 ![]() 性能提高的同期,开云中国app登录入口推理本钱也在大幅着落。初代Deep Think推论每项任务的本钱为77.16好意思元。这次升级让本钱缩短了82%,每项任务仅需13.62好意思元 ![]() 由于1和2齐被Gemini刷爆了,当前ARC Prize如故在构建ARC-AGI-3了…… 除了数学和编程,升级后的Deep Think在化学和物理等凡俗的科学限制相通推崇出色。 在2025年海外物理奥林匹克竞赛和化学奥林匹克竞赛中,Gemini 3 Deep Think在笔试部分获取了金牌级别的得益。 此外,它还展现了在高等表面物理方面的才气,在CMT-Benchmark测试中获取了50.5%的分数。 ![]() 华东说念主带队,打造最强推理模子 Gemini 3 Deep Think的研发团队中,有不少华东说念主身影。 中枢成员包括95后华东说念主科学家Yi Tay,他在Gemini团队中从事强化学习和推理标的的计划责任。 ![]() 此前,他曾在Google Brain共同教导早期大言语模子名堂,包括PaLM-2、UL2和Flan-2。 在Google Brain责任3年多之后,2023–2024 年间,Yi Tay曾褊狭离开谷歌,算作集会首创东说念主创办了一家独角兽AI初创公司——Reka。 Reka AI由DeepMind、谷歌和Meta的计划东说念主员创立,其创办初志是打造功能巨大且高效的基础模子,当前也修复界面联想、应用逻辑以绝顶他应用方面的器具。 在创业一年半后,Yi Tay便重返谷歌DeepMind,担任高等资深计划科学家,不息从事东说念主工智能和大言语模子的计划。 昨年刚从Anthropic跳槽到谷歌DeepMind的清华学友姚顺宇,也参与了Deep think新模子的修复。 ![]() 姚顺宇本科就读于清华大学物理系,曾拿下过清华本科生衰退奖学金(清华授予在校优秀本科生的最高奖学金荣誉) 本科时代,他就已在《Physical Review Letters》(海外物理学限制最顶级的学术期刊之一)发表高水平论文,初次在海外上给出了对于非厄米系统的拓扑能带表面,不仅准确瞻望了关连征象,还界说了两个新的物理宗旨。 本科毕业后,他赴斯坦福大学不息攻读博士,专注于量子多体朦拢、通达量子系统能源学等前沿问题,师从Douglas Stanford(好意思国表面物理学家,被同业视为顶尖且有后劲更正物理学发展标的的年青科学家之一)、Zhenbin Yang(杨振斌,华侨好意思国科学家,公认的20世纪最进犯的物理学家之一)等著名学者。 博士毕业后,他先是去UC伯克利作念博士后计划,随后加入了Anthropic。在Anthropic责任的一年时期里,他参与组建了强化学习基础团队,认真了Claude 3.7 Sonnet框架,以及Claude 4系列背后的基本强化学习表面。 离开Anthropic之后,姚顺宇转战谷歌DeepMind,不息从事AI方面的计划。这次Deep Think新模子发布,亦然他在谷歌的首秀之作 [1]https://blog.google/innovation-and-ai/models-and-research/gemini-models/gemini-3-deep-think/[2]https://x.com/ShunyuYao14/status/2022013770843967900[3]https://x.com/YiTayML/status/2021988841142534287[4]https://x.com/NoamShazeer/status/2021988459519652089[5]https://x.com/PKUCXK/status/2022144532272623990 |


















备案号: