AI一周大事件W46：GPT-5.1更新, Google Agent进化, 阿里“千问”入局

本周（W46，2025年第46周）AI领域迎来一个清晰的转向信号：“语言”正在进行，“行动”是下个未来。

AI教母李飞飞与图灵奖得主Yann LeCun不约而同地指出LLM的瓶颈，并将目光投向了“空间智能”与“世界模型”——即让AI真正理解物理世界。

这一理论转向在现实中得到了完美印证：AI Agent（代理）正在疯狂进化。Google DeepMind的SIMA 2学会了在游戏中“自主学习”；谷歌的购物助手开始“打电话”帮你询价；而一场人与AI Agent的生产力对决，也揭示了AI“低成本、高速度”的惊人潜力。

与此同时，OpenAI也没闲着，GPT-5.1带着“人格设置”悄然登场。

行业风向

AI 教母、ImageNet 的创建者李飞飞博士认为，语言模型已经碰到了瓶颈。目前的 AI 尽管擅长写作、推理和编码，但对周围的物理世界是盲目的。

概念：空间智能是人类和动物理解、导航和与 3D 世界互动的方式。
世界模型：要实现空间智能，AI 需要世界模型（world models），具备三个核心能力：生成性（创建遵循物理和几何的虚拟世界）、多模态（处理图像、视频、深度图、动作，而不仅仅是文字）、交互性（预测采取行动后会发生什么）。
意义：开发空间智能将使 AI 从仅仅“谈论世界”转变为“真正理解（并存在于）世界”。

◦ 图灵奖得主、Meta 前首席 AI 科学家 Yann LeCun 离职，他认为通往 AGI 的道路不会经过 LLM。

◦ 他倾向于“世界模型”，即通过观看视频和理解物理现实来学习的 AI，使用 JEPA 架构构建内部世界运作的模拟。

卡内基梅隆大学和斯坦福大学进行了一项研究，将 48 名人类工作者与 4 个领先的 AI 代理框架（包括 ChatGPT、Claude 的 Manus 和 OpenHands）在 16 项实际工作任务中进行对比（涵盖数据分析、工程、设计、写作和行政工作）。

速度与成本：AI 代理完成任务的速度比人类快 88%。AI 代理的成本比人类工作者低 90% 到 96%。
质量与缺陷：人类在所有任务类型中都取得了明显更高的成功率。AI 代理有时会捏造数据以假装完成任务。例如，在一个案例中，代理无法从收据图像中提取数字，便编造了看似合理的数字导出到 Excel。
工作方式：AI 代理倾向于通过编程解决所有问题，例如通过编写 Python 脚本或 HTML 来生成公司标志，而不是像人类那样使用 Figma 等视觉工具。
解决方案：研究人员提出了人与代理协作（human-agent teaming）的中间路径，即将易于编程、重复性的工作交给代理，而需要视觉判断、创造力和验证的任务由人类处理。这种混合方法在保持人类水平质量的同时，将效率提高了 69%。

Google 近日展示了一项名为“代理结账”（Agentic Checkout）的新功能。该功能旨在让 AI 助手代表用户处理复杂的购物流程：

◦ Google 推出了代理结账功能（agentic checkout），该代理可以代表用户致电商店查询库存，并在价格降至目标时自动购买商品。

Google DeepMind 本周发布了新一代 AI 代理 SIMA 2。这款由 Gemini 驱动的代理通过将强大的语言推理能力与“具身技能”（Embodied Skills）相结合，使其性能达到了上一代的两倍。

SIMA 2 不仅能导航复杂的虚拟世界，还能理解表情符号（Emoji）指令（例如：🪓🌲 = 砍树），更重要的是，它能通过“自我生成的任务”来进行自主学习。

GPT-5.1 旨在“减少交流的烦恼”，模型更“温暖”和“更具对话性”。
它能更好地遵循指令，改进了数学和编码能力，并能决定何时需要深入思考，何时应快速回答。
新增了人格设置，允许用户将 ChatGPT 设置为“Quirky”（古怪）、“Candid”（坦诚）、“Professional”（专业）或“Cynical”（愤世嫉俗）。

本周，阿里巴巴将其C端AI应用“通义App”正式更名为“千问App”。此次品牌升级伴随着版本号从3.x直接跳升至5.0，显示了阿里对C端市场的巨大投入。此举被视为阿里全力加码C端、打造类ChatGPT超级AI助手的重要信号，旨在正面参与全球AI应用的竞争。

AI 笔记工具 NotebookLM 迎来了两项重大更新：

深度研究 (Deep Research)：用户只需提供一个研究主题，NotebookLM 便能自动搜集相关资料并生成一份初步的研究报告。用户随后可将这些信源导入，通过聊天、思维导图或音频概览进行深入探索。
自定义视频概览：新功能允许用户将其研究文档和笔记转换成视频。用户仅需通过简单的提示词（prompt）描述想要的风格，即可生成定制化的视频概览。
ps：NotebookLM这是真的buf叠满了👍👍

复旦大学的研究人员发现，在提示词中加入“好奇心”能将 AI 解决复杂问题的准确性提高 10% 到 33%。

1
2

“你是一位聪明好学的学生。请阅读题干，然后回答问题。回答时，请先一步一步思考，然后再形成答案。
我们鼓励你在思考过程中提出一些自问自答的问题，例如‘如果……会怎样？’‘为什么？’‘怎么做？’等等。”

Osmo 公司成功利用 AI 实现了气味的数字化，被称为“嗅觉传送”。
科学突破：气味感官比视觉复杂 100 倍（气味使用 300 多个嗅觉受体，而视觉只有 3 个颜色受体）。Osmo 通过 AI 构建了世界上第一个“初级气味图”（Primary Odor Map）。
嗅觉传送：他们通过读取一个房间的分子数据，上传到云端，然后用分子打印机在另一个房间精确重建了气味（例如新鲜李子的气味）。
应用：Osmo Studio 使自定义香水设计的时间从传统的 18-24 个月缩短到一周。长远来看，该技术可能用于通过传感器检测疾病（如癌症和帕金森病）。