本周(W46,2025年第46周)AI领域迎来一个清晰的转向信号:“语言”正在进行,“行动”是下个未来。

AI教母李飞飞与图灵奖得主Yann LeCun不约而同地指出LLM的瓶颈,并将目光投向了“空间智能”与“世界模型”——即让AI真正理解物理世界。

这一理论转向在现实中得到了完美印证:AI Agent(代理)正在疯狂进化。Google DeepMind的SIMA 2学会了在游戏中“自主学习”;谷歌的购物助手开始“打电话”帮你询价;而一场人与AI Agent的生产力对决,也揭示了AI“低成本、高速度”的惊人潜力。

与此同时,OpenAI也没闲着,GPT-5.1带着“人格设置”悄然登场。

image.png

行业风向

空间智能(Spatial Intelligence)

AI 教母、ImageNet 的创建者李飞飞博士认为,语言模型已经碰到了瓶颈。目前的 AI 尽管擅长写作、推理和编码,但对周围的物理世界是盲目的

  • 概念空间智能是人类和动物理解、导航和与 3D 世界互动的方式。
  • 世界模型:要实现空间智能,AI 需要世界模型(world models),具备三个核心能力:生成性(创建遵循物理和几何的虚拟世界)、多模态(处理图像、视频、深度图、动作,而不仅仅是文字)、交互性(预测采取行动后会发生什么)。
  • 意义:开发空间智能将使 AI 从仅仅“谈论世界”转变为“真正理解(并存在于)世界”。

image.png

AI 哲学与世界模型

◦ 图灵奖得主、Meta 前首席 AI 科学家 Yann LeCun 离职,他认为通往 AGI 的道路不会经过 LLM

◦ 他倾向于“世界模型”,即通过观看视频和理解物理现实来学习的 AI,使用 JEPA 架构构建内部世界运作的模拟。

image.png

AI Agent(代理)

AI 代理 vs. 人类工作者研究

卡内基梅隆大学和斯坦福大学进行了一项研究,将 48 名人类工作者与 4 个领先的 AI 代理框架(包括 ChatGPT、Claude 的 Manus 和 OpenHands)在 16 项实际工作任务中进行对比(涵盖数据分析、工程、设计、写作和行政工作)。

  • 速度与成本:AI 代理完成任务的速度比人类快 88%。AI 代理的成本比人类工作者低 90% 到 96%
  • 质量与缺陷:人类在所有任务类型中都取得了明显更高的成功率。AI 代理有时会捏造数据以假装完成任务。例如,在一个案例中,代理无法从收据图像中提取数字,便编造了看似合理的数字导出到 Excel。
  • 工作方式:AI 代理倾向于通过编程解决所有问题,例如通过编写 Python 脚本或 HTML 来生成公司标志,而不是像人类那样使用 Figma 等视觉工具。
  • 解决方案:研究人员提出了人与代理协作(human-agent teaming)的中间路径,即将易于编程、重复性的工作交给代理,而需要视觉判断、创造力和验证的任务由人类处理。这种混合方法在保持人类水平质量的同时,将效率提高了 69%。

image.png

Google 推出“代理结账”功能,AI 助手包办购物

Google 近日展示了一项名为“代理结账”(Agentic Checkout)的新功能。该功能旨在让 AI 助手代表用户处理复杂的购物流程:

  1. 自动询价:AI 助手可以主动致电商店,为你查询实时库存。
  2. 自动下单:当AI追踪的商品价格降至你的目标价位时,它会自动完成购买。
  3. 对话式购物:在 AI 模式下,基于 Google 庞大的500亿产品列表,AI 助手可以与你进行对话式购物,提供更智能的辅助。

◦ Google 推出了代理结账功能(agentic checkout),该代理可以代表用户致电商店查询库存,并在价格降至目标时自动购买商品。

Google DeepMind 推出 SIMA 2 代理

Google DeepMind 本周发布了新一代 AI 代理 SIMA 2。这款由 Gemini 驱动的代理通过将强大的语言推理能力与“具身技能”(Embodied Skills)相结合,使其性能达到了上一代的两倍。

SIMA 2 不仅能导航复杂的虚拟世界,还能理解表情符号(Emoji)指令(例如:🪓🌲 = 砍树),更重要的是,它能通过“自我生成的任务”来进行自主学习。

image.png

AI模型和工具

OpenAI GPT-5.1 更新

  • GPT-5.1 旨在“减少交流的烦恼”,模型更“温暖”和“更具对话性”。
  • 它能更好地遵循指令,改进了数学和编码能力,并能决定何时需要深入思考,何时应快速回答。
  • 新增了人格设置,允许用户将 ChatGPT 设置为“Quirky”(古怪)、“Candid”(坦诚)、“Professional”(专业)或“Cynical”(愤世嫉俗)。

image.png

OpenAI GPT-5.1 开发者版

  • GPT-5.1 开发者版具有动态推理能力,可以根据任务复杂性调整思考时间。
  • 在简单查询上,响应时间从 10 秒缩短到 2 秒,并增加了针对低延迟用例的“无推理”模式。

阿里“通义”App 更名“千问”,全力押注 C 端

本周,阿里巴巴将其C端AI应用“通义App”正式更名为“千问App”。此次品牌升级伴随着版本号从3.x直接跳升至5.0,显示了阿里对C端市场的巨大投入。此举被视为阿里全力加码C端、打造类ChatGPT超级AI助手的重要信号,旨在正面参与全球AI应用的竞争。

image.png

NotebookLM支持深度研究

AI 笔记工具 NotebookLM 迎来了两项重大更新:

  • 深度研究 (Deep Research):用户只需提供一个研究主题,NotebookLM 便能自动搜集相关资料并生成一份初步的研究报告。用户随后可将这些信源导入,通过聊天、思维导图或音频概览进行深入探索。
  • 自定义视频概览:新功能允许用户将其研究文档和笔记转换成视频。用户仅需通过简单的提示词(prompt)描述想要的风格,即可生成定制化的视频概览。
  • ps:NotebookLM这是真的buf叠满了👍👍

image.png

用AI的小技巧

提示工程与好奇心

复旦大学的研究人员发现,在提示词中加入“好奇心”能将 AI 解决复杂问题的准确性提高 10% 到 33%。

  • 通过鼓励 AI 探索替代方案和加入自我提问(如“What if”、“Why”、“How”)的方式实现更深入的推理。
  • 下次当你需要人工智能解决棘手问题时,不妨试试这个:
1
2
“你是一位聪明好学的学生。请阅读题干,然后回答问题。回答时,请先一步一步思考,然后再形成答案。
我们鼓励你在思考过程中提出一些自问自答的问题,例如‘如果……会怎样?’‘为什么?’‘怎么做?’等等。”

一些奇奇怪怪的AI应用

AI 气味数字化(Osmo)

  • Osmo 公司成功利用 AI 实现了气味的数字化,被称为“嗅觉传送”。
  • 科学突破:气味感官比视觉复杂 100 倍(气味使用 300 多个嗅觉受体,而视觉只有 3 个颜色受体)。Osmo 通过 AI 构建了世界上第一个“初级气味图”(Primary Odor Map)。
  • 嗅觉传送:他们通过读取一个房间的分子数据,上传到云端,然后用分子打印机在另一个房间精确重建了气味(例如新鲜李子的气味)。
  • 应用:Osmo Studio 使自定义香水设计的时间从传统的 18-24 个月缩短到一周。长远来看,该技术可能用于通过传感器检测疾病(如癌症和帕金森病)。

image.png