《Agent Workflow Memory》论文中文总结

ZPY

11小时 ago

这篇论文题目为 《Agent Workflow Memory》 (简称 AWM)，由卡内基梅隆大学（CMU）和麻省理工学院（MIT）的研究人员共同发表。

以下是对该论文的核心总结：

目前的语言模型（LM）智能体（Agents）虽然在网页导航和移动应用操作上取得了进展，但仍面临两大瓶颈：

论文提出了一种名为 AWM 的框架，其核心理念是让智能体能够提取、存储并重用任务工作流（Workflows）。

工作流表示：工作流不仅包含操作序列，还包含对目标的自然语言描述和抽象化的推理过程（例如使用 {id} 等占位符来处理动态数据），使其具有更好的复用性。
两种运行模式：
- 离线模式 (Offline)：从现有的高质量标注示例中提取工作流。
- 在线模式 (Online)：在无监督的情况下，智能体从自己过去成功解决的任务中总结经验，不断丰富自己的“工作流记忆”。
机制循环：智能体在解决问题时先从记忆中检索匹配的工作流，按其引导执行任务，成功后再次触发归纳（Induction）并更新记忆。

AWM 在两个主流的网页导航基准测试中表现卓越：

总结一句话：该论文通过引入“工作流记忆”机制，让 AI 智能体能够像人类一样从过去的经验中总结通用的“套路”，并灵活应用到新环境中，显著提升了其处理复杂、多变任务的能力。

在原理层面，Agent Workflow Memory (AWM) 的核心在于通过“归纳-存储-检索-应用”的循环，将具体的任务经验转化为通用的、可复用的工作流知识。以下是其详细的原理总结：

AWM 将任务经验（Experience）抽象为更具普适性的工作流（Workflow）：

经验 (Experience)：包含具体的自然语言指令 $q$ 和执行轨迹（观察 $o$ 和具体动作 $a$ 的序列）。
工作流 (Workflow)：
- 描述 ($d$)：对任务目标的自然语言高度概括（如“搜索并预订机票”）。
- 抽象轨迹 ($p_1, p_2, \dots$)：
  1. 环境状态描述：用自然语言描述当前环境的状态。
  2. 推理过程 (Reasoning)：Agent 决定动作的思想过程。
  3. 抽象动作：使用占位符（如 {order_id}, {location}）替换具体的参数，使动作序列能够适配不同的实例。

这是 AWM 的核心引擎，利用大型语言模型（LM）作为归纳器 $Iq$ 时，Agent 会执行以下逻辑：

mermaid

核心优势总结：
AWM 的原理本质上是将“长程规划”问题转化为“模式匹配与局部适配”问题。通过将复杂的任务拆解为可复用的抽象模块，显著降低了 Agent 对特定环境的依赖，增强了在跨网站、跨领域的泛化能力。