ZPY博客

《Agent Workflow Memory》 论文中文总结

这篇论文题目为 《Agent Workflow Memory》 (简称 AWM),由卡内基梅隆大学(CMU)和麻省理工学院(MIT)的研究人员共同发表。

以下是对该论文的核心总结:

1. 核心背景与痛点

目前的语言模型(LM)智能体(Agents)虽然在网页导航和移动应用操作上取得了进展,但仍面临两大瓶颈:

2. 核心解决方案:Agent Workflow Memory (AWM)

论文提出了一种名为 AWM 的框架,其核心理念是让智能体能够提取、存储并重用任务工作流(Workflows)

3. 主要实验结果

AWM 在两个主流的网页导航基准测试中表现卓越:

4. 论文贡献与意义

总结一句话:该论文通过引入“工作流记忆”机制,让 AI 智能体能够像人类一样从过去的经验中总结通用的“套路”,并灵活应用到新环境中,显著提升了其处理复杂、多变任务的能力。

在原理层面,Agent Workflow Memory (AWM) 的核心在于通过“归纳-存储-检索-应用”的循环,将具体的任务经验转化为通用的、可复用的工作流知识。以下是其详细的原理总结:

1. 知识表示:从“经验”到“工作流” (Representation)

AWM 将任务经验(Experience)抽象为更具普适性的工作流(Workflow):

2. 归纳机制:LM 驱动的子例程提取 (Induction)

这是 AWM 的核心引擎,利用大型语言模型(LM)作为归纳器 $Iq$ 时,Agent 会执行以下逻辑:

  1. 相似度检索:基于 Embedding 或文本匹配,从工作流记忆 $M_w$ 中检索出与当前指令最相关的 $k$ 个工作流。
  2. 上下文增强 (In-context Learning):将检索到的抽象工作流作为 Prompt 的一部分输入给 Agent。
  3. 实例化执行:Agent 参考工作流的“套路”,将抽象的占位符与当前环境中的实际观察值进行绑定,生成精准的下一步动作。

5. 原理总结图示

mermaid

核心优势总结
AWM 的原理本质上是将“长程规划”问题转化为“模式匹配与局部适配”问题。通过将复杂的任务拆解为可复用的抽象模块,显著降低了 Agent 对特定环境的依赖,增强了在跨网站、跨领域的泛化能力。

 

论文地址:https://arxiv.org/html/2409.07429v1