AI Agent:商用爆发元年将至
2024年11月29日,智谱在OpenDay上发布其最新Agent产品,包括AutoGLM、AutoGLMWeb、AutoGLM-PC三款产品,仅需一个简单指令,这些Agent便可完成相对机器而言较为复杂的任务,如买咖啡、发红包等。2024年12月,OpenAI的首席财务官在接受彭博社采访时透露,OpenAI正计划推出可执行复杂任务的AI Agent,其将具备博士级别的助手功能。此前,黄仁勋也表示,AI Agent是人工智能发展的未来趋势,很快将有AI Agent和团队一起工作。AI Agent是什么?应用价值如何?投融现状如何?本文尝试分析和探讨。
AI Agent是什么?
AI Agent,也称为人工智能代理,通常是指能够感知环境、进行自主理解、决策和执行动作的智能体。OpenAI将AI Agent定义为“以大语言模型为大脑驱动,具备自主理解、感知、规划、记忆和使用工具的能力,可自动化执行完成复杂任务的系统。”大语言模型(Large Language Model,LLM)是AI Agent实现的基础和前提。
AI Agent的基本框架包括记忆、规划、工具、行动四个主要模块:(1)记忆:该模块负责存储信息,分为短期记忆、长期记忆。以聊天机器人为例,其上下文学习是利用短期学习来记忆,而长期记忆通常是通过利用外部向量数据库和快速检索;(2)规划:该模块分为事前规划和事后反思两个阶段。在事前规划阶段,智能体将复杂任务分解为小的、可管理的子任务。在事后反思阶段,智能体具有检查和改进过往行为的能力,反思不足并完善,形成和加入长期记忆;(3)工具:该模块是指利用外部资源或工具来执行任务。例如,智能体学习调用外部API来获取模型权重中缺少的额外信息,包括当前信息、代码执行能力、对专有信息源的访问等;(4)行动:该模块是智能体实际执行的决定,智能体可根据不同的任务选择不同的行动,包括记忆检索、推理、学习、编程等。