artificial intelligence (AI) agent是无需人工干预即可执行特定任务的自主(autonomous)智能系统。
介绍
AI Agent在人类下达复杂指令(prompt)以后,利用感知到的环境资讯,结合指令内容,自行做出计划,将其分解成不同步骤,并采取相应行动;在执行任务以后,它还能够把行动后接收到的回馈,用以改进自己的行为,转变为下次出任务的养分。AI Agent有称为AI智能体、AI代理- AI Model 与 AI Agent 对比
| 对比项 | 模型 | Agent |
|---|---|---|
| 知识 | 知识有截止日期(cutoff date),仅具备训练资料中的知识。 | 可以利用外部搜寻工具,扩展知识的范围。 |
| 脉络 | 以单次查询回应为主,除非在指令中特别提醒,否则无法「想起」先前对话内容。 | 能够记录并管理多轮对话的历史,因此对话时较能掌握脉络。 |
| 工具 | 无法调用工具。 | 能够调用工具。 |
| 推理 | 使用者仅能尽量利用提示工程(prompt engineering)技巧引导。 | 可以调用 ReAct 等推理框架。 |
- Agent 常见分类
- simple reflex agents
- model-based agents
- goal-based agents
- utility-based agents
- learning agents
- and so on
- 一个精简的 Agent 决策流程:
感知(Perception)是指 Agent 从环境中收集信息并从中提取相关知识的能力规划(Planning)是指 Agent 为了某一目标而作出的决策过程行动(Action)是指基于环境和规划做出的动作Policy是 Agent 做出Action的核心决策,而行动又通过观察(Observation)成为进一步Perception的前提和基础,形成自主的闭环学习过程
- 相关的用函数表达式
Agent:Perception(感知)—> Planning(规划)—> Action(行动)- Agent 实现
Agent = LLM + Planning + Feedback + Tool useAI Agent 的组成
- Planning 模块:负责规划大模型的行动
- Tools 模块:复杂让大模型可以连接外部工具,通过 MCP 实现
- Memory 模块:负责管理大模型对话的记忆,通过向量数据库实现,如 chromadb
- Action 模块:复杂管理大模型行动的基本流程
使用最多的智能体
- 根据 OpenRouter.ai 的统计,当前
cline比较流行
AI 编程助手
| 工具名称 | 核心功能 | 智能程度 | 用户控制 | 适用场景 |
|---|---|---|---|---|
| Cline | 文件操作、命令执行、上下文分析 | 高 | 强 | 综合开发辅助 |
| GitHub Copilot | 智能代码补全 | 中 | 弱 | 快速补全和生成代码 |
| Continue | 代码解释和重构 | 中 | 弱 | 不太好用 |
| Tabnine | 基于上下文的代码补全 | 中 | 弱 | 单文件代码开发 |
- CodeGeeX
- AWS Toolkit
- 阿里通义灵码
- cline、continue、cursor、windsurf 等等
- codeium: AI Coding Autocomplete for Python
- Copilot 主要基于上下文进行插入代码的操作
- Amazon Q Developer 是一款生成式人工智能 (AI) 驱动的对话助手,可以帮助您理解、构建、扩展和操作 AWS 应用程序
- Kilo Code The best AI coding agent for VS Code,Kilo combines all features of Cline, Roo, and our own additions
- Tabby(dev by tabbyml) is an open-source, self-hosted AI coding assistant
dify
- langgenius/dify 一个开源 LLM 应用程序开发平台。Dify 的直观界面结合了人工智能工作流、RAG 管道、代理功能、模型管理、可观测性功能等,让用户快速从原型进入生产阶段
Headless CLI Agents
Headless CLI Agents(无头命令行智能体)是一个结合了 AI Agent(人工智能体)、CLI(命令行界面) 和 Headless(无头模式) 概念的技术术语。它指的是一种没有图形用户界面(GUI),直接运行在终端(Terminal)中,能够自主执行命令行操作的 AI 软件。
- Headless(无头): 在软件工程中,
Headless通常指没有图形界面(如窗口、按钮、菜单等)。软件在后台运行,或者仅通过文本流(stdin/stdout)进行交互。 - CLI (Command Line Interface): 命令行界面。这是程序员和系统管理员与计算机交互的最原始、最强大的方式(例如 Bash, Zsh, PowerShell)。
- Agents (智能体): 指基于大语言模型(LLM,如 GPT-4, Claude 3)构建的系统,它不仅能
说话,还能规划任务、使用工具、观察结果并进行自我修正。
使用场景:
- DevOps 运维: “检查 Nginx 日志,找出 500 错误的来源并重启服务。”
- 代码工程: “运行测试,如果测试失败,读取错误堆栈并自动修改代码,直到测试通过。” (如 Swe-agent)。
- 文件处理: “遍历所有子文件夹,删除超过 30 天的 .log 文件。”
- 环境配置: “帮我配置好 Python 3.10 的虚拟环境并安装 requirements.txt。”
目前市面上有很多类似的项目,如 claude code 等
最近更新
最新评论