从Token到Agent Skill,10分钟带你弄清楚AI名词
AI圈子的发展速度堪比火箭,几乎每个月都有新名词冒出来。LLM、Token、Context、Prompt、Tool、MCP、Agent、Skills……如果你刚接触AI,可能会被这些术语搞得一头雾水。别担心,这篇文章就是为你准备的!我会用最通俗的语言和生活中的例子,带你快速搞懂这些概念,不纠结底层原理,只讲你能听懂的大白话。
一切的基础:LLM(大语言模型)
LLM = Large Language Model,大语言模型
它是什么?
简单来说,LLM就是一个”超级会说话的AI”。它能理解你说的话,也能生成回复。你平时用的豆包、ChatGPT、文心一言、Kimi、通义千问,背后都是LLM在干活。
类比理解
把它想象成一个读过全世界几乎所有书籍、文章、网页的”学霸”。这个学霸的特点:
- 记忆力超群,看过什么基本都能记住
- 表达能力极强,能用各种风格说话
- 但它没有真正的意识,它只是在”预测下一个最可能出现的字是什么”
就像你玩”成语接龙”,LLM做的是类似的事,只不过它接的不是成语,而是每一个字、每一个词。
它的作用
LLM的核心作用就是理解和生成自然语言。它能:
- 回答问题
- 写文章、写代码
- 翻译语言
- 总结长文
- 甚至陪你聊天解闷
常见场景
- 日常使用:打开ChatGPT问问题、让Kimi帮你总结PDF
- 产品开发:客服机器人、智能助手、内容生成工具
- 编程辅助:GitHub Copilot帮你写代码
需要注意的
LLM不是万能的。它会犯错(俗称”幻觉”),有时候会一本正经地胡说八道。所以重要信息一定要核实,别全信。
▲ 常见的LLM产品界面,背后都是大语言模型在驱动
Token:AI的”字数单位”
Token是LLM处理文字的基本单位
它是什么?
Token是AI处理文字的”最小计量单位”。AI不是按”字”或”词”来理解文字的,而是把文字拆成更小的片段——这就是Token。
中文里,一个Token大约等于0.5~1.5个汉字。英文里,一个Token大约是0.75个单词。
类比理解
想象你去菜市场买菜:
- 你不能按”粒”买米,老板会烦死
- 所以你按”斤”买,“斤”就是一个计量单位
Token就是AI世界的”斤”。AI不按”字”算,按”Token”算。
它的作用——为什么Token很重要?
1. 计费单位 AI服务通常按Token收费,就像打电话按分钟计费、坐出租车按公里计费一样。你用的越多,花的钱越多。
2. 输入比输出贵 这是一个很多人不知道的事实:输入Token通常比输出Token贵好几倍。不同厂商定价不同,但普遍规律是:
- 输入Token(你发给AI的内容):更贵
- 输出Token(AI回复你的内容):便宜
为什么?因为AI”理解”你说的话比”生成”回复要消耗更多计算资源。
3. 长度限制 每次对话能处理的Token数量有限。就像手机短信有字数限制、微博有140字限制一样。
常见场景
- 看账单:用API调用AI服务时,账单上会显示”输入Token xxx,输出Token xxx,费用xx元”
- 选模型:不同模型有不同Token限制,有的能处理4000 Token,有的能处理128000 Token
- 控制成本:发很长的文章给AI分析会消耗大量Token,省钱的话可以先截取关键段落
举个例子
你说:“今天天气怎么样?“(约5个Token) AI回答:“今天晴天,气温25度,适合出门。“(约12个Token) 这次对话你就消耗了约17个Token
如果输入Token价格是输出Token的3倍,那这次对话的成本 = 5×3 + 12×1 = 27个”计费单位”。
▲ API调用时的Token计费明细,输入和输出分别计算
Context:AI的”短期记忆”
Context = 上下文,AI能”记住”的对话内容
它是什么?
Context Window(上下文窗口)就是AI一次性能”记住”的内容总量,单位也是Token。
类比理解
想象你在和朋友打电话聊天:
- 如果只聊了几句,前面的内容你记得清清楚楚
- 如果聊了一个小时,你可能就忘了开头说了啥
人的短期记忆有限,AI也一样。Context Window就是AI的”短期记忆容量”。
它的作用
Context决定了AI能同时处理多少信息:
- Context小(比如4000 Token):AI容易”忘事”,适合简单问答
- Context大(比如128000 Token):AI能处理超长内容,比如整本书、长会议记录
实际影响
场景1:改论文
你让AI帮你改一篇5000字的论文。
- Context小:AI改到后面就忘了你前面说的”用学术风格”的要求
- Context够大:AI能从头到尾保持一致的修改风格
场景2:长对话
你和AI聊了50轮天。
- Context小:AI早就忘了你第一句说了什么
- Context大:AI能记住整个对话脉络
常见场景
- 选择产品时:不同AI产品的Context大小不同,需要处理长文档就选Context大的
- 对话中:聊太久发现AI开始”答非所问”,很可能是Context满了
- 开发时:开发者需要合理管理Context,把最重要的信息放在最前面
一个数据对比
| 产品/模型 | Context大小 | 大约能处理 |
|---|---|---|
| 早期GPT-3 | 4000 Token | 约3000字 |
| GPT-4 | 128000 Token | 约10万字 |
| Claude | 200000 Token | 约15万字 |
| Kimi | 2000000+ Token | 约150万字 |

▲ 不同模型的Context Window大小对比,越大能记住的内容越多
Prompt:和AI沟通的”话术”
Prompt = 提示词,你告诉AI该做什么的指令
它是什么?
Prompt就是你给AI的”指令”或”要求”。你说的话,就是Prompt。
类比理解
想象你在餐厅点菜:
- 你说”来份辣的” → 厨师可能做麻婆豆腐,也可能做辣子鸡
- 你说”来份麻婆豆腐,微辣,不要葱,多加点豆腐” → 厨师做出来的就是你想要的
Prompt就是点菜的话术。你说得越清楚,AI做出来的东西越符合你的预期。
它的作用——为什么现在的产品都进化成Agent了?
早期的AI产品就是”你问一句,它答一句”。但现在的AI产品,不仅仅是个LLM了,基本都进化成了Agent(智能体)。
进化的核心就是因为Prompt。
在Agent中,Prompt的作用发生了质的变化:
- 不只是”问问题”
- 更多是定义Agent本身的能力和行为约束
Prompt的分类
1. System Prompt(系统提示词)—— 用户看不见的”幕后设定”
这是开发者提前写好的”人设”和规则,用户看不到。它规定了:
- AI的身份(“你是一个专业的翻译助手”)
- 行为准则(“只翻译,不要解释”)
- 能力范围(“你能调用搜索工具和翻译API”)
- 输出格式(“用JSON格式返回结果”)
2. User Prompt(用户提示词)—— 你实际输入的内容
这就是你打字输入的东西,比如”你好”、“帮我写篇文章”、“翻译这段话”。
重要认知
当你输入简单的”你好”时,背后发生了什么?
Agent会携带大量System Prompt一起发送给LLM。所有这些内容的组合,才是真正的输入Token。
实际发送给LLM的内容 =
System Prompt(开发者写的设定)+
历史对话记录(Context)+
可用工具列表(Tools)+
你的输入(User Prompt)所以你输入2个字,实际可能消耗了几百个Token的输入额度。
举个例子
你输入:“帮我写首诗”
实际发送给AI的内容可能包括:
- 系统设定:“你是一个专业的诗人,擅长现代诗创作,风格偏向浪漫主义”
- 行为约束:“请用中文回复,不要超过20行,每行不超过15个字”
- 工具信息:“你可以调用【联网搜索】工具获取灵感”
- 你的输入:“帮我写首诗”
这些加起来才是真正的输入Token,可能有好几百个。
常见场景
- 日常使用:你给ChatGPT写的每一句话都是Prompt
- 提示词工程:有人专门研究怎么写Prompt让AI输出更好的结果
- 产品开发:开发者花大量时间优化System Prompt,让Agent表现更稳定
一句话总结
Prompt写得好,AI像专家;Prompt写得差,AI像智障。
▲ 同一个问题,不同的Prompt写法,输出质量天差地别
Tool:AI的”手脚”
Tool = 工具,让AI从”能说”变成”能做”
它是什么?
光会说话不够,AI还需要能”动手”干活。Tool就是AI的能力扩展,让它能真正去执行操作。
类比理解
LLM就像一个被绑在椅子上的天才:
- 脑子极好使,什么知识都知道
- 但手脚被绑着,什么都做不了
Tool就是给它松绑,给它装上各种工具:
- 给它电脑 → 它能操作文件
- 给它手机 → 它能发消息
- 给它浏览器 → 它能上网搜索
它的作用
Tool让AI从”纸上谈兵”变成”真刀真枪”:
- 没有Tool:AI只能”说”,告诉你怎么做
- 有了Tool:AI能”做”,直接帮你完成任务
工具的分类
1. 内置工具 —— AI自带的”基础装备”
有些AI Agent只有很少的内置工具,但凭借这些工具就能完成几乎所有事情。
比如 OpenClaw 只有4个内置工具:
read→ 读取文件内容write→ 写入/创建文件edit→ 编辑修改文件bash→ 执行命令行操作
就这4个工具,它就能帮你写代码、改配置、跑程序、管理文件,几乎无所不能。
2. 外置工具 —— 可以无限扩展的”外挂装备”
- 自己写:你可以开发任何你需要的工具,比如”发送邮件”、“操作数据库”、“调用某个API”
- 用别人的:社区里有很多人写好了现成的工具,拿来就能用
常见场景
- 编程助手:AI用read/write/edit工具帮你改代码
- 数据分析:AI用Python工具帮你跑数据分析
- 自动化办公:AI用邮件工具帮你发邮件,用日历工具帮你安排会议
- 网页操作:AI用浏览器工具帮你填表单、点按钮
举个例子
你说:“帮我把项目里所有的console.log都删掉”
AI的执行过程:
- 用
read工具读取文件- 找到所有console.log的位置
- 用
edit工具删除它们- 用
bash工具运行测试确保没出错整个过程你只需要说一句话,AI自己搞定。
▲ AI调用read/write/edit工具自动完成代码修改
MCP:AI工具的”标准化插座”
MCP = Model Context Protocol,模型上下文协议
它是什么?
MCP可以理解为AI工具的外包平台。它把某一个领域的所有工具都打包在一起,统一提供给AI使用。
类比理解
没有MCP之前: 想象你搬了新家,要买各种电器:
- 电视 → 一种插头
- 冰箱 → 另一种插头
- 洗衣机 → 又一种插头
- 空调 → 还得专门装个插座
每个电器都要单独接线,麻烦得要死。
有了MCP之后: 就像USB接口统一了所有外设:
- 鼠标 → USB插上就能用
- 键盘 → USB插上就能用
- U盘 → USB插上就能用
MCP就是AI世界的”USB接口”。你只需要接入一个MCP服务,这个领域的所有工具都能用。
它的作用
1. 标准化 不用每个工具都单独对接,统一接口,即插即用。
2. 生态化 一个MCP可以包含几十上百个工具。比如”GitHub MCP”包含了操作代码仓库的所有能力,“数据库MCP”包含了所有数据库操作能力。
3. 降低门槛 开发者不用为每个AI产品单独写工具适配,写一次MCP工具,所有支持MCP的AI都能用。
通俗总结
MCP = Agent的外包公司
你把一个领域的所有工具需求”外包”给这个MCP,它来统一管理、统一提供。
常见场景
- GitHub MCP:让AI能操作你的代码仓库,看Issue、改代码、提PR
- 数据库MCP:让AI能查询、修改你的数据库
- 文件MCP:让AI能管理你的本地文件
- 网页MCP:让AI能操作浏览器,填表单、抓数据
举个例子
你想让AI帮你管理项目,需要它能:
- 查Issue
- 改代码
- 提PR
- 看CI状态
没有MCP:你需要分别对接GitHub的4个不同API,写4段适配代码 有MCP:接入一个GitHub MCP,所有能力都有了
▲ MCP就像USB Hub,一个接口连接所有工具
Loop:AI的”循环思考”
Loop = 循环,Agent如何反复调用LLM来完成任务
它是什么?
Agent不是一次调用AI就完事了,而是会循环往复地思考、行动、检查结果,直到达成目标。这个循环过程就是Loop。
类比理解
想象你让一个助手帮你整理房间:
没有Loop(一次性):
你说:“帮我整理房间” 助手看了一眼,说了一句”好的”,然后就没然后了
有Loop(循环式):
你说:“帮我整理房间” 助手开始干活:
- 先看看房间有多乱(思考)
- 开始收拾书桌(行动)
- 检查书桌收拾好了没(检查结果)
- 接下来收拾衣柜(思考下一步)
- 收拾衣柜(行动)
- 检查衣柜(检查结果)
- 继续收拾床铺…… 直到整个房间整洁了才停下来
这就是Loop的力量——不完成不罢休。
它的作用
Loop让Agent具备了自主完成任务的能力:
- 不需要你一步步指导
- Agent自己判断下一步该做什么
- 做完一步自动进入下一步
- 直到任务完成或遇到无法解决的问题
工作流程
1. 接收任务 → "帮我订明天去北京最便宜的机票"
2. 调用LLM思考 → "我应该先搜索机票信息"
3. 执行工具 → 调用搜索工具查机票
4. 查看结果 → 搜到了10个航班
5. 回到思考 → "我需要对比价格,选最便宜的"
6. 执行工具 → 对比价格,选出最便宜的
7. 继续思考 → "接下来需要填写乘客信息"
8. 执行工具 → 填写信息
9. 继续思考 → "确认下单"
10. 执行工具 → 下单
11. 检查 → 出票成功,任务完成!常见场景
- 复杂任务:需要多步骤才能完成的任务,Agent靠Loop一步步推进
- 错误重试:某一步失败了,Agent可以自己重试或换一种方式
- 条件判断:根据不同结果走不同的分支路径
举个例子
你让Agent:“帮我调研一下市面上最好的3款机械键盘,做个对比表格”
Agent的Loop过程:
- 第1轮:搜索”2026年机械键盘推荐”
- 第2轮:读取搜索结果,提取关键信息
- 第3轮:搜索第一款键盘的详细参数
- 第4轮:搜索第二款键盘的详细参数
- 第5轮:搜索第三款键盘的详细参数
- 第6轮:整理信息,生成对比表格
- 第7轮:检查表格是否完整,补充缺失信息
- 完成!

▲ Agent的Loop循环:思考→行动→检查→再思考,直到任务完成
Agent:AI的”完全体”
Agent = 智能体,能自主完成任务的AI系统
它是什么?
Agent不是一个新的技术,而是把前面所有概念组合起来的整体架构。
类比理解
如果说LLM是一个被绑在椅子上的天才,那Agent就是:
- 给他松绑(解除限制)
- 给他工具(Tool)
- 告诉他目标和规则(Prompt)
- 让他自己决定怎么干(Loop)
- 给他足够的记忆(Context)
- 告诉他怎么使用各种工具(MCP)
然后你就可以说:“帮我把这件事搞定”,然后去喝杯咖啡,回来就完事了。
它的作用
Agent的核心价值是自主性:
- 你只需要说”目标”,不需要说”步骤”
- Agent自己拆解任务、自己执行、自己检查
- 遇到问题自己想办法解决
所有概念的组合
┌─────────────────────────────────────────┐
│ Agent(智能体) │
│ │
│ ┌───────────┐ ┌──────────────────┐ │
│ │ LLM(大脑)│ │ Prompt(指令) │ │
│ │ 思考决策 │ │ 人设+规则 │ │
│ └─────┬─────┘ └────────┬─────────┘ │
│ │ │ │
│ ┌─────▼───────────────────▼─────────┐ │
│ │ Loop(循环执行) │ │
│ │ 思考 → 行动 → 检查 → 再思考... │ │
│ └─────┬───────────────────┬─────────┘ │
│ │ │ │
│ ┌─────▼─────┐ ┌────────▼─────────┐ │
│ │ Tool(手脚)│ │ MCP(工具库) │ │
│ │ 执行操作 │ │ 标准化接口 │ │
│ └───────────┘ └──────────────────┘ │
│ │
│ 消耗:Token(成本) │
│ 记忆:Context(上下文窗口) │
└─────────────────────────────────────────┘常见场景
- 编程助手:Claude Code、Cursor、GitHub Copilot Workspace
- 自动化办公:自动处理邮件、整理数据、生成报告
- 个人助理:安排日程、订机票、查信息
- 内容创作:从调研到写作到排版一条龙
举个例子
你是一个创业者,想让AI帮你做竞品分析。
传统方式(用LLM):
- 你自己去搜竞品信息
- 把信息复制粘贴给AI
- 让AI总结
- 你自己整理成报告
Agent方式:
- 你说:“帮我分析一下XX产品的竞品,出一份报告”
- Agent自己去搜索、去读网页、去对比
- Agent自己整理数据、生成图表、写出报告
- 你收到一份完整的报告
你只需要说一句话,剩下的Agent全包了。

▲ Agent自主完成复杂任务的完整过程
Skill:AI的”技能包”
Skill = 技能,可复用的高级能力模块
它是什么?
Skill是在Agent基础上的进一步封装。把常用的、复杂的任务流程打包成一个”技能包”,下次直接调用就行。
类比理解
如果Tool是单个动作,Skill就是一套连招:
- Tool = 游戏里的”普通攻击”(打一下)
- Skill = 游戏里的”技能”(一套华丽的连招,伤害爆炸)
或者用职场来类比:
- Tool = 员工会的”单项技能”(会用Excel、会写邮件、会做PPT)
- Skill = 员工的”岗位能力”(“市场分析能力” = 收集数据 → 分析数据 → 做图表 → 写报告 → 做PPT汇报)
它的作用
1. 复用性 一次配置,反复使用。不用每次都从头教AI怎么做。
2. 降低门槛 用户不需要知道背后有多少步骤,直接调用Skill就行。
3. 标准化 同一个Skill在不同场景下表现一致,质量有保障。
Tool vs Skill 的区别
| Tool(工具) | Skill(技能) | |
|---|---|---|
| 粒度 | 单个动作 | 一套流程 |
| 复杂度 | 简单 | 复杂 |
| 例子 | ”读取文件" | "写SEO文章” |
| 用户操作 | 需要一步步指导 | 一句话搞定 |
举个例子
Skill:“SEO文章写作”
背后包含的完整流程:
- 搜索关键词相关的热搜问题
- 分析竞品文章结构
- 生成文章大纲
- 分段撰写正文
- 检查SEO指标(关键词密度、标题结构等)
- 生成Meta描述
- 排版优化
- 输出最终文章
你只需要说:“帮我写一篇关于AI的文章”,Skill自动完成以上所有步骤。
常见场景
- 开发者的Skill:代码审查、Bug修复、文档生成
- 运营的Skill:社交媒体内容生成、数据分析报告
- 写作的Skill:SEO文章、技术博客、营销文案
- 设计的Skill:生成UI组件、配色方案、图标设计


▲ 一个Skill背后可能包含多个步骤的自动化流程
一张图总结所有概念
Token 是基础单位 → 决定成本和长度限制
↓
Context Window 是瓶颈 → 影响任务复杂度
↓
Prompt 是沟通桥梁 → 决定输出质量
↓
Tool 是能力扩展 → 让模型能"动手"
↓
MCP 是标准化 → 统一工具生态
↓
Loop 是工作方式 → 循环调用直到完成
↓
Agent 是整体架构 → 实现自主任务执行
↓
Skill 是高级封装 → 可复用的能力模块一句话串起来
你通过 Prompt 给 Agent 下达任务,Agent 用 LLM 作为大脑思考,在 Context 的记忆范围内,通过 Loop 循环调用各种 Tool(通过 MCP 标准化接入),每一步都消耗着 Token,最终完成任务。而 Skill 就是把这一整套流程打包好,让你下次一键调用。
总结
看到这里,你应该对这些AI名词有了清晰的认识:
| 名词 | 一句话解释 | 类比 |
|---|---|---|
| LLM | 会说话的AI大脑 | 读过所有书的学霸 |
| Token | AI处理文字的单位,也是计费标准 | 菜市场的”斤” |
| Context | AI的短期记忆 | 电话聊天能记住的内容量 |
| Prompt | 和AI沟通的话术 | 餐厅点菜的话术 |
| Tool | AI的手脚,让它能真正执行操作 | 给天才松绑+给工具 |
| MCP | 工具的标准化接口,即插即用 | USB接口 |
| Loop | AI循环思考的工作方式 | 助手整理房间的过程 |
| Agent | 整合所有能力的智能体 | 能独立干活的员工 |
| Skill | 打包好的技能包,开箱即用 | 游戏里的连招技能 |
最后的建议
其实,最好的学习方式就是动手开发一个自己的Agent。当你真正去搭建的时候:
- 你会看到Token是怎么消耗的
- 你会感受到Context不够用是什么体验
- 你会明白Prompt写得好不好差别有多大
- 你会体会到Tool和MCP带来的能力飞跃
- 你会亲眼看到Loop是怎么循环工作的
这些概念在实践中会自然变得清晰。别被名词吓到,AI真的没有想象中那么复杂!
动手试试吧,你会发现乐趣无穷
参考资料: