从Token到Agent Skill，10分钟带你弄清楚AI名词

AI圈子的发展速度堪比火箭，几乎每个月都有新名词冒出来。LLM、Token、Context、Prompt、Tool、MCP、Agent、Skills……如果你刚接触AI，可能会被这些术语搞得一头雾水。别担心，这篇文章就是为你准备的！我会用最通俗的语言和生活中的例子，带你快速搞懂这些概念，不纠结底层原理，只讲你能听懂的大白话。

一切的基础：LLM（大语言模型）

LLM = Large Language Model，大语言模型

它是什么？

简单来说，LLM就是一个”超级会说话的AI”。它能理解你说的话，也能生成回复。你平时用的豆包、ChatGPT、文心一言、Kimi、通义千问，背后都是LLM在干活。

类比理解

把它想象成一个读过全世界几乎所有书籍、文章、网页的”学霸”。这个学霸的特点：

记忆力超群，看过什么基本都能记住
表达能力极强，能用各种风格说话
但它没有真正的意识，它只是在”预测下一个最可能出现的字是什么”

就像你玩”成语接龙”，LLM做的是类似的事，只不过它接的不是成语，而是每一个字、每一个词。

它的作用

LLM的核心作用就是理解和生成自然语言。它能：

回答问题
写文章、写代码
翻译语言
总结长文
甚至陪你聊天解闷

常见场景

日常使用：打开ChatGPT问问题、让Kimi帮你总结PDF
产品开发：客服机器人、智能助手、内容生成工具
编程辅助：GitHub Copilot帮你写代码

需要注意的

LLM不是万能的。它会犯错（俗称”幻觉”），有时候会一本正经地胡说八道。所以重要信息一定要核实，别全信。

▲ 常见的LLM产品界面，背后都是大语言模型在驱动

Token：AI的”字数单位”

Token是LLM处理文字的基本单位

它是什么？

Token是AI处理文字的”最小计量单位”。AI不是按”字”或”词”来理解文字的，而是把文字拆成更小的片段——这就是Token。

中文里，一个Token大约等于0.5~1.5个汉字。英文里，一个Token大约是0.75个单词。

类比理解

想象你去菜市场买菜：

你不能按”粒”买米，老板会烦死
所以你按”斤”买，“斤”就是一个计量单位

Token就是AI世界的”斤”。AI不按”字”算，按”Token”算。

它的作用——为什么Token很重要？

1. 计费单位 AI服务通常按Token收费，就像打电话按分钟计费、坐出租车按公里计费一样。你用的越多，花的钱越多。

2. 输入比输出贵 这是一个很多人不知道的事实：输入Token通常比输出Token贵好几倍。不同厂商定价不同，但普遍规律是：

输入Token（你发给AI的内容）：更贵
输出Token（AI回复你的内容）：便宜

为什么？因为AI”理解”你说的话比”生成”回复要消耗更多计算资源。

3. 长度限制 每次对话能处理的Token数量有限。就像手机短信有字数限制、微博有140字限制一样。

常见场景

看账单：用API调用AI服务时，账单上会显示”输入Token xxx，输出Token xxx，费用xx元”
选模型：不同模型有不同Token限制，有的能处理4000 Token，有的能处理128000 Token
控制成本：发很长的文章给AI分析会消耗大量Token，省钱的话可以先截取关键段落

举个例子

你说：“今天天气怎么样？“（约5个Token） AI回答：“今天晴天，气温25度，适合出门。“（约12个Token）这次对话你就消耗了约17个Token

如果输入Token价格是输出Token的3倍，那这次对话的成本 = 5×3 + 12×1 = 27个”计费单位”。

▲ API调用时的Token计费明细，输入和输出分别计算

Context：AI的”短期记忆”

Context = 上下文，AI能”记住”的对话内容

它是什么？

Context Window（上下文窗口）就是AI一次性能”记住”的内容总量，单位也是Token。

类比理解

想象你在和朋友打电话聊天：

如果只聊了几句，前面的内容你记得清清楚楚
如果聊了一个小时，你可能就忘了开头说了啥

人的短期记忆有限，AI也一样。Context Window就是AI的”短期记忆容量”。

它的作用

Context决定了AI能同时处理多少信息：

Context小（比如4000 Token）：AI容易”忘事”，适合简单问答
Context大（比如128000 Token）：AI能处理超长内容，比如整本书、长会议记录

实际影响

场景1：改论文

你让AI帮你改一篇5000字的论文。
Context小：AI改到后面就忘了你前面说的”用学术风格”的要求
Context够大：AI能从头到尾保持一致的修改风格

场景2：长对话

你和AI聊了50轮天。
Context小：AI早就忘了你第一句说了什么
Context大：AI能记住整个对话脉络

常见场景

选择产品时：不同AI产品的Context大小不同，需要处理长文档就选Context大的
对话中：聊太久发现AI开始”答非所问”，很可能是Context满了
开发时：开发者需要合理管理Context，把最重要的信息放在最前面

一个数据对比

产品/模型	Context大小	大约能处理
早期GPT-3	4000 Token	约3000字
GPT-4	128000 Token	约10万字
Claude	200000 Token	约15万字
Kimi	2000000+ Token	约150万字

▲ 不同模型的Context Window大小对比，越大能记住的内容越多

Prompt：和AI沟通的”话术”

Prompt = 提示词，你告诉AI该做什么的指令

它是什么？

Prompt就是你给AI的”指令”或”要求”。你说的话，就是Prompt。

类比理解

想象你在餐厅点菜：

你说”来份辣的” → 厨师可能做麻婆豆腐，也可能做辣子鸡
你说”来份麻婆豆腐，微辣，不要葱，多加点豆腐” → 厨师做出来的就是你想要的

Prompt就是点菜的话术。你说得越清楚，AI做出来的东西越符合你的预期。

它的作用——为什么现在的产品都进化成Agent了？

早期的AI产品就是”你问一句，它答一句”。但现在的AI产品，不仅仅是个LLM了，基本都进化成了Agent（智能体）。

进化的核心就是因为Prompt。

在Agent中，Prompt的作用发生了质的变化：

不只是”问问题”
更多是定义Agent本身的能力和行为约束

Prompt的分类

1. System Prompt（系统提示词）—— 用户看不见的”幕后设定”

这是开发者提前写好的”人设”和规则，用户看不到。它规定了：

AI的身份（“你是一个专业的翻译助手”）
行为准则（“只翻译，不要解释”）
能力范围（“你能调用搜索工具和翻译API”）
输出格式（“用JSON格式返回结果”）

2. User Prompt（用户提示词）—— 你实际输入的内容

这就是你打字输入的东西，比如”你好”、“帮我写篇文章”、“翻译这段话”。

重要认知

当你输入简单的”你好”时，背后发生了什么？

Agent会携带大量System Prompt一起发送给LLM。所有这些内容的组合，才是真正的输入Token。

实际发送给LLM的内容 =
  System Prompt（开发者写的设定）+
  历史对话记录（Context）+
  可用工具列表（Tools）+
  你的输入（User Prompt）

所以你输入2个字，实际可能消耗了几百个Token的输入额度。

举个例子

你输入：“帮我写首诗”
实际发送给AI的内容可能包括：
系统设定：“你是一个专业的诗人，擅长现代诗创作，风格偏向浪漫主义”
行为约束：“请用中文回复，不要超过20行，每行不超过15个字”
工具信息：“你可以调用【联网搜索】工具获取灵感”
你的输入：“帮我写首诗”
这些加起来才是真正的输入Token，可能有好几百个。

常见场景

日常使用：你给ChatGPT写的每一句话都是Prompt
提示词工程：有人专门研究怎么写Prompt让AI输出更好的结果
产品开发：开发者花大量时间优化System Prompt，让Agent表现更稳定

一句话总结

Prompt写得好，AI像专家；Prompt写得差，AI像智障。

▲ 同一个问题，不同的Prompt写法，输出质量天差地别

Tool：AI的”手脚”

Tool = 工具，让AI从”能说”变成”能做”

它是什么？

光会说话不够，AI还需要能”动手”干活。Tool就是AI的能力扩展，让它能真正去执行操作。

类比理解

LLM就像一个被绑在椅子上的天才：

脑子极好使，什么知识都知道
但手脚被绑着，什么都做不了

Tool就是给它松绑，给它装上各种工具：

给它电脑 → 它能操作文件
给它手机 → 它能发消息
给它浏览器 → 它能上网搜索

它的作用

Tool让AI从”纸上谈兵”变成”真刀真枪”：

没有Tool：AI只能”说”，告诉你怎么做
有了Tool：AI能”做”，直接帮你完成任务

工具的分类

1. 内置工具 —— AI自带的”基础装备”

有些AI Agent只有很少的内置工具，但凭借这些工具就能完成几乎所有事情。

比如 OpenClaw 只有4个内置工具：

read → 读取文件内容
write → 写入/创建文件
edit → 编辑修改文件
bash → 执行命令行操作

就这4个工具，它就能帮你写代码、改配置、跑程序、管理文件，几乎无所不能。

2. 外置工具 —— 可以无限扩展的”外挂装备”

自己写：你可以开发任何你需要的工具，比如”发送邮件”、“操作数据库”、“调用某个API”
用别人的：社区里有很多人写好了现成的工具，拿来就能用

常见场景

编程助手：AI用read/write/edit工具帮你改代码
数据分析：AI用Python工具帮你跑数据分析
自动化办公：AI用邮件工具帮你发邮件，用日历工具帮你安排会议
网页操作：AI用浏览器工具帮你填表单、点按钮

举个例子

你说：“帮我把项目里所有的console.log都删掉”
AI的执行过程：
用read工具读取文件
找到所有console.log的位置
用edit工具删除它们
用bash工具运行测试确保没出错
整个过程你只需要说一句话，AI自己搞定。

▲ AI调用read/write/edit工具自动完成代码修改

MCP：AI工具的”标准化插座”

MCP = Model Context Protocol，模型上下文协议

它是什么？

MCP可以理解为AI工具的外包平台。它把某一个领域的所有工具都打包在一起，统一提供给AI使用。

类比理解

没有MCP之前： 想象你搬了新家，要买各种电器：

电视 → 一种插头
冰箱 → 另一种插头
洗衣机 → 又一种插头
空调 → 还得专门装个插座

每个电器都要单独接线，麻烦得要死。

有了MCP之后： 就像USB接口统一了所有外设：

鼠标 → USB插上就能用
键盘 → USB插上就能用
U盘 → USB插上就能用

MCP就是AI世界的”USB接口”。你只需要接入一个MCP服务，这个领域的所有工具都能用。

它的作用

1. 标准化 不用每个工具都单独对接，统一接口，即插即用。

2. 生态化 一个MCP可以包含几十上百个工具。比如”GitHub MCP”包含了操作代码仓库的所有能力，“数据库MCP”包含了所有数据库操作能力。

3. 降低门槛 开发者不用为每个AI产品单独写工具适配，写一次MCP工具，所有支持MCP的AI都能用。

通俗总结

MCP = Agent的外包公司
你把一个领域的所有工具需求”外包”给这个MCP，它来统一管理、统一提供。

常见场景

GitHub MCP：让AI能操作你的代码仓库，看Issue、改代码、提PR
数据库MCP：让AI能查询、修改你的数据库
文件MCP：让AI能管理你的本地文件
网页MCP：让AI能操作浏览器，填表单、抓数据

举个例子

你想让AI帮你管理项目，需要它能：
查Issue
改代码
提PR
看CI状态
没有MCP：你需要分别对接GitHub的4个不同API，写4段适配代码 有MCP：接入一个GitHub MCP，所有能力都有了

▲ MCP就像USB Hub，一个接口连接所有工具

Loop：AI的”循环思考”

Loop = 循环，Agent如何反复调用LLM来完成任务

它是什么？

Agent不是一次调用AI就完事了，而是会循环往复地思考、行动、检查结果，直到达成目标。这个循环过程就是Loop。

类比理解

想象你让一个助手帮你整理房间：

没有Loop（一次性）：

你说：“帮我整理房间” 助手看了一眼，说了一句”好的”，然后就没然后了

有Loop（循环式）：

你说：“帮我整理房间” 助手开始干活：
先看看房间有多乱（思考）
开始收拾书桌（行动）
检查书桌收拾好了没（检查结果）
接下来收拾衣柜（思考下一步）
收拾衣柜（行动）
检查衣柜（检查结果）
继续收拾床铺…… 直到整个房间整洁了才停下来

这就是Loop的力量——不完成不罢休。

它的作用

Loop让Agent具备了自主完成任务的能力：

不需要你一步步指导
Agent自己判断下一步该做什么
做完一步自动进入下一步
直到任务完成或遇到无法解决的问题

工作流程

1. 接收任务 → "帮我订明天去北京最便宜的机票"
2. 调用LLM思考 → "我应该先搜索机票信息"
3. 执行工具 → 调用搜索工具查机票
4. 查看结果 → 搜到了10个航班
5. 回到思考 → "我需要对比价格，选最便宜的"
6. 执行工具 → 对比价格，选出最便宜的
7. 继续思考 → "接下来需要填写乘客信息"
8. 执行工具 → 填写信息
9. 继续思考 → "确认下单"
10. 执行工具 → 下单
11. 检查 → 出票成功，任务完成！

常见场景

复杂任务：需要多步骤才能完成的任务，Agent靠Loop一步步推进
错误重试：某一步失败了，Agent可以自己重试或换一种方式
条件判断：根据不同结果走不同的分支路径

举个例子

你让Agent：“帮我调研一下市面上最好的3款机械键盘，做个对比表格”
Agent的Loop过程：
第1轮：搜索”2026年机械键盘推荐”
第2轮：读取搜索结果，提取关键信息
第3轮：搜索第一款键盘的详细参数
第4轮：搜索第二款键盘的详细参数
第5轮：搜索第三款键盘的详细参数
第6轮：整理信息，生成对比表格
第7轮：检查表格是否完整，补充缺失信息
完成！

▲ Agent的Loop循环：思考→行动→检查→再思考，直到任务完成

Agent：AI的”完全体”

Agent = 智能体，能自主完成任务的AI系统

它是什么？

Agent不是一个新的技术，而是把前面所有概念组合起来的整体架构。

类比理解

如果说LLM是一个被绑在椅子上的天才，那Agent就是：

给他松绑（解除限制）
给他工具（Tool）
告诉他目标和规则（Prompt）
让他自己决定怎么干（Loop）
给他足够的记忆（Context）
告诉他怎么使用各种工具（MCP）

然后你就可以说：“帮我把这件事搞定”，然后去喝杯咖啡，回来就完事了。

它的作用

Agent的核心价值是自主性：

你只需要说”目标”，不需要说”步骤”
Agent自己拆解任务、自己执行、自己检查
遇到问题自己想办法解决

所有概念的组合

┌─────────────────────────────────────────┐
│              Agent（智能体）              │
│                                         │
│  ┌───────────┐    ┌──────────────────┐  │
│  │  LLM（大脑）│    │  Prompt（指令）   │  │
│  │  思考决策  │    │  人设+规则       │  │
│  └─────┬─────┘    └────────┬─────────┘  │
│        │                   │            │
│  ┌─────▼───────────────────▼─────────┐  │
│  │         Loop（循环执行）           │  │
│  │  思考 → 行动 → 检查 → 再思考...    │  │
│  └─────┬───────────────────┬─────────┘  │
│        │                   │            │
│  ┌─────▼─────┐    ┌────────▼─────────┐  │
│  │ Tool（手脚）│    │ MCP（工具库）     │  │
│  │ 执行操作   │    │ 标准化接口       │  │
│  └───────────┘    └──────────────────┘  │
│                                         │
│  消耗：Token（成本）                     │
│  记忆：Context（上下文窗口）              │
└─────────────────────────────────────────┘

常见场景

编程助手：Claude Code、Cursor、GitHub Copilot Workspace
自动化办公：自动处理邮件、整理数据、生成报告
个人助理：安排日程、订机票、查信息
内容创作：从调研到写作到排版一条龙

举个例子

你是一个创业者，想让AI帮你做竞品分析。
传统方式（用LLM）：
你自己去搜竞品信息
把信息复制粘贴给AI
让AI总结
你自己整理成报告
Agent方式：
你说：“帮我分析一下XX产品的竞品，出一份报告”
Agent自己去搜索、去读网页、去对比
Agent自己整理数据、生成图表、写出报告
你收到一份完整的报告
你只需要说一句话，剩下的Agent全包了。

▲ Agent自主完成复杂任务的完整过程

Skill：AI的”技能包”

Skill = 技能，可复用的高级能力模块

它是什么？

Skill是在Agent基础上的进一步封装。把常用的、复杂的任务流程打包成一个”技能包”，下次直接调用就行。

类比理解

如果Tool是单个动作，Skill就是一套连招：

Tool = 游戏里的”普通攻击”（打一下）
Skill = 游戏里的”技能”（一套华丽的连招，伤害爆炸）

或者用职场来类比：

Tool = 员工会的”单项技能”（会用Excel、会写邮件、会做PPT）
Skill = 员工的”岗位能力”（“市场分析能力” = 收集数据 → 分析数据 → 做图表 → 写报告 → 做PPT汇报）

它的作用

1. 复用性 一次配置，反复使用。不用每次都从头教AI怎么做。

2. 降低门槛 用户不需要知道背后有多少步骤，直接调用Skill就行。

3. 标准化 同一个Skill在不同场景下表现一致，质量有保障。

Tool vs Skill 的区别

	Tool（工具）	Skill（技能）
粒度	单个动作	一套流程
复杂度	简单	复杂
例子	”读取文件"	"写SEO文章”
用户操作	需要一步步指导	一句话搞定

举个例子

Skill：“SEO文章写作”

背后包含的完整流程：

搜索关键词相关的热搜问题
分析竞品文章结构
生成文章大纲
分段撰写正文
检查SEO指标（关键词密度、标题结构等）
生成Meta描述
排版优化
输出最终文章

你只需要说：“帮我写一篇关于AI的文章”，Skill自动完成以上所有步骤。

常见场景

开发者的Skill：代码审查、Bug修复、文档生成
运营的Skill：社交媒体内容生成、数据分析报告
写作的Skill：SEO文章、技术博客、营销文案
设计的Skill：生成UI组件、配色方案、图标设计

▲ 一个Skill背后可能包含多个步骤的自动化流程

一张图总结所有概念

Token 是基础单位 → 决定成本和长度限制
       ↓
Context Window 是瓶颈 → 影响任务复杂度
       ↓
Prompt 是沟通桥梁 → 决定输出质量
       ↓
Tool 是能力扩展 → 让模型能"动手"
       ↓
MCP 是标准化 → 统一工具生态
       ↓
Loop 是工作方式 → 循环调用直到完成
       ↓
Agent 是整体架构 → 实现自主任务执行
       ↓
Skill 是高级封装 → 可复用的能力模块

一句话串起来

你通过 Prompt 给 Agent 下达任务，Agent 用 LLM 作为大脑思考，在 Context 的记忆范围内，通过 Loop 循环调用各种 Tool（通过 MCP 标准化接入），每一步都消耗着 Token，最终完成任务。而 Skill 就是把这一整套流程打包好，让你下次一键调用。

总结

看到这里，你应该对这些AI名词有了清晰的认识：

名词	一句话解释	类比
LLM	会说话的AI大脑	读过所有书的学霸
Token	AI处理文字的单位，也是计费标准	菜市场的”斤”
Context	AI的短期记忆	电话聊天能记住的内容量
Prompt	和AI沟通的话术	餐厅点菜的话术
Tool	AI的手脚，让它能真正执行操作	给天才松绑+给工具
MCP	工具的标准化接口，即插即用	USB接口
Loop	AI循环思考的工作方式	助手整理房间的过程
Agent	整合所有能力的智能体	能独立干活的员工
Skill	打包好的技能包，开箱即用	游戏里的连招技能

最后的建议

其实，最好的学习方式就是动手开发一个自己的Agent。当你真正去搭建的时候：

你会看到Token是怎么消耗的
你会感受到Context不够用是什么体验
你会明白Prompt写得好不好差别有多大
你会体会到Tool和MCP带来的能力飞跃
你会亲眼看到Loop是怎么循环工作的

这些概念在实践中会自然变得清晰。别被名词吓到，AI真的没有想象中那么复杂！

动手试试吧，你会发现乐趣无穷

参考资料:

YEYUbaka

一切的基础：LLM（大语言模型）

它是什么？

类比理解

它的作用

常见场景

需要注意的

Token：AI的”字数单位”

它是什么？

类比理解

它的作用——为什么Token很重要？

常见场景

举个例子

Context：AI的”短期记忆”

它是什么？

类比理解

它的作用

实际影响

常见场景

一个数据对比

Prompt：和AI沟通的”话术”

它是什么？

类比理解

它的作用——为什么现在的产品都进化成Agent了？

Prompt的分类

重要认知

举个例子

常见场景

一句话总结

Tool：AI的”手脚”

它是什么？

类比理解

它的作用

工具的分类

常见场景

举个例子

MCP：AI工具的”标准化插座”

它是什么？

类比理解

它的作用

通俗总结

常见场景

举个例子

Loop：AI的”循环思考”

它是什么？

类比理解

它的作用

工作流程

常见场景

举个例子

Agent：AI的”完全体”

它是什么？

类比理解

它的作用

所有概念的组合

常见场景

举个例子

Skill：AI的”技能包”

它是什么？

类比理解

它的作用

Tool vs Skill 的区别

举个例子

常见场景

一张图总结所有概念

一句话串起来

总结

最后的建议