Home
avatar

YEYUbaka

从Token到Agent Skill,10分钟带你弄清楚AI名词

AI圈子的发展速度堪比火箭,几乎每个月都有新名词冒出来。LLM、Token、Context、Prompt、Tool、MCP、Agent、Skills……如果你刚接触AI,可能会被这些术语搞得一头雾水。别担心,这篇文章就是为你准备的!我会用最通俗的语言和生活中的例子,带你快速搞懂这些概念,不纠结底层原理,只讲你能听懂的大白话。

一切的基础:LLM(大语言模型)

LLM = Large Language Model,大语言模型

它是什么?

简单来说,LLM就是一个”超级会说话的AI”。它能理解你说的话,也能生成回复。你平时用的豆包、ChatGPT、文心一言、Kimi、通义千问,背后都是LLM在干活。

类比理解

把它想象成一个读过全世界几乎所有书籍、文章、网页的”学霸”。这个学霸的特点:

  • 记忆力超群,看过什么基本都能记住
  • 表达能力极强,能用各种风格说话
  • 但它没有真正的意识,它只是在”预测下一个最可能出现的字是什么”

就像你玩”成语接龙”,LLM做的是类似的事,只不过它接的不是成语,而是每一个字、每一个词。

它的作用

LLM的核心作用就是理解和生成自然语言。它能:

  • 回答问题
  • 写文章、写代码
  • 翻译语言
  • 总结长文
  • 甚至陪你聊天解闷

常见场景

  • 日常使用:打开ChatGPT问问题、让Kimi帮你总结PDF
  • 产品开发:客服机器人、智能助手、内容生成工具
  • 编程辅助:GitHub Copilot帮你写代码

需要注意的

LLM不是万能的。它会犯错(俗称”幻觉”),有时候会一本正经地胡说八道。所以重要信息一定要核实,别全信。

LLM对话界面示例 ▲ 常见的LLM产品界面,背后都是大语言模型在驱动


Token:AI的”字数单位”

Token是LLM处理文字的基本单位

它是什么?

Token是AI处理文字的”最小计量单位”。AI不是按”字”或”词”来理解文字的,而是把文字拆成更小的片段——这就是Token。

中文里,一个Token大约等于0.5~1.5个汉字。英文里,一个Token大约是0.75个单词。

类比理解

想象你去菜市场买菜:

  • 你不能按”粒”买米,老板会烦死
  • 所以你按”斤”买,“斤”就是一个计量单位

Token就是AI世界的”斤”。AI不按”字”算,按”Token”算。

它的作用——为什么Token很重要?

1. 计费单位 AI服务通常按Token收费,就像打电话按分钟计费、坐出租车按公里计费一样。你用的越多,花的钱越多。

2. 输入比输出贵 这是一个很多人不知道的事实:输入Token通常比输出Token贵好几倍。不同厂商定价不同,但普遍规律是:

  • 输入Token(你发给AI的内容):更贵
  • 输出Token(AI回复你的内容):便宜

为什么?因为AI”理解”你说的话比”生成”回复要消耗更多计算资源。

3. 长度限制 每次对话能处理的Token数量有限。就像手机短信有字数限制、微博有140字限制一样。

常见场景

  • 看账单:用API调用AI服务时,账单上会显示”输入Token xxx,输出Token xxx,费用xx元”
  • 选模型:不同模型有不同Token限制,有的能处理4000 Token,有的能处理128000 Token
  • 控制成本:发很长的文章给AI分析会消耗大量Token,省钱的话可以先截取关键段落

举个例子

你说:“今天天气怎么样?“(约5个Token) AI回答:“今天晴天,气温25度,适合出门。“(约12个Token) 这次对话你就消耗了约17个Token

如果输入Token价格是输出Token的3倍,那这次对话的成本 = 5×3 + 12×1 = 27个”计费单位”。

Token计费示例 ▲ API调用时的Token计费明细,输入和输出分别计算


Context:AI的”短期记忆”

Context = 上下文,AI能”记住”的对话内容

它是什么?

Context Window(上下文窗口)就是AI一次性能”记住”的内容总量,单位也是Token。

类比理解

想象你在和朋友打电话聊天:

  • 如果只聊了几句,前面的内容你记得清清楚楚
  • 如果聊了一个小时,你可能就忘了开头说了啥

人的短期记忆有限,AI也一样。Context Window就是AI的”短期记忆容量”

它的作用

Context决定了AI能同时处理多少信息:

  • Context小(比如4000 Token):AI容易”忘事”,适合简单问答
  • Context大(比如128000 Token):AI能处理超长内容,比如整本书、长会议记录

实际影响

场景1:改论文

你让AI帮你改一篇5000字的论文。

  • Context小:AI改到后面就忘了你前面说的”用学术风格”的要求
  • Context够大:AI能从头到尾保持一致的修改风格

场景2:长对话

你和AI聊了50轮天。

  • Context小:AI早就忘了你第一句说了什么
  • Context大:AI能记住整个对话脉络

常见场景

  • 选择产品时:不同AI产品的Context大小不同,需要处理长文档就选Context大的
  • 对话中:聊太久发现AI开始”答非所问”,很可能是Context满了
  • 开发时:开发者需要合理管理Context,把最重要的信息放在最前面

一个数据对比

产品/模型Context大小大约能处理
早期GPT-34000 Token约3000字
GPT-4128000 Token约10万字
Claude200000 Token约15万字
Kimi2000000+ Token约150万字

Context对比示意图

▲ 不同模型的Context Window大小对比,越大能记住的内容越多


Prompt:和AI沟通的”话术”

Prompt = 提示词,你告诉AI该做什么的指令

它是什么?

Prompt就是你给AI的”指令”或”要求”。你说的话,就是Prompt。

类比理解

想象你在餐厅点菜:

  • 你说”来份辣的” → 厨师可能做麻婆豆腐,也可能做辣子鸡
  • 你说”来份麻婆豆腐,微辣,不要葱,多加点豆腐” → 厨师做出来的就是你想要的

Prompt就是点菜的话术。你说得越清楚,AI做出来的东西越符合你的预期。

它的作用——为什么现在的产品都进化成Agent了?

早期的AI产品就是”你问一句,它答一句”。但现在的AI产品,不仅仅是个LLM了,基本都进化成了Agent(智能体)

进化的核心就是因为Prompt。

在Agent中,Prompt的作用发生了质的变化:

  • 不只是”问问题”
  • 更多是定义Agent本身的能力和行为约束

Prompt的分类

1. System Prompt(系统提示词)—— 用户看不见的”幕后设定”

这是开发者提前写好的”人设”和规则,用户看不到。它规定了:

  • AI的身份(“你是一个专业的翻译助手”)
  • 行为准则(“只翻译,不要解释”)
  • 能力范围(“你能调用搜索工具和翻译API”)
  • 输出格式(“用JSON格式返回结果”)

2. User Prompt(用户提示词)—— 你实际输入的内容

这就是你打字输入的东西,比如”你好”、“帮我写篇文章”、“翻译这段话”。

重要认知

当你输入简单的”你好”时,背后发生了什么?

Agent会携带大量System Prompt一起发送给LLM。所有这些内容的组合,才是真正的输入Token。

实际发送给LLM的内容 =
  System Prompt(开发者写的设定)+
  历史对话记录(Context)+
  可用工具列表(Tools)+
  你的输入(User Prompt)

所以你输入2个字,实际可能消耗了几百个Token的输入额度。

举个例子

你输入:“帮我写首诗”

实际发送给AI的内容可能包括:

  • 系统设定:“你是一个专业的诗人,擅长现代诗创作,风格偏向浪漫主义”
  • 行为约束:“请用中文回复,不要超过20行,每行不超过15个字”
  • 工具信息:“你可以调用【联网搜索】工具获取灵感”
  • 你的输入:“帮我写首诗”

这些加起来才是真正的输入Token,可能有好几百个。

常见场景

  • 日常使用:你给ChatGPT写的每一句话都是Prompt
  • 提示词工程:有人专门研究怎么写Prompt让AI输出更好的结果
  • 产品开发:开发者花大量时间优化System Prompt,让Agent表现更稳定

一句话总结

Prompt写得好,AI像专家;Prompt写得差,AI像智障。

Prompt对比效果 ▲ 同一个问题,不同的Prompt写法,输出质量天差地别


Tool:AI的”手脚”

Tool = 工具,让AI从”能说”变成”能做”

它是什么?

光会说话不够,AI还需要能”动手”干活。Tool就是AI的能力扩展,让它能真正去执行操作。

类比理解

LLM就像一个被绑在椅子上的天才

  • 脑子极好使,什么知识都知道
  • 但手脚被绑着,什么都做不了

Tool就是给它松绑,给它装上各种工具

  • 给它电脑 → 它能操作文件
  • 给它手机 → 它能发消息
  • 给它浏览器 → 它能上网搜索

它的作用

Tool让AI从”纸上谈兵”变成”真刀真枪”:

  • 没有Tool:AI只能”说”,告诉你怎么做
  • 有了Tool:AI能”做”,直接帮你完成任务

工具的分类

1. 内置工具 —— AI自带的”基础装备”

有些AI Agent只有很少的内置工具,但凭借这些工具就能完成几乎所有事情。

比如 OpenClaw 只有4个内置工具

  • read → 读取文件内容
  • write → 写入/创建文件
  • edit → 编辑修改文件
  • bash → 执行命令行操作

就这4个工具,它就能帮你写代码、改配置、跑程序、管理文件,几乎无所不能。

2. 外置工具 —— 可以无限扩展的”外挂装备”

  • 自己写:你可以开发任何你需要的工具,比如”发送邮件”、“操作数据库”、“调用某个API”
  • 用别人的:社区里有很多人写好了现成的工具,拿来就能用

常见场景

  • 编程助手:AI用read/write/edit工具帮你改代码
  • 数据分析:AI用Python工具帮你跑数据分析
  • 自动化办公:AI用邮件工具帮你发邮件,用日历工具帮你安排会议
  • 网页操作:AI用浏览器工具帮你填表单、点按钮

举个例子

你说:“帮我把项目里所有的console.log都删掉”

AI的执行过程:

  1. read工具读取文件
  2. 找到所有console.log的位置
  3. edit工具删除它们
  4. bash工具运行测试确保没出错

整个过程你只需要说一句话,AI自己搞定。

Tool工具执行示例 ▲ AI调用read/write/edit工具自动完成代码修改


MCP:AI工具的”标准化插座”

MCP = Model Context Protocol,模型上下文协议

它是什么?

MCP可以理解为AI工具的外包平台。它把某一个领域的所有工具都打包在一起,统一提供给AI使用。

类比理解

没有MCP之前: 想象你搬了新家,要买各种电器:

  • 电视 → 一种插头
  • 冰箱 → 另一种插头
  • 洗衣机 → 又一种插头
  • 空调 → 还得专门装个插座

每个电器都要单独接线,麻烦得要死。

有了MCP之后: 就像USB接口统一了所有外设:

  • 鼠标 → USB插上就能用
  • 键盘 → USB插上就能用
  • U盘 → USB插上就能用

MCP就是AI世界的”USB接口”。你只需要接入一个MCP服务,这个领域的所有工具都能用。

它的作用

1. 标准化 不用每个工具都单独对接,统一接口,即插即用。

2. 生态化 一个MCP可以包含几十上百个工具。比如”GitHub MCP”包含了操作代码仓库的所有能力,“数据库MCP”包含了所有数据库操作能力。

3. 降低门槛 开发者不用为每个AI产品单独写工具适配,写一次MCP工具,所有支持MCP的AI都能用。

通俗总结

MCP = Agent的外包公司

你把一个领域的所有工具需求”外包”给这个MCP,它来统一管理、统一提供。

常见场景

  • GitHub MCP:让AI能操作你的代码仓库,看Issue、改代码、提PR
  • 数据库MCP:让AI能查询、修改你的数据库
  • 文件MCP:让AI能管理你的本地文件
  • 网页MCP:让AI能操作浏览器,填表单、抓数据

举个例子

你想让AI帮你管理项目,需要它能:

  • 查Issue
  • 改代码
  • 提PR
  • 看CI状态

没有MCP:你需要分别对接GitHub的4个不同API,写4段适配代码 有MCP:接入一个GitHub MCP,所有能力都有了

MCP标准化接口示意图 ▲ MCP就像USB Hub,一个接口连接所有工具


Loop:AI的”循环思考”

Loop = 循环,Agent如何反复调用LLM来完成任务

它是什么?

Agent不是一次调用AI就完事了,而是会循环往复地思考、行动、检查结果,直到达成目标。这个循环过程就是Loop。

类比理解

想象你让一个助手帮你整理房间:

没有Loop(一次性):

你说:“帮我整理房间” 助手看了一眼,说了一句”好的”,然后就没然后了

有Loop(循环式):

你说:“帮我整理房间” 助手开始干活:

  1. 先看看房间有多乱(思考)
  2. 开始收拾书桌(行动)
  3. 检查书桌收拾好了没(检查结果)
  4. 接下来收拾衣柜(思考下一步)
  5. 收拾衣柜(行动)
  6. 检查衣柜(检查结果)
  7. 继续收拾床铺…… 直到整个房间整洁了才停下来

这就是Loop的力量——不完成不罢休

它的作用

Loop让Agent具备了自主完成任务的能力:

  • 不需要你一步步指导
  • Agent自己判断下一步该做什么
  • 做完一步自动进入下一步
  • 直到任务完成或遇到无法解决的问题

工作流程

1. 接收任务 → "帮我订明天去北京最便宜的机票"
2. 调用LLM思考 → "我应该先搜索机票信息"
3. 执行工具 → 调用搜索工具查机票
4. 查看结果 → 搜到了10个航班
5. 回到思考 → "我需要对比价格,选最便宜的"
6. 执行工具 → 对比价格,选出最便宜的
7. 继续思考 → "接下来需要填写乘客信息"
8. 执行工具 → 填写信息
9. 继续思考 → "确认下单"
10. 执行工具 → 下单
11. 检查 → 出票成功,任务完成!

常见场景

  • 复杂任务:需要多步骤才能完成的任务,Agent靠Loop一步步推进
  • 错误重试:某一步失败了,Agent可以自己重试或换一种方式
  • 条件判断:根据不同结果走不同的分支路径

举个例子

你让Agent:“帮我调研一下市面上最好的3款机械键盘,做个对比表格”

Agent的Loop过程:

  • 第1轮:搜索”2026年机械键盘推荐”
  • 第2轮:读取搜索结果,提取关键信息
  • 第3轮:搜索第一款键盘的详细参数
  • 第4轮:搜索第二款键盘的详细参数
  • 第5轮:搜索第三款键盘的详细参数
  • 第6轮:整理信息,生成对比表格
  • 第7轮:检查表格是否完整,补充缺失信息
  • 完成!

Agent Loop循环工作流程

▲ Agent的Loop循环:思考→行动→检查→再思考,直到任务完成


Agent:AI的”完全体”

Agent = 智能体,能自主完成任务的AI系统

它是什么?

Agent不是一个新的技术,而是把前面所有概念组合起来的整体架构

类比理解

如果说LLM是一个被绑在椅子上的天才,那Agent就是:

  1. 给他松绑(解除限制)
  2. 给他工具(Tool)
  3. 告诉他目标和规则(Prompt)
  4. 让他自己决定怎么干(Loop)
  5. 给他足够的记忆(Context)
  6. 告诉他怎么使用各种工具(MCP)

然后你就可以说:“帮我把这件事搞定”,然后去喝杯咖啡,回来就完事了。

它的作用

Agent的核心价值是自主性

  • 你只需要说”目标”,不需要说”步骤”
  • Agent自己拆解任务、自己执行、自己检查
  • 遇到问题自己想办法解决

所有概念的组合

┌─────────────────────────────────────────┐
│              Agent(智能体)              │
│                                         │
│  ┌───────────┐    ┌──────────────────┐  │
│  │  LLM(大脑)│    │  Prompt(指令)   │  │
│  │  思考决策  │    │  人设+规则       │  │
│  └─────┬─────┘    └────────┬─────────┘  │
│        │                   │            │
│  ┌─────▼───────────────────▼─────────┐  │
│  │         Loop(循环执行)           │  │
│  │  思考 → 行动 → 检查 → 再思考...    │  │
│  └─────┬───────────────────┬─────────┘  │
│        │                   │            │
│  ┌─────▼─────┐    ┌────────▼─────────┐  │
│  │ Tool(手脚)│    │ MCP(工具库)     │  │
│  │ 执行操作   │    │ 标准化接口       │  │
│  └───────────┘    └──────────────────┘  │
│                                         │
│  消耗:Token(成本)                     │
│  记忆:Context(上下文窗口)              │
└─────────────────────────────────────────┘

常见场景

  • 编程助手:Claude Code、Cursor、GitHub Copilot Workspace
  • 自动化办公:自动处理邮件、整理数据、生成报告
  • 个人助理:安排日程、订机票、查信息
  • 内容创作:从调研到写作到排版一条龙

举个例子

你是一个创业者,想让AI帮你做竞品分析。

传统方式(用LLM):

  1. 你自己去搜竞品信息
  2. 把信息复制粘贴给AI
  3. 让AI总结
  4. 你自己整理成报告

Agent方式:

  1. 你说:“帮我分析一下XX产品的竞品,出一份报告”
  2. Agent自己去搜索、去读网页、去对比
  3. Agent自己整理数据、生成图表、写出报告
  4. 你收到一份完整的报告

你只需要说一句话,剩下的Agent全包了。

Agent自主完成任务示例

▲ Agent自主完成复杂任务的完整过程


Skill:AI的”技能包”

Skill = 技能,可复用的高级能力模块

它是什么?

Skill是在Agent基础上的进一步封装。把常用的、复杂的任务流程打包成一个”技能包”,下次直接调用就行。

类比理解

如果Tool是单个动作,Skill就是一套连招

  • Tool = 游戏里的”普通攻击”(打一下)
  • Skill = 游戏里的”技能”(一套华丽的连招,伤害爆炸)

或者用职场来类比:

  • Tool = 员工会的”单项技能”(会用Excel、会写邮件、会做PPT)
  • Skill = 员工的”岗位能力”(“市场分析能力” = 收集数据 → 分析数据 → 做图表 → 写报告 → 做PPT汇报)

它的作用

1. 复用性 一次配置,反复使用。不用每次都从头教AI怎么做。

2. 降低门槛 用户不需要知道背后有多少步骤,直接调用Skill就行。

3. 标准化 同一个Skill在不同场景下表现一致,质量有保障。

Tool vs Skill 的区别

Tool(工具)Skill(技能)
粒度单个动作一套流程
复杂度简单复杂
例子”读取文件""写SEO文章”
用户操作需要一步步指导一句话搞定

举个例子

Skill:“SEO文章写作”

背后包含的完整流程:

  1. 搜索关键词相关的热搜问题
  2. 分析竞品文章结构
  3. 生成文章大纲
  4. 分段撰写正文
  5. 检查SEO指标(关键词密度、标题结构等)
  6. 生成Meta描述
  7. 排版优化
  8. 输出最终文章

你只需要说:“帮我写一篇关于AI的文章”,Skill自动完成以上所有步骤。

常见场景

  • 开发者的Skill:代码审查、Bug修复、文档生成
  • 运营的Skill:社交媒体内容生成、数据分析报告
  • 写作的Skill:SEO文章、技术博客、营销文案
  • 设计的Skill:生成UI组件、配色方案、图标设计

Skill技能包示例

Skill技能包示例

▲ 一个Skill背后可能包含多个步骤的自动化流程


一张图总结所有概念

Token 是基础单位 → 决定成本和长度限制

Context Window 是瓶颈 → 影响任务复杂度

Prompt 是沟通桥梁 → 决定输出质量

Tool 是能力扩展 → 让模型能"动手"

MCP 是标准化 → 统一工具生态

Loop 是工作方式 → 循环调用直到完成

Agent 是整体架构 → 实现自主任务执行

Skill 是高级封装 → 可复用的能力模块

一句话串起来

你通过 PromptAgent 下达任务,Agent 用 LLM 作为大脑思考,在 Context 的记忆范围内,通过 Loop 循环调用各种 Tool(通过 MCP 标准化接入),每一步都消耗着 Token,最终完成任务。而 Skill 就是把这一整套流程打包好,让你下次一键调用。


总结

看到这里,你应该对这些AI名词有了清晰的认识:

名词一句话解释类比
LLM会说话的AI大脑读过所有书的学霸
TokenAI处理文字的单位,也是计费标准菜市场的”斤”
ContextAI的短期记忆电话聊天能记住的内容量
Prompt和AI沟通的话术餐厅点菜的话术
ToolAI的手脚,让它能真正执行操作给天才松绑+给工具
MCP工具的标准化接口,即插即用USB接口
LoopAI循环思考的工作方式助手整理房间的过程
Agent整合所有能力的智能体能独立干活的员工
Skill打包好的技能包,开箱即用游戏里的连招技能

最后的建议

其实,最好的学习方式就是动手开发一个自己的Agent。当你真正去搭建的时候:

  • 你会看到Token是怎么消耗的
  • 你会感受到Context不够用是什么体验
  • 你会明白Prompt写得好不好差别有多大
  • 你会体会到Tool和MCP带来的能力飞跃
  • 你会亲眼看到Loop是怎么循环工作的

这些概念在实践中会自然变得清晰。别被名词吓到,AI真的没有想象中那么复杂!

动手试试吧,你会发现乐趣无穷


参考资料:

AI基础 学习笔记 2026