当我们开始接触人工智能或尝试本地部署大模型时,经常会看到一些专业术语,例如:
- 参数量(7B / 13B / 70B)
- Token
- 上下文长度(Context Length)
- 模型量化(4bit / 8bit)
很多初学者都会困惑:
- 为什么模型后面总跟着 7B、13B、70B?
- Token 和文字有什么关系?
- 为什么有的模型能记住很长对话?
- 为什么有些模型能在普通电脑上运行?
实际上,这四个指标几乎决定了 AI 模型的能力、成本以及运行条件。理解它们,你就能更清楚地判断一个模型的性能与硬件需求。
下面我们逐个解释。
一、参数量(Parameters)
参数量是衡量 AI 模型规模 的核心指标。
所谓参数,本质上就是神经网络中的 权重(Weight)。
在训练过程中,模型会通过海量数据不断调整这些参数,让模型逐渐学会:
- 理解语言
- 进行推理
- 生成文本
- 回答问题
模型参数通常用 B(Billion) 表示。
例如:
| 标识 | 含义 |
|---|---|
| 7B | 70 亿参数 |
| 13B | 130 亿参数 |
| 70B | 700 亿参数 |
例如模型:
- Qwen3
- DeepSeek-R1
都有不同规模的参数版本。
参数量越大越好吗?
一般来说:
参数越多
→ 模型知识容量越大
→ 推理能力越强
但同时也会带来两个问题:
1 计算成本更高
参数越多,每次推理计算量越大。
2 硬件需求更高
参数越多,占用显存越大。
例如:
| 模型规模 | 需要显存(大致) |
|---|---|
| 7B | 6GB – 14GB |
| 13B | 12GB – 24GB |
| 70B | 80GB 以上 |
这也是为什么很多企业训练模型时会使用大量 GPU。
例如:
- GPT-4
- Llama 3
这些模型参数规模极其庞大。
二、Token:AI 处理文本的基本单位
很多人会误以为 AI 是按 字符 或 单词 处理文本的。
实际上,AI 处理的是 Token。
Token 是一种 文本切分后的最小单位。
举个例子:
句子:
I love artificial intelligence
可能被拆分为:
I
love
artificial
intelligence
每个都是一个 Token。
而中文通常会被拆分成:
我
喜
欢
人
工
智
能
但在实际模型中,Token 可能是:
- 单词
- 词组
- 字符
- 子词
例如:
ChatGPT
可能拆分为:
Chat
G
PT
Token 与费用
很多 AI 服务都是按 Token 收费的。
原因是:
Token 数量 ≈ 模型计算量
Token 越多:
- 计算时间越长
- 成本越高
三、上下文长度(Context Length)
上下文长度指的是:
模型在一次对话中能够记住的最大 Token 数量。
例如:
如果模型上下文是:
8K Token
那就意味着:
模型最多记住约 8000 Token
超过这个长度:
旧内容会被丢弃
为什么上下文很重要?
因为它决定了模型的 记忆能力。
举个例子:
假设你在让 AI 阅读一篇文章:
10万字
如果模型上下文只有:
8K Token
那模型一次只能看到很小一部分内容。
而一些新模型上下文非常长,例如:
- Claude 3
- GPT-4
已经可以支持:
100K
甚至 200K Token
这意味着模型可以:
- 阅读整本书
- 分析长文档
- 理解长对话
四、模型量化(Quantization)
模型量化是一种 降低模型体积和显存占用的技术。
在原始模型中,参数通常使用:
FP32
或:
FP16
表示。
例如:
FP16 = 16bit
如果模型有:
70亿参数
那显存需求就会很大。
量化技术的思路是:
降低参数精度
例如:
| 类型 | 含义 |
|---|---|
| FP16 | 16bit |
| INT8 | 8bit |
| INT4 | 4bit |
精度降低后:
- 模型体积变小
- 显存占用降低
- 推理速度更快
例如:
一个 7B 模型:
| 类型 | 显存 |
|---|---|
| FP16 | ~14GB |
| INT8 | ~7GB |
| INT4 | ~4GB |
因此很多本地运行模型会使用量化版本。
例如:
- Ollama
下载的模型大多数就是 量化版本。
量化的代价
量化虽然减少资源占用,但也会带来一些影响:
- 精度略微下降
- 推理稳定性降低
不过对于大多数应用场景来说影响不大。
五、四个指标之间的关系
这四个概念其实是紧密关联的。
可以这样理解:
参数量
决定模型能力
Token
决定计算量
上下文长度
决定模型记忆能力
量化
决定模型是否能在普通电脑运行
它们共同决定:
模型性能
运行成本
硬件需求
六、一个实际例子
假设有一个模型:
8B 参数
上下文:
32K Token
如果使用:
INT4 量化
那它可能只需要:
6GB ~ 8GB 显存
这意味着:
普通电脑也可以运行。
这也是近年来 本地 AI 应用快速发展的原因之一。
七、总结
在理解 AI 大模型时,以下四个指标非常关键:
| 指标 | 作用 |
|---|---|
| 参数量 | 决定模型规模 |
| Token | 文本处理单位 |
| 上下文长度 | 决定记忆能力 |
| 模型量化 | 决定硬件需求 |
可以用一句话总结:
参数量决定模型有多聪明
Token决定计算成本
上下文决定记忆长度
量化决定电脑能不能跑
当你看到一个模型描述时,例如:
8B 参数
128K Context
INT4
基本就能判断:
- 模型规模
- 记忆能力
- 硬件需求
这也是理解 AI 模型最重要的基础知识之一。