当我们开始接触人工智能或尝试本地部署大模型时，经常会看到一些专业术语，例如：

参数量（7B / 13B / 70B）
Token
上下文长度（Context Length）
模型量化（4bit / 8bit）

很多初学者都会困惑：

为什么模型后面总跟着 7B、13B、70B？
Token 和文字有什么关系？
为什么有的模型能记住很长对话？
为什么有些模型能在普通电脑上运行？

实际上，这四个指标几乎决定了 AI 模型的能力、成本以及运行条件。理解它们，你就能更清楚地判断一个模型的性能与硬件需求。

下面我们逐个解释。

一、参数量（Parameters）

参数量是衡量 AI 模型规模 的核心指标。

所谓参数，本质上就是神经网络中的 权重（Weight）。

在训练过程中，模型会通过海量数据不断调整这些参数，让模型逐渐学会：

理解语言
进行推理
生成文本
回答问题

模型参数通常用 B（Billion） 表示。

例如：

标识	含义
7B	70 亿参数
13B	130 亿参数
70B	700 亿参数

例如模型：

Qwen3
DeepSeek-R1

都有不同规模的参数版本。

参数量越大越好吗？

一般来说：

参数越多
→ 模型知识容量越大
→ 推理能力越强

但同时也会带来两个问题：

1 计算成本更高

参数越多，每次推理计算量越大。

2 硬件需求更高

参数越多，占用显存越大。

例如：

模型规模	需要显存（大致）
7B	6GB – 14GB
13B	12GB – 24GB
70B	80GB 以上

这也是为什么很多企业训练模型时会使用大量 GPU。

例如：

GPT-4
Llama 3

这些模型参数规模极其庞大。

二、Token：AI 处理文本的基本单位

很多人会误以为 AI 是按字符或单词处理文本的。

实际上，AI 处理的是 Token。

Token 是一种 文本切分后的最小单位。

举个例子：

句子：

I love artificial intelligence

可能被拆分为：

I
love
artificial
intelligence

每个都是一个 Token。

而中文通常会被拆分成：

我
喜
欢
人
工
智
能

但在实际模型中，Token 可能是：

单词
词组
字符
子词

例如：

ChatGPT

可能拆分为：

Chat
G
PT

Token 与费用

很多 AI 服务都是按 Token 收费的。

原因是：

Token 数量 ≈ 模型计算量

Token 越多：

计算时间越长
成本越高

三、上下文长度（Context Length）

上下文长度指的是：

模型在一次对话中能够记住的最大 Token 数量。

例如：

如果模型上下文是：

8K Token

那就意味着：

模型最多记住约 8000 Token

超过这个长度：

旧内容会被丢弃

为什么上下文很重要？

因为它决定了模型的 记忆能力。

举个例子：

假设你在让 AI 阅读一篇文章：

10万字

如果模型上下文只有：

8K Token

那模型一次只能看到很小一部分内容。

而一些新模型上下文非常长，例如：

Claude 3
GPT-4

已经可以支持：

100K
甚至 200K Token

这意味着模型可以：

阅读整本书
分析长文档
理解长对话

四、模型量化（Quantization）

模型量化是一种 降低模型体积和显存占用的技术。

在原始模型中，参数通常使用：

FP32

或：

FP16

表示。

例如：

FP16 = 16bit

如果模型有：

70亿参数

那显存需求就会很大。

量化技术的思路是：

降低参数精度

例如：

类型	含义
FP16	16bit
INT8	8bit
INT4	4bit

精度降低后：

模型体积变小
显存占用降低
推理速度更快

例如：

一个 7B 模型：

类型	显存
FP16	~14GB
INT8	~7GB
INT4	~4GB

因此很多本地运行模型会使用量化版本。

例如：

Ollama

下载的模型大多数就是 量化版本。

量化的代价

量化虽然减少资源占用，但也会带来一些影响：

精度略微下降
推理稳定性降低

不过对于大多数应用场景来说影响不大。

五、四个指标之间的关系

这四个概念其实是紧密关联的。

可以这样理解：

参数量
决定模型能力

Token
决定计算量

上下文长度
决定模型记忆能力

量化
决定模型是否能在普通电脑运行

它们共同决定：

模型性能
运行成本
硬件需求

六、一个实际例子

假设有一个模型：

8B 参数

上下文：

32K Token

如果使用：

INT4 量化

那它可能只需要：

6GB ~ 8GB 显存

这意味着：

普通电脑也可以运行。

这也是近年来 本地 AI 应用快速发展的原因之一。

七、总结

在理解 AI 大模型时，以下四个指标非常关键：

指标	作用
参数量	决定模型规模
Token	文本处理单位
上下文长度	决定记忆能力
模型量化	决定硬件需求

可以用一句话总结：

参数量决定模型有多聪明
Token决定计算成本
上下文决定记忆长度
量化决定电脑能不能跑

当你看到一个模型描述时，例如：

8B 参数
128K Context
INT4

基本就能判断：

模型规模
记忆能力
硬件需求

这也是理解 AI 模型最重要的基础知识之一。