跳转至

当我们开始接触人工智能或尝试本地部署大模型时,经常会看到一些专业术语,例如:

  • 参数量(7B / 13B / 70B)
  • Token
  • 上下文长度(Context Length)
  • 模型量化(4bit / 8bit)

很多初学者都会困惑:

  • 为什么模型后面总跟着 7B、13B、70B
  • Token 和文字有什么关系?
  • 为什么有的模型能记住很长对话?
  • 为什么有些模型能在普通电脑上运行?

实际上,这四个指标几乎决定了 AI 模型的能力、成本以及运行条件。理解它们,你就能更清楚地判断一个模型的性能与硬件需求。

下面我们逐个解释。


一、参数量(Parameters)

参数量是衡量 AI 模型规模 的核心指标。

所谓参数,本质上就是神经网络中的 权重(Weight)

在训练过程中,模型会通过海量数据不断调整这些参数,让模型逐渐学会:

  • 理解语言
  • 进行推理
  • 生成文本
  • 回答问题

模型参数通常用 B(Billion) 表示。

例如:

标识 含义
7B 70 亿参数
13B 130 亿参数
70B 700 亿参数

例如模型:

  • Qwen3
  • DeepSeek-R1

都有不同规模的参数版本。

参数量越大越好吗?

一般来说:

参数越多
→ 模型知识容量越大
→ 推理能力越强

但同时也会带来两个问题:

1 计算成本更高

参数越多,每次推理计算量越大。

2 硬件需求更高

参数越多,占用显存越大。

例如:

模型规模 需要显存(大致)
7B 6GB – 14GB
13B 12GB – 24GB
70B 80GB 以上

这也是为什么很多企业训练模型时会使用大量 GPU。

例如:

  • GPT-4
  • Llama 3

这些模型参数规模极其庞大。


二、Token:AI 处理文本的基本单位

很多人会误以为 AI 是按 字符单词 处理文本的。

实际上,AI 处理的是 Token

Token 是一种 文本切分后的最小单位

举个例子:

句子:

I love artificial intelligence

可能被拆分为:

I
love
artificial
intelligence

每个都是一个 Token。

而中文通常会被拆分成:

我
喜
欢
人
工
智
能

但在实际模型中,Token 可能是:

  • 单词
  • 词组
  • 字符
  • 子词

例如:

ChatGPT

可能拆分为:

Chat
G
PT

Token 与费用

很多 AI 服务都是按 Token 收费的。

原因是:

Token 数量 ≈ 模型计算量

Token 越多:

  • 计算时间越长
  • 成本越高

三、上下文长度(Context Length)

上下文长度指的是:

模型在一次对话中能够记住的最大 Token 数量。

例如:

如果模型上下文是:

8K Token

那就意味着:

模型最多记住约 8000 Token

超过这个长度:

旧内容会被丢弃

为什么上下文很重要?

因为它决定了模型的 记忆能力

举个例子:

假设你在让 AI 阅读一篇文章:

10万字

如果模型上下文只有:

8K Token

那模型一次只能看到很小一部分内容。

而一些新模型上下文非常长,例如:

  • Claude 3
  • GPT-4

已经可以支持:

100K
甚至 200K Token

这意味着模型可以:

  • 阅读整本书
  • 分析长文档
  • 理解长对话

四、模型量化(Quantization)

模型量化是一种 降低模型体积和显存占用的技术

在原始模型中,参数通常使用:

FP32

或:

FP16

表示。

例如:

FP16 = 16bit

如果模型有:

70亿参数

那显存需求就会很大。

量化技术的思路是:

降低参数精度

例如:

类型 含义
FP16 16bit
INT8 8bit
INT4 4bit

精度降低后:

  • 模型体积变小
  • 显存占用降低
  • 推理速度更快

例如:

一个 7B 模型:

类型 显存
FP16 ~14GB
INT8 ~7GB
INT4 ~4GB

因此很多本地运行模型会使用量化版本。

例如:

  • Ollama

下载的模型大多数就是 量化版本

量化的代价

量化虽然减少资源占用,但也会带来一些影响:

  • 精度略微下降
  • 推理稳定性降低

不过对于大多数应用场景来说影响不大。


五、四个指标之间的关系

这四个概念其实是紧密关联的。

可以这样理解:

参数量
决定模型能力
Token
决定计算量
上下文长度
决定模型记忆能力
量化
决定模型是否能在普通电脑运行

它们共同决定:

模型性能
运行成本
硬件需求

六、一个实际例子

假设有一个模型:

8B 参数

上下文:

32K Token

如果使用:

INT4 量化

那它可能只需要:

6GB ~ 8GB 显存

这意味着:

普通电脑也可以运行。

这也是近年来 本地 AI 应用快速发展的原因之一


七、总结

在理解 AI 大模型时,以下四个指标非常关键:

指标 作用
参数量 决定模型规模
Token 文本处理单位
上下文长度 决定记忆能力
模型量化 决定硬件需求

可以用一句话总结:

参数量决定模型有多聪明
Token决定计算成本
上下文决定记忆长度
量化决定电脑能不能跑

当你看到一个模型描述时,例如:

8B 参数
128K Context
INT4

基本就能判断:

  • 模型规模
  • 记忆能力
  • 硬件需求

这也是理解 AI 模型最重要的基础知识之一。

评论