介绍一个超直观的 Token 可视化工具：Tiktokenizer

很多人刚开始学习大模型时，都会默认一个理解：

我们输入一段文字，GPT 就是在“读”这段文字。

比如你问它：

What is c plus plus

从人的角度看，这就是一句普通的问题。
但从模型的角度看，事情并没有这么简单。

GPT 并不是直接处理原始文字。
在文字真正进入模型之前，会先经过一个非常关键的步骤：

程序员小x大约 5 分钟

今天我们经常听到这些词：

大模型、Transformer、Attention、GPU、CUDA、算力、训练、推理。

听起来都很高深。

但如果把这些概念一层一层拆开，你会发现一个很有意思的事实：

现代 AI 的核心计算，大量都是矩阵运算。

尤其是大语言模型 LLM，不管是前向推理，还是训练时的反向传播，本质上都离不开矩阵乘法。

而 GPU 之所以能成为 AI 时代的核心硬件，也是因为它特别擅长做大规模并行矩阵计算。

程序员小x大约 11 分钟

很多人看大模型训练成本时，经常会看到一个公式：

训练 FLOPs ≈ 6 × 参数量 × Token 数

70B 模型、1T Token、几百张 GPU、训练几十天……这些数字背后，几乎都绕不开这条经验公式。

但很多人第一次看到时都会困惑：

程序员小x大约 6 分钟

大家好，我是小x，一个机械转码的程序员，

有问题，欢迎联系

程序员小x小于 1 分钟

将你的个人介绍和档案放置在此处。

程序员小x小于 1 分钟

程序员小x大约 5 分钟

Code Building