category:
- AI tag:
- 人工智能
介绍一个超直观的 Token 可视化工具:Tiktokenizer
很多人刚开始学习大模型时,都会默认一个理解:
我们输入一段文字,GPT 就是在“读”这段文字。
比如你问它:
What is c plus plus
从人的角度看,这就是一句普通的问题。
但从模型的角度看,事情并没有这么简单。
GPT 并不是直接处理原始文字。
在文字真正进入模型之前,会先经过一个非常关键的步骤:
大约 5 分钟
code needs building, man needs training
category:
很多人刚开始学习大模型时,都会默认一个理解:
我们输入一段文字,GPT 就是在“读”这段文字。
比如你问它:
What is c plus plus
从人的角度看,这就是一句普通的问题。
但从模型的角度看,事情并没有这么简单。
GPT 并不是直接处理原始文字。
在文字真正进入模型之前,会先经过一个非常关键的步骤:
今天我们经常听到这些词:
大模型、Transformer、Attention、GPU、CUDA、算力、训练、推理。
听起来都很高深。
但如果把这些概念一层一层拆开,你会发现一个很有意思的事实:
现代 AI 的核心计算,大量都是矩阵运算。
尤其是大语言模型 LLM,不管是前向推理,还是训练时的反向传播,本质上都离不开矩阵乘法。
而 GPU 之所以能成为 AI 时代的核心硬件,也是因为它特别擅长做大规模并行矩阵计算。
很多人看大模型训练成本时,经常会看到一个公式:
训练 FLOPs ≈ 6 × 参数量 × Token 数
70B 模型、1T Token、几百张 GPU、训练几十天……这些数字背后,几乎都绕不开这条经验公式。
但很多人第一次看到时都会困惑: