hero image

Code Building

code needs building, man needs training

Linux-0.11详解
Linux-0.11详解
effective c++详解
effective c++
Understanding Linux kernel
理解Linux内核英文版
深入理解Linux 内核
深入理解Linux 内核
Linux-0.11完全解读
Linux-0.11完全解读
介绍一个超直观的 Token 可视化工具:Tiktokenizer

category:

  • AI tag:
  • 人工智能

介绍一个超直观的 Token 可视化工具:Tiktokenizer

很多人刚开始学习大模型时,都会默认一个理解:

我们输入一段文字,GPT 就是在“读”这段文字。

比如你问它:

What is c plus plus

从人的角度看,这就是一句普通的问题。
但从模型的角度看,事情并没有这么简单。

GPT 并不是直接处理原始文字。
在文字真正进入模型之前,会先经过一个非常关键的步骤:


程序员小x大约 5 分钟
大模型的核心,竟然只是矩阵乘法?

大模型的核心,竟然只是矩阵乘法?

今天我们经常听到这些词:

大模型、Transformer、Attention、GPU、CUDA、算力、训练、推理。

听起来都很高深。

但如果把这些概念一层一层拆开,你会发现一个很有意思的事实:

现代 AI 的核心计算,大量都是矩阵运算。

尤其是大语言模型 LLM,不管是前向推理,还是训练时的反向传播,本质上都离不开矩阵乘法。

而 GPU 之所以能成为 AI 时代的核心硬件,也是因为它特别擅长做大规模并行矩阵计算。


程序员小x大约 11 分钟AI人工智能
大模型训练的“6倍法则”

大模型训练的“6倍法则”

很多人看大模型训练成本时,经常会看到一个公式:

训练 FLOPs ≈ 6 × 参数量 × Token 数

70B 模型、1T Token、几百张 GPU、训练几十天……这些数字背后,几乎都绕不开这条经验公式。

但很多人第一次看到时都会困惑:

  • 这个 6 到底从哪来?
  • 它是在算 显存,还是在算 训练速度
  • 为什么不是 2,也不是 4?

程序员小x大约 6 分钟AI人工智能

大家好,我是小x,一个机械转码的程序员,

有问题,欢迎联系

wechat
wechat

程序员小x小于 1 分钟