大语言模型微调及其应用的探索 跟踪前沿的技术
BPE(基于统计分词)的原理
OpenAI 使用BPE分词器地址:https://platform.openai.com/tokenizer
OpenAI 分词器是开源的地址:https://github.com/openai/tiktoken
| 分词器/库 | 核心思想/算法 | 标志性特点 | 主要使用者 |
|---|---|---|---|
| OpenAI BPE(tiktoken) | Byte-level BPE | 直接在字节流上操作,高效压缩 | GPT-2,GPT-3,GPT-4,GPT-40, GPT-5 |
| SentencePiece | BPE, Unigram | 语言无关,无需预分词,空格视为 | LLaMA, T5,多语言模型 |
| WordPiece | Max-Likelihood | 需要预分词,词中片段用 ## 标记 | BERT 及其家族 |
| Hugging Facetokenizers | BPE, WordPiece,Unigram.. | 集大成者,高性能Rust 实现,完整流水线 | Hugging Face 生态所有模型 |