基于统计的分词技术

字节对编码（Byte Pair Encoding）

BPE(基于统计分词)的原理

一、 BPE的优缺点

分词器/库	核心思想/算法	标志性特点	主要使用者
OpenAI BPE(tiktoken)	Byte-level BPE	直接在字节流上操作，高效压缩	GPT-2,GPT-3,GPT-4,GPT-40, GPT-5
SentencePiece	BPE, Unigram	语言无关，无需预分词，空格视为	LLaMA, T5,多语言模型
WordPiece	Max-Likelihood	需要预分词，词中片段用 ## 标记	BERT 及其家族
Hugging Facetokenizers	BPE, WordPiece,Unigram..	集大成者，高性能Rust 实现，完整流水线	Hugging Face 生态所有模型