Tokenizer类封装
大语言模型微调及其应用的探索 跟踪前沿的技术
View On GitHub
Tokenizer类封装
构造方法: 分词、构造字典
encoder(): 将词转成tokenID
decode() : 将tokenID转成词