大语言模型微调及其应用的探索 跟踪前沿的技术
#建立词汇表
#将result中重复的词去掉,然后对剩下的词进行排序
all_words = sorted(set(result))
#print(len(all_words))
# 将所有词汇映射到一个唯一的索引
# 词汇表的大小
vocab_size = len(all_words)
# 建立词汇表
# 词汇表是一个字典,键是词,值是索引
print(f"词汇表大小: {vocab_size}")
vocab = {token: idx for idx, token in enumerate(all_words)}
# 打印前100个词汇
print(f"词汇表前100个词: {list(vocab.items())[:100]}")