构建文本字典原理

大语言模型微调及其应用的探索 跟踪前沿的技术

构建文本字典原理

#建立词汇表
#将result中重复的词去掉然后对剩下的词进行排序
all_words = sorted(set(result))
#print(len(all_words))
# 将所有词汇映射到一个唯一的索引
# 词汇表的大小
vocab_size = len(all_words)
#  建立词汇表
# 词汇表是一个字典键是词值是索引
print(f"词汇表大小: {vocab_size}")
 
vocab = {token: idx for idx, token in enumerate(all_words)}
# 打印前100个词汇
print(f"词汇表前100个词: {list(vocab.items())[:100]}")