LLMs之Tokenizer:大模型核心技术—数据预处理技巧之分词算法的简介、常用算法(对比Transformer中的三种分词算法【Unigram→Word Piece→BPE】)之详细攻略
目录
1、分词算法/Tokenizer分词器【分词+标记/编码】的概述
LLMs:Tokenizer Viwer的简介、安装、使用方法之详细攻略
2、对比Transformer中的三种tokenizer分词算法(BPE、Word Piece、Unigram)
(2)、WordPiece模型训练(Google发明):词干级别+采用语言建模训练(最大概率分割)+迭代加入词库+直到词库上限,如BERT系列
(3)、BPE分割:字节级别+采用统计法最优切分+迭代统计+贪心合并(字符对即Byte Pair)+频率排序+直到词库上限,如Transformer-XL/GPT-3
(4)、综合对比:UnigramLM【单词级别】、WordPiece【词干级别】、BPE对比【字节级别】
(1)、# 利用Counter函数实现自定义unigram编码
(1)、# 利用BertWordPieceTokenizer实现Word Piece分词
Tokenizer分词算法的简介
1、分词算法/Tokenizer分词器【分词+标记/编码】的概述
背景</ |