目录
调用过OpenAI API的同学都知道,其API调用是按照Token来计费的。
Token化就是教LLM认字
当人类看到一段文字会很自然地把它分解为一个个单词/字,这是我们理解分析文章和句子的基础。但对于LLM来说,它看到的不过是长长的一串二进制的01、01,对LLM来说,它不理解什么是段落、句子、单词,为了让LLM也像人类一样在理解语言的时候有一个基础,我们也需要教会LLM认字,这和我们小时候先学会认字,然后才能读书是一个道理。
而教LLM认字的过程是,我们首先把文章/句子切分成一个个小片段,并把这些小片段转换成LLM理解的向量形式,之后把这些向量输入给LLM让它学习,当LLM学习了足够多的数据后,它就学会了认字。