人工智能时代,大模型的token究竟是什么?
大模型的Token到底是什么?一句话给你点透就是:Token其实就是大模型“理解”这个世界的最小单位。就像我们人类理解世界靠的是各种“概念”一样,大模型理解世界靠的就是这个token。你可以把它想象成:大模型不是在处理某个“字”,而是在处理各种“有意义的片段”。
第一、Token它不是字,而是一种“语义原子。
我们可以将一个token理解为:
➢ 一个英文单词(比如“hello”);
➢一个中文词语(比如“你好”);
➢一个词的一部分(比如“unbelievable”可能被拆成“un"+"believ"+"able”);
➢某一个标点符号;
★小结:大模型训练时,在自然语言处理领域中,机器学习模型通常以Token作为其输入单位,人类就把海量文本切分成这些“语义原子”喂给它,然后让模型学习它们之间的关系。所以你也可以理解为模型训练不是在“背书”,而是在学习这些token之间的各种“连接规律”。
第二、可以把Token理解为它是AI世界的“货币”。
1、在 AI 世界里,token就像一种计量货币。——1 个 token大约等于 4-5 个英文字符,100 万token相当于约 75 万个单词,也就是一本 3500 页的大部头书的样子。
2、其实我们用AI的成本一直在下降。比较同级别模型的每百万 token价格,在短短两年内下降了 99.7%。随着科技的发展和AI技术的逐步成熟,相信以后的AI技术的服务费用会越来越低。
★小结:这就像电费一样。在工业革命时期,19世纪初人们获得同样照明的成本是现在的照明成本400倍之多。同理,AI以后也会从“奢侈品”变成人们生活中的“基础设施”。
第三、以目前的情况来看,在用token的计量下,中文比英文“更贵”。
这个可能很多人没有注意到:
通常1个中文词语、1个英文单词、1个数字或1个符号计为1个token。一般情况下,模型中token和字数的换算比例大致如下:1个英文字符 ≈ 0.3个token。1个中文字符 ≈ 0.6个token。
因为英文用空格分词很自然,中文需要更复杂的分词算法。通常token如果增加一倍,那么计算量会变为从前的四倍,这种算力增长不是线性的,而是呈现平方式的增长,所以理论上,同样一个问题,处理中文比处理英文,在大语言模型上通常要消耗更多算力。在GPT-3推出时,1000个token相当于750个英文单词,或者500个汉字。
我们不能忽略一个事实,就是在全球人工智能领域,中国的研发实力是绝对第二的,远远领先于第三名,又因为这个绝对第二名的母语是中文,所以针对中文消耗更多token的问题也能做大幅优化。
★小结:
➢写提示词时,英文通常比中文更“经济,但中文可能在表达上更精准。
➢在计算成本时,中文内容要预留更多token预算。
➢当AI在“思考”时,它不是在“思考字”,而是在“处理token之间的各种关系。
总结:Token的本质,是人类语言被“数字化”后的最小载体。大模型的智能,就藏在这些token之间错综复杂的关系连接网络里。