Llama 2 如今已成为最热门的大型语言模型(LLM),这背后有许多充分理由。它在公开基准测试中的表现优于以往的 LLMs,并且与 Llama 1 不同,您可以在商业应用中使用 Llama 2。
您已经可以找到许多关于如何将 Llama 2 投入生产环境使用的教程。
Llama 2 并非真正开源,您不能出于任何商业目的使用它。
关键限制:您不能使用 Llama 2 来改进其他 LLM
许可协议中有如下条款:
五、您不得使用 Llama 材料或其任何输出或结果
Llama 材料可用于改进其他大型语言模型(不包括 Llama 2 或其衍生作品)。
"Llama Materials"包括模型本身。
注意:这里的"改进"一词非常关键。它为 Meta 留下了空间,可以将其任何想要的改动都定义为"改进"。
例如,您无法使用 Llama 2 生成数据集并用于训练/微调其他 LLM。这一限制极为严格,甚至超过了 OpenAI 的使用条款。
OpenAI 仅禁止将生成的数据集用于训练与 OpenAI"服务"形成竞争的 LLM。例如 Falcon 指令模型就是基于 ChatGPT 生成的百泽数据集进行训练的——只要不将 Falcon 模型用于与 OpenAI 产品竞争的商业产品,根据 OpenAI 条款这完全是被允许的。
使用 Llama 2 时,生成的数据集仅能用于改进 Llama 2 本身。即使是出于研究目的,该许可协议也并未授予您必要的使用权限。
实际上,我不知道他们如何验证这一点。我预计大量由 Llama 2 生成的数据将会发布在互联网上。然后,这些数据会被简单地爬取,并用于训练其他 LLMs,从而侵犯 Llama 2 的许可协议。
因此,我们又陷入了这样的境地:Meta 可以爬取整个互联网(包括你的数据/知识产权)来开发自己的 LLMs,但我们却不能利用这些模型生成的数据来开发自己的 LLMs。
我认为这类许可证没有未来。但这只是我的个人观点。