15分钟(顺利、的话),定制你的第一个专属模型!
开营前的任务很简单,按照官网教程即可。
这里主要讲一些额外的。
冬令营重用到的数据集是AIpaca格式,典型的Alpaca格式数据集样本通常采用以下结构特点:
-
固定的字段名称:每条数据样本包含三个关键字段:
- instruction:指令或任务描述,告诉模型应执行什么操作或回答什么问题。
- input:可选的辅助输入信息,有时为空字符串。这一字段在某些指令下可能提供额外上下文或详细信息,而对于简单任务则可能为空。
- output:期望模型生成的答案或解决方案的参考答案。
-
面向指令微调:Alpaca格式的数据集旨在为大模型的指令微调任务提供数据,使模型学习更好地理解和执行人类提出的多样化指令。
-
JSON格式存储:数据往往以JSON或JSON Lines的形式存储,每条记录是一个独立的JSON对象。
-
指令与输入分离:与传统仅有“问题-答案”格式的数据不同,Alpaca格式显式区分了指令(instruction)和额外上下文(input),这有利于模型在处理更复杂的、多轮或情境性指令时具有更好的拓展性。