Datawhale AI冬令营(第一期)

15分钟(顺利、的话),定制你的第一个专属模型!

开营前的任务很简单,按照官网教程即可。

这里主要讲一些额外的。

冬令营重用到的数据集是AIpaca格式,典型的Alpaca格式数据集样本通常采用以下结构特点:

  1. 固定的字段名称:每条数据样本包含三个关键字段:

    • instruction:指令或任务描述,告诉模型应执行什么操作或回答什么问题。
    • input:可选的辅助输入信息,有时为空字符串。这一字段在某些指令下可能提供额外上下文或详细信息,而对于简单任务则可能为空。
    • output:期望模型生成的答案或解决方案的参考答案。
  2. 面向指令微调:Alpaca格式的数据集旨在为大模型的指令微调任务提供数据,使模型学习更好地理解和执行人类提出的多样化指令。

  3. JSON格式存储:数据往往以JSON或JSON Lines的形式存储,每条记录是一个独立的JSON对象。

  4. 指令与输入分离:与传统仅有“问题-答案”格式的数据不同,Alpaca格式显式区分了指令(instruction)和额外上下文(input),这有利于模型在处理更复杂的、多轮或情境性指令时具有更好的拓展性。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值