聊聊微调数据集的一点思考

基于垂直领域的数据,结合 LLM,微调训练模型;是除却 RAG 外比较常用的方式。但是微调数据集的准备,需要仔细的考虑;主要就是结合业务场景,从大类来看,要么是分类任务,要么是生成任务,或是两者的结合;这两类又可以继续的细分。数据集的准备需要以对应的 LLM 微调策略来定,但我个人觉得需要考虑的维度有:

  1. 业务场景所属的任务类别
  2. 数据集的输入与输出、提示词
  3. 是否需要考虑多轮对话的形式
  4. 数据集的大小

以如下三种数据集为例,简单的说一下其内容。

AdvertiseGen 数据集

AdvertiseGen 以商品网页的标签与文案的信息对应关系为基础构造,是典型的开放式生成任务,在模型基于 key-value 输入生成开放式文案时,与输入信息的事实一致性需要得到重点关注。 数据样例:

{
  "content""类型#上衣*材质#牛仔布*颜色#白色*风格#简约*图案#刺绣*衣样式#外套*衣款式#破洞",
  "summary""简约而不简单的牛仔外套,白色的衣身十分百搭。衣身多处有做旧破洞设计,打破单调乏味,增加一丝造型看点。衣身后背处有趣味刺绣装饰,丰富层次感,彰显别样时尚。"
}

summary是给定的文本,对应模型的输入;content是需要预测的文本,对应模型的输出。模型通过分析summary的文本,得到content的文本。

content的数据包含样式和样式的具体内容。款式与款式之间使用使用*来分割,款式与款式具体内容之间使用#号分割;其内容可以看作是分类,也可以看作是生成。

GuanacoDataset 数据集

这个数据集有两个特点:

  1. 多语言支持。支持中英文指令回复。
  2. alpaca 格式。

这个数据集支持指令(instruction)引导。数据样例如下:

[
  {
      "instruction""根据给定的坐标确定最近的机场。",
      "input""40.728157, -73.794853",
      "output""距给定坐标最近的机场是纽约市的拉瓜迪亚机场 (LGA)。"
  },
  {
     "instruction""输出不同种类水果的列表",
      "input""",
      "output""1. 苹果n2. 香蕉n3. 橘子n4. 芒果n5. 草莓n6. 葡萄n7. 蓝莓n8. 樱桃n9. 猕猴桃n10. 甜瓜n11.菠萝n12. 李子n13.桃子"
  },
  {
     "instruction""找出字串中隐藏的信息",
     "input""业余咖啡",
     "output""隐藏的消息是“咖啡因爱好者”。"
  }
 ]

instruction指令引导inputoutputoutput的根据instruction来输出,instruction引导总结input的输入。

Chinese medical dialogue data 数据集

GitHub 上的 Chinese-medical-dialogue-data 中文医疗对话数据集。包含多个维度的数据,而且比较齐全.聊聊微调数据集的一点思考打开 excel 数据集聊聊微调数据集的一点思考以如上两种数据格式为例,可以将中文医疗数据,按照 LLM 对应的微调方案调整格式。

比如,准备为 LlaMa2 微调指令格式:

[
  {
        "instruction""现在你是一个神经脑外科医生,请根据患者的问题给出建议:",
        "input""癫痫病能吃德巴金吗,错觉,有时候感觉看到的和听到的不太一样。",
        "output""巴金是广谱抗病药物,主要作用于中枢神经系统,对动物的药理研究发现德巴金对各种癫痫的实验模型(全身性和部分性)均有抗惊厥作用,对人的各种类型癫痫发作有抑制作用,作用机理可能与增加γ-氨基丁酸的浓度有关。 主要是治癫痫药物。建议在医生的知道下,用药,祝您身体早日康复。"
    },
    {
        "instruction""现在你是一个生殖医学科医生,请根据患者的问题给出建议:",
        "input""男性输精管堵塞的症状会出现什么,男性输精管堵塞的症状会出现什么?输精管堵塞的症状会有哪些?",
        "output""输精管堵塞的症状一n输精管道的先天性梗阻:先天性输精管缺如或闭塞、先天性附睾发育不良、附睾与睾丸不连接、先天性精囊缺如或射精管缺如。n输精管堵塞的症状二n输精管道的感染:这一输精管堵塞的症状有结核、淋病及血丝虫病,当结核杆菌侵及输精管壁,使输精管壁增厚,输精管变硬变粗,呈串珠状,病变可沿输精管蔓延到附睾尾,然后波及整个附睾和睾丸。球菌感染主要破坏附睾尾部,很少侵及附睾头,输精管也常常受累。丝虫病感染侵及输精管、附睾时,同样可造成其阻塞而不通。当感染侵及前列腺、精囊时,输精管道梗阻症状可表现"
    }
]

或是调整 ChatGLM 微调格式:

{
    "content":"癫痫病能吃德巴金吗,错觉,有时候感觉看到的和听到的不太一样。",
    "summary":"巴金是广谱抗病药物,主要作用于中枢神经系统,对动物的药理研究发现德巴金对各种癫痫的实验模型(全身性和部分性)均有抗惊厥作用,对人的各种类型癫痫发作有抑制作用,作用机理可能与增加γ-氨基丁酸的浓度有关。 主要是治癫痫药物。建议在医生的知道下,用药,祝您身体早日康复。"
}

总结

对于这些开源的数据集,其内容质量,都是比较高的;而对于垂直领域的个人/企业数据集,也是应该借鉴参考开源数据集的内容质量。

微调数据集的准备其直接依赖于 LLM 的微调策略;但数据集的内容质量,需要人工监督处理,且必须考虑具体业务场景的任务类别——问答、分类、序列生成等。

AdvertiseGen广告文案生成[1]

Llama2中文语料微调(附完整代码)[2]

基于第二代ChatGLM2微调训练医疗问答任务

参考资料
[1]

AdvertiseGen广告文案生成: https://zhuanlan.zhihu.com/p/584836589

[2]

Llama2中文语料微调(附完整代码): https://zhuanlan.zhihu.com/p/656690166


原文始发于微信公众号(阿郎小哥的随笔驿站):聊聊微调数据集的一点思考

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 举报,一经查实,本站将立刻删除。

文章由极客之音整理,本文链接:https://www.bmabk.com/index.php/post/244114.html

(0)
小半的头像小半

相关推荐

发表回复

登录后才能评论
极客之音——专业性很强的中文编程技术网站,欢迎收藏到浏览器,订阅我们!