AI大模型教程
一起来学习

LLMs之FineTuning:Alpaca格式/Vicuna的sharegpt 格式数据集简介、利用多种方式构造或转换指令微调格式数据集实战——利用LLaMA-Factory框架的dataset_i

LLMs之FineTuning:常用指令微调格式数据集的简介(Alpaca格式/Vicuna的sharegpt 格式)、利用多种方式构造或转换指令微调格式数据集实战——利用LLaMA-Factory框架的dataset_info.json 中通过指定 --dataset dataset_name 参数实现alpaca 格式/sharegpt 格式数据集及各部分字段的对应关系→以便正确读取和利用数据集内容训练模型

目录

常用指令微调格式数据集的简介

T1、Alpaca 格式数据集(问题-答复):instruction-input-output-system-history

预训练数据集,仅使用prompt 列进行训练

偏好对齐数据集:instruction—input—output—ranking?

T2、Vicuna的sharegpt 格式(用户-模型):支持单轮对话、多轮对话、函数调用等功能扩展

指令微调数据集:conversations[from—human/gpt—value]

利用sharegpt.py将conversations[human—human]格式转换为conversations[from—human/gpt—value]格式数据

工具微调数据集:conversations[from—human/gpt—value]——system——tools

综合实战

Python代码实现

 LLMs之ChatGLM3:ChatGLM3源码解读(format_advertise_gen.py)——实现将AdvertiseGen训练数据文件(解析JSON格式)转换为一个适合于文本生成模型的格式文件(清晰分隔输入和输出文本,prompt-response)

LLMs之ChatGLM3:基于AutoDL云服务器利用自定义json格式指令数据集(或官方AdvertiseGen)+数据格式转换(3元组转2元组)对ChatGLM3训练(P-Tuning v2微调)+推理的案例实战

GUI界面的形式点击实现

LLaMA-Factory框架中如何在 dataset_info.json 中通过指定 –dataset dataset_name 参数→实现自定义alpaca 格式/sharegpt 格式数据集及各部分字段的对应关系→以便正确读取和利用数据集内容训练模型


常用指令微调格式数据集的简介

T1、Alpaca 格式数据集(问题-答复):instruction-input-output-system-history

alpaca 格式的数据集应遵循以下格式,并在dataset_info.json 中的columns应如下设置。query 列将与prompt 列拼接,作为用户提示,那么用户提示将是 promptn query。response 列代表模型响

文章来源于互联网:LLMs之FineTuning:Alpaca格式/Vicuna的sharegpt 格式数据集简介、利用多种方式构造或转换指令微调格式数据集实战——利用LLaMA-Factory框架的dataset_i

相关推荐: 不用联网就能用上大模型!英特尔给出 AI PC 最佳答案

从去年年底开始,AI PC 这个词就频繁地出现在我们的视野里。想当年,个人电脑刚问世的时候,大多数人只是觉得它是个高级算盘或者精确尺子,没想到它会变得像今天这样智能。 而说到 AI PC,这个概念其实是英特尔 CEO 帕特・基辛格率先提出来的。前段时间英特尔也…

赞(0)
未经允许不得转载:5bei.cn大模型教程网 » LLMs之FineTuning:Alpaca格式/Vicuna的sharegpt 格式数据集简介、利用多种方式构造或转换指令微调格式数据集实战——利用LLaMA-Factory框架的dataset_i
分享到: 更多 (0)

AI大模型,我们的未来

小欢软考联系我们