LLMs之FineTuning：Alpaca格式/Vicuna的sharegpt 格式数据集简介、利用多种方式构造或转换指令微调格式数据集实战——利用LLaMA-Factory框架的dataset

文章目录 隐藏

T1、Alpaca 格式数据集(问题-答复)：instruction-input-output-system-history

LLMs之FineTuning：常用指令微调格式数据集的简介(Alpaca格式/Vicuna的sharegpt 格式)、利用多种方式构造或转换指令微调格式数据集实战——利用LLaMA-Factory框架的dataset_info.json 中通过指定 --dataset dataset_name 参数实现alpaca 格式/sharegpt 格式数据集及各部分字段的对应关系→以便正确读取和利用数据集内容训练模型

常用指令微调格式数据集的简介

T1、Alpaca 格式数据集(问题-答复)：instruction-input-output-system-history

预训练数据集，仅使用prompt 列进行训练

偏好对齐数据集：instruction—input—output—ranking？

T2、Vicuna的sharegpt 格式(用户-模型)：支持单轮对话、多轮对话、函数调用等功能扩展

指令微调数据集：conversations[from—human/gpt—value]

利用sharegpt.py将conversations[human—human]格式转换为conversations[from—human/gpt—value]格式数据

工具微调数据集：conversations[from—human/gpt—value]——system——tools

综合实战

Python代码实现

LLMs之ChatGLM3：ChatGLM3源码解读(format_advertise_gen.py)——实现将AdvertiseGen训练数据文件(解析JSON格式)转换为一个适合于文本生成模型的格式文件(清晰分隔输入和输出文本，prompt-response)

LLMs之ChatGLM3：基于AutoDL云服务器利用自定义json格式指令数据集(或官方AdvertiseGen)+数据格式转换(3元组转2元组)对ChatGLM3训练(P-Tuning v2微调)+推理的案例实战

GUI界面的形式点击实现

LLaMA-Factory框架中如何在 dataset_info.json 中通过指定 –dataset dataset_name 参数→实现自定义alpaca 格式/sharegpt 格式数据集及各部分字段的对应关系→以便正确读取和利用数据集内容训练模型

常用指令微调格式数据集的简介

T1、Alpaca 格式数据集(问题-答复)：instruction-input-output-system-history

alpaca 格式的数据集应遵循以下格式，并在dataset_info.json 中的columns应如下设置。query 列将与prompt 列拼接，作为用户提示，那么用户提示将是 promptn query。response 列代表模型响

文章来源于互联网:LLMs之FineTuning：Alpaca格式/Vicuna的sharegpt 格式数据集简介、利用多种方式构造或转换指令微调格式数据集实战——利用LLaMA-Factory框架的dataset_i

相关推荐: 不用联网就能用上大模型！英特尔给出 AI PC 最佳答案

从去年年底开始，AI PC 这个词就频繁地出现在我们的视野里。想当年，个人电脑刚问世的时候，大多数人只是觉得它是个高级算盘或者精确尺子，没想到它会变得像今天这样智能。而说到 AI PC，这个概念其实是英特尔 CEO 帕特・基辛格率先提出来的。前段时间英特尔也…

LLMs之FineTuning：Alpaca格式/Vicuna的sharegpt 格式数据集简介、利用多种方式构造或转换指令微调格式数据集实战——利用LLaMA-Factory框架的dataset_i

常用指令微调格式数据集的简介

T1、Alpaca 格式数据集(问题-答复)：instruction-input-output-system-history

相关推荐

对比kimi、通义千问、文心一言的写代码能力

热门文章

AI大模型,我们的未来