AI大模型教程
一起来学习

LLM - 使用 LLaMA-Factory 微调 Qwen2-VL DPO(LoRA) 图像数据集 教程 (3)

欢迎关注我的CSDN:https://spike.blog.csdn.net/
本文地址:https://spike.blog.csdn.net/article/details/144068871

免责声明:本文来源于个人知识与公开资料,仅用于学术交流,欢迎讨论,不支持转载。


DPO(Direct Preference Optimization, 直接偏好优化) 是在 RLHF 阶段中使用的优化算法,通过直接利用人类的偏好数据来优化策略模型,无需定义明确的奖励函数或进行复杂的强化学习过程。DPO的优化目标是,增加偏好样本的对数概率与减小非偏好样本响应的对数概率,结合动态加权机制,以避免仅使用概率比目标时遇到的模型退化问题。

DPO 公式参考:

文章来源于互联网:LLM – 使用 LLaMA-Factory 微调 Qwen2-VL DPO(LoRA) 图像数据集 教程 (3)

赞(0)
未经允许不得转载:5bei.cn大模型教程网 » LLM - 使用 LLaMA-Factory 微调 Qwen2-VL DPO(LoRA) 图像数据集 教程 (3)
分享到: 更多 (0)

AI大模型,我们的未来

小欢软考联系我们