LLM - 使用 LLaMA-Factory 微调 Qwen2-VL DPO(LoRA) 图像数据集教程 (3)

2024-12-29 分类：AI创作阅读(930)

欢迎关注我的CSDN：https://spike.blog.csdn.net/
本文地址：https://spike.blog.csdn.net/article/details/144068871

免责声明：本文来源于个人知识与公开资料，仅用于学术交流，欢迎讨论，不支持转载。

DPO(Direct Preference Optimization, 直接偏好优化) 是在 RLHF 阶段中使用的优化算法，通过直接利用人类的偏好数据来优化策略模型，无需定义明确的奖励函数或进行复杂的强化学习过程。DPO的优化目标是，增加偏好样本的对数概率与减小非偏好样本响应的对数概率，结合动态加权机制，以避免仅使用概率比目标时遇到的模型退化问题。

DPO 公式参考：

文章来源于互联网:LLM – 使用 LLaMA-Factory 微调 Qwen2-VL DPO(LoRA) 图像数据集教程 (3)

未经允许不得转载：5bei.cn大模型教程网 » LLM - 使用 LLaMA-Factory 微调 Qwen2-VL DPO(LoRA) 图像数据集教程 (3)

标签：ai LLM ps

AI大模型,我们的未来

小欢软考联系我们

LLM - 使用 LLaMA-Factory 微调 Qwen2-VL DPO(LoRA) 图像数据集教程 (3)

相关推荐

对比kimi、通义千问、文心一言的写代码能力

热门文章

AI大模型,我们的未来