AI大模型教程
一起来学习

每日AIGC最新进展(75):腾讯混元发布最强开源视频生成模型HuanyuanVideo

Diffusion models代码解读:入门与实战

目录

数据处理

数据池

数据caption

相机运动标注

重头训练VAE

五个阶段训练


数据处理

先用 PySceneDetect进行视频切割,然后用拉普拉斯算子去找到一个清晰的帧作为每个视频片段的第一帧。然后用VideoCLIP去提取视频的embedding。用embedding可以进行视频的相似性检验以及进行k-means的聚类。

在数据过滤中,生成了5个阶段的训练数据,每个阶段的训练数据大致是用了下面这些过滤方式,最后一节段段数据是人工打标的。数据从最开始的256*256*65到最后的720*1280*129。最后一阶段,人工打标了100w数据。

进一步我们使用Dover从美学和技术角度评估视频剪辑的视觉美感。此外,我们训练了一个模型来确定清晰度,并

文章来源于互联网:每日AIGC最新进展(75):腾讯混元发布最强开源视频生成模型HuanyuanVideo

赞(0)
未经允许不得转载:5bei.cn大模型教程网 » 每日AIGC最新进展(75):腾讯混元发布最强开源视频生成模型HuanyuanVideo
分享到: 更多 (0)

AI大模型,我们的未来

小欢软考联系我们