目录
数据处理

先用 PySceneDetect进行视频切割,然后用拉普拉斯算子去找到一个清晰的帧作为每个视频片段的第一帧。然后用VideoCLIP去提取视频的embedding。用embedding可以进行视频的相似性检验以及进行k-means的聚类。
在数据过滤中,生成了5个阶段的训练数据,每个阶段的训练数据大致是用了下面这些过滤方式,最后一节段段数据是人工打标的。数据从最开始的256*256*65到最后的720*1280*129。最后一阶段,人工打标了100w数据。
进一步我们使用Dover从美学和技术角度评估视频剪辑的视觉美感。此外,我们训练了一个模型来确定清晰度,并
5bei.cn大模型教程网










