腾讯多媒体实验室AIGC能力助力数据万象开启智能剪辑大门
AIGC正从效率、质量、创意、多样性各方面革新内容生产流程,伴随firely、midjourney等现象级的产品出现,AIGC将逐步广泛服务于内容生产的各类场景与内容生产者,随着AIGC在内容生产的需求场景不断增加,腾讯多媒体实验室也在AIGC领域持续发力,并通过数据万象将能力成功应用到传媒、社交、文娱等多个行业,逐步夯实全场景内容生产力。 足球精彩集锦 数据万象泛互与传媒客户拥有不小体量的体育视频数据处理需求,尤其是赛事期间,足球赛事作为最受欢迎的体育赛事内容消费量一直居高不下,球迷对其内容的可观赏性要求也颇高,由于时长问题,未经剪辑的足球比赛不能直接投放到体育新闻、短视频等场景用于赛事宣传。为此,腾讯多媒体实验室基于自研的AIGC系列技术,通过腾讯云数据万象产品为广大客户带来足球比赛的智能剪辑能力,在没有人工剪辑参与的情况下自动生成赛事高光内容。 技术介绍 数据方面,腾讯多媒体实验室采集了1200多场具有代表性的足球赛事并标注了高精度的数据集。数据集覆盖各类著名联赛和杯赛,累计600多个小时。同时,腾讯多媒体实验室设置了19个关键事类别,针对每一段视频准确标注出全部关键事件的起始点、结束点和对应类别。关键事件分布如下图,基本可以反映真实比赛的数据分布。
【数据集关键事件分布】 算法方面,腾讯多媒体实验室设计了一个基于智能拆条和进球检测的多模态方案来完成智能剪辑。
【多模态智能剪辑方案】 智能拆条模块基于视频的图像序列和音频信息,通过子任务抽取多模态特征,再由事件检测模型定位各类关键事件。针对单帧图像、音频信息、图像序列,腾讯多媒体实验室基于事件标签有监督地训练了三个特征提取器,用于提取图片、声音、动作等多模态特征。
事件检测模型接受由时序卷积编码再拼接的多模态融合特征作为输入,评估各个时刻属于事件开始、结束、过程的概率,并由此构建候选区间和对应的时序特征。候选区间评估阶段利用时序特征评估对应区间与真实事件区间的交并比,进而实现事件定位。最后结合子任务阶段获取的事件标签以及后处理算法就可以得到准确的事件拆条结果。
【事件检测模型】 智能拆条的效果指标mAP达到了82%,其中定位球和回放等事件的对应指标更是达到90%以上。
【运动战精彩集锦示例】 进球检测模块通过判断比分变化情况来对进球事件作补充。在上述方案中,进球事件的召回率并不高,原因是腾讯多媒体实验室并没有充分利用视频里的比分信息,最直观的解决办法是利用比分信息帮助判断当前的进球情况。在实际应用中,进球检测模块针对视频帧序列检测出比分牌位置,然后适当扩大边缘后再做文字检测获取当前帧比分数位置,通过多帧聚类得到当前比赛的比分数位置,最后利用文字识别技术获得比分序列,根据比分单边递增规则确认进球时刻。
【进球检测模块】 进球检测模块将进球事件的召回率提高到96%,提高了集锦的完整性和精彩程度。
【进球精彩集锦示例】 在足球场景的智能剪辑方案中,腾讯多媒体实验室还新增了球星识别模块,用于剪辑特定球星片段。该模块通过使用人脸检测算法定位视频中的所有人脸,然后使用人脸识别模型编码人脸特征,通过聚类算法得到相似人脸序列,最后在球星人脸数据库中查找与之匹配的球星。目前腾讯多媒体实验室的方案可识别500多位人气球星。 现该功能已在数据万象多个体育客户案例中落地,日均处理量持续攀升,大幅提升数据万象客户赛事周边后期生产速率。 影视精彩集锦 除了体育,自研的智能剪辑还支持电视剧、动漫等影视场景,可以根据用户指定的人物、动作、情感、关键词等信息自动生成所需集锦视频。 以人物向为例,用户只需要提供2~3张某个人物的照片,系统便可注册对应人物,剪辑时指定需要剪辑的角色(或列表)即可生成人物集锦。再搭配音乐卡点,上热门妥妥的!
【人物向集锦】 线索集锦方面,用户可以根据剧情内容指定某个关键词作为线索,系统将自动检索剧集中与此相关的内容,并生成关键词集锦,打造全网最清晰的故事线。
【线索词集锦】 现该功能已获得数据万象体验馆、智能工具箱、控制台中超高点击率,吸引众多用户关注使用,此场景能够根据用户需求灵活调整集锦所需关键动作、人物等,欢迎各位用户前往测试。 未来,腾讯多媒体实验室将持续投入包括智能剪辑在内的AIGC核心能力建设,数据万象负责人叶嘉梁表示道数据万象将借助多媒体实验室在底层 AI 算法多年的积累和建设,结合自身对行业和业务的理解,快速上线了能够帮助客户业务实现智能内容生产的能力,丰富的算法也让业务具备更好的多样性和灵活性。您可以前往数据万象进行相关能力体验,对存储在对象存储COS上的数据进行创作。数据万象将持续携手多媒体实验室为广大客户提供视频自动剪辑、智能作曲、音乐评分等更多智能化服务,提升内容生产和创作效率。 更多演示内容,可参见公众号“腾讯多媒体实验室”。 |