[新闻] 腾讯混元大模型正式上线视频生成能力| 数博会官网

腾讯混元大模型正式上线视频生成能力

作者: 宋 婧    来源: 中国电子报   编辑: 杨小婷  时间:2024-12-10 13:32:42  

  近日,腾讯宣布混元大模型正式上线视频生成能力,这是继文生文、文生3D生成之后的又一新里程碑。“用户只需要输入一段描述,即可生成视频。”腾讯混元相关负责人透露,目前的生成视频支持中英文双语输入、多种视频尺寸以及多种视频清晰度。该模型已上线腾讯元宝APP,用户可在AI应用中的“AI视频”板块申请试用。企业客户通过腾讯云提供服务接入,目前API同步开放内测申请。据悉,该视频生成大模型现已开源,参数量达130亿。

  据悉,腾讯混元视频生成大模型可以实现超写实画质、生成高度符合提示词的视频画面,画面流畅不易变形。比如,在冲浪、跳舞等大幅度运动画面的生成中,腾讯混元可以生成非常流畅、合理的运动镜头,物体不易出现变形;光影反射基本符合物理规律,在镜面或者照镜子场景中,可以做到镜面内外动作一致。同时,模型还可以实现在画面主角保持不变的情况下自动切镜头,这是业界大部分模型所不具备的能力。

  从技术创新性来看,混元视频生成模型采用了基于跟Sora类似的DiT架构,并在架构设计上进行多处升级,能够适配新一代文本编码器提升语义遵循,其具备强大的语义跟随能力,更好地应对多个主体描绘,实现更加细致的指令和画面呈现;采用统一的全注意力机制,使得每帧视频的衔接更为流畅,并能实现主体一致的多视角镜头切换;通过先进的图像视频混合VAE(3D变分编码器),让模型在细节表现有明显提升,特别是小人脸、高速镜头等场景。

  从视频生成效果来看,腾讯混元视频生成模型画面具备高质感,可用于工业级商业场景例如广告宣传、动画制作、创意视频生成等场景。此前,《人民日报》、央视网、新华社、《21世纪经济报道》、重庆卫视、《羊城晚报》、《南方都市报》等多家媒体,已经率先将腾讯混元视频生成能力用于创意视频制作,制作了《江山如此多娇》《山水之间》等多部优秀作品。

  目前,腾讯宣布开源该视频生成大模型已在HuggingFace平台及Github上发布,包含模型权重、推理代码、模型算法等完整模型,可供企业与个人开发者免费使用和开发生态插件。基于腾讯混元的开源模型,开发者及企业无须从头训练,即可直接用于推理,并可基于腾讯混元系列打造专属应用及服务,能够节约大量人力及算力。