不想“闭门造车”,腾讯混元开源130亿参数视频
发布时间:2024-12-12 16:59
自往年2月OpenAI的Sora初次公然展现以来,视频天生阅历了从备受等待到遭遇质疑的进程。在这大概10个月里,Sora迟迟未开放给大众应用,海内百川智能开创人兼CEO王小川则基于AI的道路断定 “摁逝世”了公司跟进Sora的主意,另一些互联网年夜厂跟年夜模子创业公司还在连续跟进推出视频天生模子,但对外的发声亮相也渐趋沉着。12月3日,腾讯混元年夜模子上线了视频天生才能,并开源了这个参数目130亿的视频天生年夜模子HunYuan-Vieo。据称该模子是业界参数最年夜的开源视频模子,可天生5秒视频。据混元团队颁布的文生视频模子后果评价,混元视频天生模子总体评分41.3%,高于未公然称号的海内模子A跟B以及海内的GEN-3 alpha跟Luma1.6。这项评价参照连续时光、文本对齐、活动品质、视觉品质多少个维度,表现五个模子评分都不高,最低的Luma1.6评分仅24.8%。接收第一财经等媒体采访时,腾讯混元多模态天生技巧担任人凯撒直言,文生视频还不处于很成熟的阶段,各模子胜利率都不高,至少文生视频的技巧水平在混元外部的评价中,还不到年夜范围贸易化的水平,而是在技巧打磨阶段。从开源生态看,凯撒以为,当初视频天生开源生态也不是很成气象,最年夜的成绩是开源的视频天生底模(基底模子)跟闭源差距太年夜。当初视频天生所需的算力、数据耗费量跟图像天生比拟是数目级的差距,业内不太想把本人花年夜本钱做出来的模子开源出来。在这种凭空捏造的情形下,最好的模子良多人也不用起来,于是混元开源了本人的视频天生模子。记者用混元年夜模子视频天生功效分辨天生“三只黑猫在雪中游玩,留下足迹”“三只黑猫在雪中追赶,留下足迹”跟“一只戴着黄色领巾的企鹅在故宫门口吃冰糖葫芦”的视频。第一个视频天生三只黑猫在雪中,不天生显明的足迹,但黑猫主体完全,脚踩在坑洼不平的雪地上时发生了畸形的视线遮挡。第二个视频中,猫在雪地上踩出坑,有与物理情况的实在互动,但有两只黑猫融会成了一只。第三个视频场景准确且外相清楚,但冰糖葫芦会本人挪动。记者此前实验应用过一些主流的收费视频天生模子也发明,良多模子已能做到画面精致实在,但活动法则或物理法则还不克不及很好表现。从文生视频的详细难点看,凯撒告知记者,对照文生图模子一次出一张图,这个视频天生模子要天生129帧画面,每一帧都准确十分难。视频天生算力会跟着时光延伸而呈平方级回升,且时长越长,画面退化越重大,业界现在主流都是五六秒。假如类比文生图模子,当初视频天生的程度就像两年前SD(Stable Diffusion)还没面世时的程度。别的,视频模子无奈充足实在地模仿天下的物理法则,比方失落下的杯子不碎,要转变这一点,背地波及难度十分年夜的数据处置、荡涤以及物理法则引入任务,后续混元将给视频模子引入实在天下的常识。别的,记者懂得到,视频天生模子的技巧门路也还未完整清楚。凯撒表现,业界此前未解答“Scaling Law(缩放定律)在视频范畴存不存在”的成绩,混元只能重新做,把视频的Scaling Law走了一遍,验证图像跟视频DiT(Diffusion with Transformer,两者融会)也存在Scaling Law,后续Scaling Law还会进一步往下走。业内其余厂商也对视频天生模子的停顿跟难点提出了新断定。11月,生数科技宣布Vidu 1.5版本,优化多主体分歧性、高低文影象方面表示。随后生数科技结合开创人鲍凡称,对于Scaling Law能否“撞墙”,业内不尺度谜底,存在Scaling Law从数学实践上“撞墙”的可能,业内也在寻觅新方式。架构上,业内架构已在一边收敛一边翻新,此前业内有自回归跟融会的架构之争,现实后果表现Diffusion跟Transformer融会架构更优,于是包含OpenAI等公司都在顺延采取这种构造,同时业内也摸索在新方式,比方处理DiT处置高低文才能完善的成绩。而Vidu1.5的推出已标明这种Diffusion跟Transformer的架构并非最优,接上去架构道路可能进一步伐整。   申明:新浪网独家稿件,未经受权制止转载。 -->