简繁互换
设为首页
设为收藏
手机版
东南网 / 新闻频道 / 天下 / 社会(即时新闻) / 正文

直接生成16秒高清视频 我国自研视频大模型在京发布

2024-04-28 09:34 作者:魏梦佳 新华网 责任编辑:陈玮
摘要:只需一段文字指令就能生成一段逼真视频,今年初,文生视频大模型Sora在全球人工智能业内外引发广泛关注。清华大学人工智能研究院副院长、生数科技首席科学家朱军说,当前国内视频大模型的生成视频时长大多为4秒左右,Vidu则可实现一次性生成16秒的视频时长。

新华社北京4月27日电(记者魏梦佳)只需一段文字指令就能生成一段逼真视频,今年初,文生视频大模型Sora在全球人工智能业内外引发广泛关注。27日,2024中关村论坛年会上首次发布我国自研的具“长时长、高一致性、高动态性”特点的文生视频大模型Vidu。

记者从会上获悉,这一视频大模型由清华大学联合北京生数科技有限公司共同研发,可根据文本描述直接生成长达16秒、分辨率高达1080P的高清视频内容,不仅能模拟真实物理世界,还拥有丰富想象力。

清华大学人工智能研究院副院长、生数科技首席科学家朱军说,当前国内视频大模型的生成视频时长大多为4秒左右,Vidu则可实现一次性生成16秒的视频时长。同时,视频画面能保持连贯流畅,随着镜头移动,人物和场景在时间、空间中能保持高一致性。

在动态性方面,Vidu能生成复杂的动态镜头,不再局限于简单的推、拉、移等固定镜头,而是能在一段画面里实现远景、近景、中景、特写等不同镜头的切换,包括能直接生成长镜头、追焦、转场等效果。

“Vidu能模拟真实物理世界,生成细节复杂且符合物理规律的场景,例如合理的光影效果、细腻的人物表情等,还能创造出具有深度和复杂性的超现实主义内容。”朱军介绍,由于采用“一步到位”的生成方式,视频片段从头到尾连续生成,没有明显的插帧现象。

此外,Vidu还可生成如熊猫、龙等形象。

据悉,Vidu的技术突破源于团队在机器学习和多模态大模型方面的长期积累,其核心技术架构由团队早在2022年就提出并持续开展自主研发。“作为一款通用视觉模型,我们相信,Vidu未来能支持生成更加多样化、更长时长的视频内容,探索不同的生成任务,其灵活架构也将兼容更广泛的模态,进一步拓展多模态通用能力的边界。”朱军说。

关键词:高清视频,大模型,Vidu,视频片段,视频画面



本网转载内容出于更直观传递信息之目的。该内容版权归原作者所有,并不代表本网赞同其观点和对其真实性负责。如该内容涉及任何第三方合法权利,请点击投诉按钮,我们会及时反馈并处理完毕。
投诉
新闻中心
  • 快讯
  • 国内
  • 国际
  • 娱乐
  • 体育
点击加载更多>>>
点击加载更多>>>
点击加载更多>>>
点击加载更多>>>
点击加载更多>>>

关注东南网微信

扫码关注,了解福建

排行榜
  • 日排行
  • 周排行
  • 月排行
关于我们 | 广告服务 | 网站地图 | 网站公告
国新办发函[2001]232号 闽ICP备案号(闽ICP备05022042号) 互联网新闻信息服务许可证 编号:35120170001 网络文化经营许可证 闽网文〔2019〕3630-217号
信息网络传播视听节目许可(互联网视听节目服务/移动互联网视听节目服务)证号:1310572 广播电视节目制作经营许可证(闽)字第085号
网络出版服务许可证 (署)网出证(闽)字第018号 增值电信业务经营许可证 闽B2-20100029 互联网药品信息服务(闽)-经营性-2015-0001
福建日报报业集团拥有东南网采编人员所创作作品之版权,未经报业集团书面授权,不得转载、摘编或以其他方式使用和传播
职业道德监督、违法和不良信息举报电话:0591-87095151 举报邮箱:jubao@fjsen.com 福建省新闻道德委举报电话:0591-87275327 全国非法网络公关工商部门举报:010-88650507(白)010-68022771(夜)