-
08-19 12:20...CTO鲍凡是唐家渝同门师兄、朱军的课题组成员。去年6月至8月,生数科技连续完成两轮融资,累计获得上亿元。今年6月,哈勃斥资入股,参与其A+轮融资。面壁智能的成长路径类似。其联合创始人刘知远,是清华大学计算机系博导,研究方向为计算机自然语言处理;公司CTO曾国洋,今年26岁,是竞赛保送生,大二就进入清华自然语言处理实验室... 0
-
08-04 22:00...图为根据文字描述用Vidu生成的视频画面。(受访者供图)Vidu由清华大学联合北京生数科技有限公司共同研发,于今年4月在2024中关村论坛年会上首次发布。清华大学人工智能研究院副院长、北京生数科技首席科学家朱军介绍,Vidu具有“长时长、高一致性、高动态性”的特点,可根据文字和图片生成高清视频,且能保持高流畅、高动态的... 0
-
08-02 02:30...我国自主研发的通用视频大模型Vidu(www.vidu.studio)面向全球正式上线。据悉,这款视频大模型开放文生视频、图生视频两大核心功能,提供4秒和8秒两种时长选择,分辨率最高达1080P,生成一段4秒的视频片段经实测仅需30秒。Vidu由清华大学联合北京生数科技有限公司共同研发,于今年4月在2024中关村论坛年... 1
-
07-24 02:50...同时提供视频延长功能,可基于已生成的视频一次延长5秒。6月17日,Runway发布新一代模型Gen-3Alpha版本,并于7月2日面向所有用户付费开放,订阅费最低为每月15美元。Gen-3目前支持基于文本生成5秒、10秒长度的视频,图生视频以及其他可控工具暂未开放。▲Gen-3Alpha生成视频效果7月6日,智象未来(... 0
-
07-09 11:00...锦秋基金独家投资了生数科技数千万元天使+轮融资,此轮融资将主要用于算法研发、产品开发和团队扩充。2024年3月12日,生数科技完成了又一轮融资,此轮融资由启明创投领投,达泰资本、鸿福厚德、智谱AI、老股东BV百度风投和卓源亚洲继续跟投。事实上,今年6月份初,生数科技刚刚对外披露称,生数科技完成数亿元Pre-A轮融资,该... 0
-
06-06 10:50...性能全面对标国际顶尖水平。这也是Sora发布以来,多模态大模型领域在全球范围内的又一重大技术突破。据了解,生数科技在2022年提出全球首个Diffusion与Transformer融合架构U-ViT,并在半年后再次取得重大突破,开源全球首个基于此融合架构的多模态扩散模型UniDiffuser,成功验证了大规模训练融合架... 1
-
-
05-08 18:30...包括可以模拟真实物理世界、具有想象力、可以理解多镜头语言而不再是简单的镜头推拉、可以一键生成长达16秒的视频、人物场景时间保持高度一致性、可以理解中国元素”。当时,清华大学教授、生数科技首席科学家朱军介绍称。对于外界最关心的,Vidu和Sora的对比,朱军也在现场做出了展示,比如Sora在视频生成过程中丢掉了“旋转”这... 2
-
05-05 07:10...在当天的论坛上,清华大学教授、生数科技首席科学家朱军表示,与Sora一致,Vidu能够根据提供的文本描述直接生成长达16秒的高质量视频。除了在时长方面的突破外,Vidu在视频效果方面实现显著提升,主要体现在模拟真实物理世界、多镜头语言、时空一致性高、理解中国元素等方面。“值得一提的是,Vidu采用的是‘一步到位’的生成... 2
-
05-01 18:50...只需一段文字指令就能生成一段逼真视频,今年初,文生视频大模型Sora在全球人工智能业内外引发广泛关注。27日,2024中关村论坛年会上首次发布我国自研的具“长时长、高一致性、高动态性”特点的文生视频大模型Vidu。记者从会上获悉,这一视频大模型由清华大学联合北京生数科技有限公司共同研发,可根据文本描述直接生成长达16秒... 2
-
04-29 21:50...2024中关村论坛年会上首次发布我国自研的具“长时长、高一致性、高动态性”特点的文生视频大模型Vidu。记者从会上获悉,这一视频大模型由清华大学联合北京生数科技有限公司共同研发,可根据文本描述直接生成长达16秒、分辨率高达1080P的高清视频内容,不仅能模拟真实物理世界,还拥有丰富想象力。清华大学人工智能研究院副院长、... 2
-
04-29 01:50...与此前震撼业界的Sora一样,Vidu能够根据文本描述直接生成高质量视频。“长时长、高一致性、高动态性”是Vidu的显著特征。朱军表示,研发团队的核心技术在于采用U-ViT架构。它由Diffusion与Transformer两个模型融合而来,可支持一键生成长达16秒的高清视频内容。除了在时长方面优势突出,Vidu在视频... 4
-
04-29 01:40...联合清华大学正式发布了我国首个长时长、高一致性、高动态性视频大模型——Vidu。据介绍,Vidu采用研发团队原创的架构U-ViT,支持一键生成长达16秒、分辨率高达1080P的高清视频内容,不仅能模拟真实物理世界,还拥有丰富想象力,具备多镜头生成、时空一致性高等特点。与Sora一致,Vidu能根据文本描述直接生成长达1... 1
-
-
04-29 00:00...可根据文本描述直接生成长达16秒、分辨率高达1080P的高清视频内容,不仅能模拟真实物理世界,还拥有丰富想象力。清华大学人工智能研究院副院长、生数科技首席科学家朱军说,当前国内视频大模型的生成视频时长大多为4秒左右,Vidu则可实现一次性生成16秒的视频时长。同时,视频画面能保持连贯流畅,随着镜头移动,人物和场景在时间... 1
-
04-28 18:50...记者从会上获悉,这一视频大模型由清华大学联合北京生数科技有限公司共同研发,可根据文本描述直接生成长达16秒、分辨率高达1080P的高清视频内容,不仅能模拟真实物理世界,还拥有丰富想象力。清华大学人工智能研究院副院长、生数科技首席科学家朱军说,当前国内视频大模型的生成视频时长大多为4秒左右,Vidu则可实现一次性生成16... 2
-
04-27 11:30...该模型采用团队原创的Diffusion与Transformer融合的架构U-ViT,支持一键生成长达16秒、分辨率高达1080P的高清视频内容。根据现场演示的效果,Vidu能够模拟真实的物理世界,能够生成细节复杂、并且符合真实物理规律的场景,例如合理的光影效果、细腻的人物表情等。它还具有丰富的想象力,能够生成真实世界不... 0
-
04-27 10:50...除了在时长方面的突破外,Vidu在视频效果方面实现显著提升,主要体现在几个方面:第一、模拟真实物理世界:能够生成细节复杂的场景,且符合真实的物理规律,例如合理的光影效果、细腻的人物表情等;第二、具有丰富想象力:能够生成真实世界不存在的虚构画面,创造出具有深度和复杂性的超现实主义内容;第三、多镜头语言:能够生成复杂的动态... 3
-
04-05 23:10...、布尔向量(boolv.video)和MewXAI(艺映AI)。这一类数量更多,也更加产品化,专注于解决某一类场景下的问题,更像是一个AIGC的在线编辑平台。我们的测试和评比通过三个部分组成,分别是使用门槛,基础产品功能和内容生成能力。首先是使用门槛。我们测试的8款产品,都已经支持通过网站使用产品(许多创业公司产品只能... 0
-
03-16 10:40...所谓DiffusionTransformer,是指在DiffusionModel(扩散模型)中,用Transformer替换常用的U-Net,将Transformer的可扩展性与Diffusion模型处理视觉数据的天然优势进行融合,能在视觉任务下展现出卓越的智能涌现能力。据了解,DiT架构由伯克利团队于2022年12月... 0
-
-
03-14 17:20...A100、A800的卡可能要上万张。资源投入的压力,让团队并没有立刻投入长视频生成的训练。如今长视频生成的路径,已经被OpenAI验证,生数科技决定提高突破长视频能力的优先级。生数团队对多模态模型的探索最早开始于2013年。在清华实验室阶段,团队早期成员就开始了生成式模型理论基础、高效学习和推理算法,以及音乐生成、人脸... 0
-
03-14 03:50...长视频生成需要高昂的入场费,A100、A800的卡可能要上万张。资源投入的压力,让团队并没有立刻投入长视频生成的训练。如今长视频生成的路径,已经被OpenAI验证,生数科技决定提高突破长视频能力的优先级。生数团队对多模态模型的探索最早开始于2013年。在清华实验室阶段,团队早期成员就开始了生成式模型理论基础、高效学习和... 0
-
03-13 04:00...在2022年9月生数科技创始成员也提出了基于Transformer的网络架构U-ViT,这与Sora在架构思路与实践路径上完全一致。值得一提的是,CVPR2023曾因“缺少创新性”将DiT拒稿,而选择收录了U-ViT。生数科技在2023年3月开源的自主研发的UniDiffuser模型同样采用了Transformer+D... 15
-
-
-
本页Url:
-
2024-11-12-20:53 GMT . 添加到桌面浏览更方便.
-