视频生成模型 Zeroscope开源 免费无水印
据huggingface页面显示,一款名为Zeroscope_v2_576w的视频生成模型现已
站长之家 2023-06-26 11:46:53
站长之家(ChinaZ.com)6月26日 消息:据huggingface 页面显示,一款名为 Zeroscope_v2_576w 的视频生成模型现已开源。
Zeroscope_v2_576w 基于 Modelscope 打造,是一个具有17亿个参数的多级文本到视频扩散模型。它根据文本描述生成视频内容。并且提供更高的分辨率,没有 Shutterstock 水印,并且宽高比更接近16:9。
(资料图片仅供参考)
Zeroscope 具有两个组件: Zeroscope_v2567w,专为以576x320像素的分辨率快速创建内容以探索视频概念而设计。然后可以使用 Zeroscope_v2XL 将优质视频升级到1024x576的“高清”分辨率。
对于视频生成,该模型需要7.9GB 的 VRam(分辨率为576x320像素、帧速率为每秒30帧)和15.3GB 的 VRam(分辨率为1024x576像素、帧速率为每秒)。因此,较小的型号应该可以在许多标准显卡上运行。
Zeroscope 的训练涉及将偏移噪声应用于9,923个剪辑和29,769个标记帧,每个帧包含24帧。偏移噪声可能涉及视频帧内对象的随机移动、帧时序的轻微变化或轻微的失真。
训练期间引入的噪声增强了模型对数据分布的理解。因此,该模型可以生成更多样化的真实视频,并更有效地解释文本描述的变化。
根据拥有 Modelscope 经验的 Zeroscope 开发者“Cerspense”的说法,用24GB VRam 微调模型并不“超级困难”。他在微调过程中删除了 Modelscope 水印。
他将自己的模型描述为“旨在挑战 Gen-2”,即 Runway ML 提供的商业文本到视频模型。根据 Cespense 的说法,Zerscope 完全免费供公众使用。
目前,文本到视频仍处于起步阶段。人工智能生成的剪辑通常只有几秒钟长,并且存在许多视觉缺陷。然而,图像人工智能模型最初面临类似的问题,但在几个月内就实现了照片级真实感。但与这些模型不同的是,视频生成无论是训练还是生成都需要消耗更多的资源。
谷歌已经推出了Phenaki 和 Imagen Video,这两种文本到视频模型能够生成高分辨率、更长、逻辑连贯的剪辑,尽管它们尚未发布。Meta 的Make-a-Video(文本转视频模型)也尚未发布。
目前,只有Runway 的 Gen-2已商用,并且现已在 iPhone 上提供。Zeroscope 标志着第一个高质量开源模型的出现。
据huggingface页面显示,一款名为Zeroscope_v2_576w的视频生成模型现已
IT之家6月26日消息,据日本经济新闻报道,日本经产省与荷兰经济事务和
欢喜斗地主可以联机。这是一款备受欢迎的扑克牌类游戏,具有激烈的竞争
6月25日,据香港电台网站消息,香港特区政府财政司司长陈茂波表示,香
全球首个火电行业节水ISO国际标准批准立项2023年6月20日,由华电郑州机
每经AI快讯,据抚顺特钢官方公众号,经过1个多月时间的紧张施工,日前
1、揭阳市棱锐电子商务有限公司于2017年02月28日成立。2、。本文到此分
6月24日,航拍济南东部国道309章丘区东段,工人们操纵机械铺设沥青路面
想要消除鱼尾纹,仅仅使用眼霜是不够的。事实上,消除鱼尾纹需要一系列
酱香型白酒的储存也是其优势之一,酒体中含有丰富的微量元素和活性成分
中国石油天然气集团有限公司原党组副书记、副总经理徐文荣涉嫌严重违纪
新华社北京6月24日电(记者李恒)近期,全国多地连续发布高温预警,部
财通证券06月25日发布研报称,给予中国铁建(601186 SH,最新价:9 79
动物使用称为信息素的化学物质来相互交流、吸引配偶、标记领地和发出危
周日(6月25日)亚盘,美元 日元最新价报143 74,开盘价为143 09。由于