您可能不了解 Viggle AI,但您可能见过它制作的病毒式表情包。这家加拿大 AI 初创公司负责制作数十个视频,混录了说唱歌手 Lil Yachty 在夏季音乐节舞台上蹦蹦跳跳的场景。在一个视频中,Lil Yachty 被Joaquins Phoenixs the Joker取代。在另一个视频中,Jesus 似乎在为人群鼓劲。用户制作了无数个版本的这一个视频,但一家 AI 初创公司为这些表情包提供了素材。Viggle 的首席执行官表示,YouTube 视频为其 AI 模型提供了素材。
Viggle 训练了一个 3D 视频基础模型 JST-1,使其“真正理解物理”,该公司在新闻稿中声称。Viggle 首席执行官 Hang Chu 表示,Viggle 与其他 AI 视频模型之间的主要不同之处在于,Viggle 允许用户指定他们盼望角色采取的动作。其他 AI 视频模型通常会创建不切实际的角色动作,这些动作不符合物理定律,但 Chu 声称 Viggle 的模型有所不同。
“我们本质上是在构建一种新型的图形引擎,但纯粹使用神经网络,”Chu 在接受媒体采访时表示。“该模型本身与现有的视频生成器有很大不同,现有的视频生成器主要基于像素,并不真正了解物理结构和属性。我们的模型旨在理解这些,这就是为什么它在可控性和生成效率方面要好得多。”
例如,要制作小丑扮演 Lil Yachty 的视频,只需上传原始视频(Lil Yachty 在舞台上跳舞)和角色(小丑)做出该动作的图像。或者,用户都能够上传角色图像以及文字提示,并附上怎么来制作动画的说明。作为第三种选择,Viggle 允许用户仅使用文字提示从头开始创建动画角色。
但表情包只占 Viggle 用户的一小部分;Chu 表示,该模型已被广泛采用,成为创意人士的可视化工具。视频远非完美——它们抖动不已,面部表情毫无表情——但 Chu 表示,事实上,对于电影制作人、动画师和视频游戏设计师来说,将他们的想法转化为视觉效果是一种有效的方法。目前,Viggle 的模型只能创建角色,但 Chu 希望以后能够制作更复杂的视频。
Viggle 目前在 Discord 和其网络应用上提供其 AI 模型的免费、受限版本。该公司还提供 9.99 美元的订阅以增加容量,并通过创作者计划为一些创作者提供特殊访问权限。首席执行官表示,Viggle 正在与电影和视频游戏工作室商谈授权该技术,但他也看到独立动画师和内容创作者正在采用该技术。
在 TechCrunch 对 Chu 的采访中,我们询问了 Viggle 的 AI 视频模型是基于哪些数据来进行训练的。
“到目前为止,我们从始至终依赖公开的数据,” Chu 说道,与OpenAI 首席技术官 Mira Murati 对 Sora 的训练数据的回答类似。
当被问及 Viggle 的训练数据集是否包括 YouTube 视频时,Chu 平静地回答:“是的。”
这可能是一个问题。今年 4 月,YouTube 首席执行官 Neal Mohan 告诉彭博社,使用 YouTube 视频训练 AI 文本转视频生成器将“明显违反”该平台的服务条款。这些评论是在 OpenAI 可能使用 YouTube 视频训练 Sora 的背景下发表的。
Mohan澄清说,拥有 YouTube 的谷歌可能与某些创作者签订了合同,将他们的视频用作谷歌 DeepMind Gemini 的训练数据集。但是,根据Mohan和 YouTube 的服务条款,未经公司事先许可,不得从该平台获取视频。
在 TechCrunch 采访 Viggle 首席执行官后,Viggle 的一位发言人通过电子邮件收回了 Chu 的声明,并告诉 TechCrunch,首席执行官“在 Viggle 是否使用 YouTube 数据来进行训练的问题上说得太早了。事实上,Hang/Viggle 无法分享他们的训练数据的详情信息。”
然而,我们指出,Chu 已经在记录中这样做了,并要求就此事做出明确声明。Viggle 的发言人在回复中证实,这家 AI 初创公司在 YouTube 视频上进行训练:
Viggle 利用各种公共资源(包括 YouTube)来生成 AI 内容。我们的训练数据经过精心策划和完善,确保整一个完整的过程符合所有服务条款。我们优先与 YouTube 等平台保持良好的关系,并致力于遵守其条款,避免大量下载和任何其他涉及没有经过授权的视频下载的行为。
这种合规做法似乎与 Mohan 4 月份的评论相矛盾,Mohan 表示 YouTube 的视频资料库不是公开来源。我们联系了 YouTube 和 Google 的发言人,但尚未收到回复。
这家初创公司与其他处于灰色地带的公司一样,使用 YouTube 作为训练数据。据报道,许多人工智能模型开发商(包括 OpenAI、Nvidia、Apple 和 Anthropic)都使用 YouTube 视频转录或剪辑进行训练。这是硅谷一个不那么秘密的肮脏秘密:每个人都可能这样做。真正罕见的是大声说出来。