搜索
  • 首页
  • 快讯
  • 资讯
    • 推荐
    • 财经
    • AI
    • 创新
    • 城市
    • 最新
    • 创投
    • 汽车
    • 科技
    • 专精特新
  • 直播
  • 视频
  • 专题
  • 活动
搜索
寻求报道
我要入驻
城市合作

让大卫雕塑跳舞、蒙娜丽莎说话,英伟达视频合成有如此多“骚操作”

机器之心·2019-10-28 16:10
来自英伟达的研究者提出了一种新的 few-shot 合成框架,仅借助少量目标示例图像就能合成之前未见过的目标或场景的视频,在跳舞、头部特写、街景等场景中都能得到逼真的结果。

编者按:本文来自微信公众号“ 机器之心”(ID:almosthuman2014),参与:张倩、杜伟,36氪经授权发布。

用视频到视频的合成技术生成会 跳舞的小哥哥(小姐姐)或 自己本人已经不是什么无法解决的问题,但这些方法通常需要大量目标人物的数据,而且学到的模型泛化能力相对不足。

为了解决这个问题,来自英伟达的研究者提出了一种新的few-shot合成框架,仅借助少量目标示例图像就能合成之前未见过的目标或场景的视频,在跳舞、头部特写、街景等场景中都能得到逼真的结果。该论文已被NeurIPS2019接收。


  • 论文:https://nvlabs.github.io/few-shot-vid2vid/main.pdf

  • 项目代码:https://nvlabs.github.io/few-shot-vid2vid/


先来看一下合成效果:

用不同示例图像合成的人体跳舞视频。

用英伟达的方法合成的雕塑跳舞视频。

用不同示例图像合成的头部特写视频。

蒙娜丽莎头部合成视频。

街景合成视频。

「视频到视频」合成(简称「vid2vid」)旨在将人体姿态或分割掩模等输入的语义视频,转换为逼真的输出视频。虽然当前vid2vid合成技术已经取得了显著进展,但依然存在以下两种局限:其一,现有方法极其需要数据。

训练过程中需要大量目标人物或场景的图像;其二,学习到的模型泛化能力不足。姿态到人体(pose-to-human)的vid2vid模型只能合成训练集中单个人的姿态,不能泛化到训练集中没有的其他人。

为了克服这两种局限,英伟达的研究者提出了一种few-shotvid2vid框架,该框架在测试时通过利用目标主体的少量示例图像,学习对以前未见主体或场景的视频进行合成。

借助于一个利用注意力机制的新型网络权重生成模块,few-shotvid2vid模型实现了在少样本情况下的泛化能力。他们进行了大量的实验验证,并利用人体跳舞、头部特写和街景等大型视频数据集与强基准做了对比。

实验结果表明,英伟达提出的few-shotvid2vid框架能够有效地解决现有方法存在的局限性。

如下图1(右)所示,few-shotvid2vid框架通过两个输入来生成一个视频:

图1:英伟达few-shotvid2vid(右)与现有vid2vid(左)框架的对比。现有的vid2vid方法不考虑泛化到未见过的域。经过训练的模型只能用于合成与训练集中视频相似的视频。英伟达的模型则可以利用测试时提供的少量示例图像来合成新人体的视频。

除了和现有vid2vid方法一样输入语义视频外,few-shotvid2vid还有第二个输入,其中包括测试时可用的目标域的一些示例图像。

值得注意的是,现有的vid2vid方法不存在第二个输入。研究者提出的模型使用这几个示例图像,并通过新颖的网络权重生成机制实现对视频合成机制的动态配置。具体来说,他们训练一个模块来使用示例图像生成网络权重。此外,他们还精心设计了学习目标函数,以方便学习网络权重生成模块。

此外,研究者证明了其模型的性能与训练数据集中视频的多样性以及测试时可用示例图像的数量呈正相关。当模型在训练时看到更多不同的域时,可以更好地泛化并处理未见到的域(下图7(a))。当测试时为模型提供更多示例图像时,合成视频的质量会随之提升(下图7(b))。

少样本的视频到视频合成

视频到视频合成旨在学习一个映射函数,该函数可以将输入语义图像的序列,即,转化为输出图像的序列,即。在这一过程中,以语义图像序列为条件的输出图像分布和标注图像分布是近似的。换言之,视频到视频合成旨在实现,其中D是分布散度测量,如Jensen-Shannon散度(简称「J-S散度」)或Wasserstein散度。为了对条件分布进行建模,现有研究利用了简化的马尔可夫假设(Markovassumption),并通过以下方程得出序列生成模型:

换言之,它基于观察到的Τ+1输入语义图像,还有Τ-1生成的图像生成输出图像。

序列生成器F可以通过几种方式进行建模,并且通常选择使用由以下方程得出的matting函数:

下图2(a)是vid2vid架构和抠图函数的可视图,其中输出图像x_ttilde是通过结合最后生成图像的光流变形版本,即和合成的中间图像h_ttilde生成的。

图2:(a)现有vid2vid框架的架构;(b)英伟达提出的few-shotvid2vid框架的架构。

软遮挡映射m˜_t说明了在每个像素位置上如何组合两个图像。简单来说,如果某个像素能在此前生成的帧中被找到,会更有利于从变形图像中复制像素值。实际上是通过神经网络参数化的函数M、W和H生成的:

其中,θM、θW和θH是可学习的参数,训练完成后它们会保持固定状态。

Few-shotvid2vid

前面方程1得到的序列生成器希望将新颖的输入转化为语义视频,但现在有一个问题,这样的模型是做不到Few-shot的,它并没有学习到如何合成未知领域的视频。为了令生成器F适应未见过的数据,研究者使得F依赖于额外的输入。

具体而言,研究者给F增加了两个额外的输入参数:即目标领域的K个样本图像{e_1,e_2,...,e_K},以及对应它们对应的语义图像{s_e1,s_e2,...,s_eK}。这样整个生成器就可以表示为如下方程式,它嵌入了少样本学习的属性:

基于注意力的聚合(K>1)

除此之外,研究者还想让E从任意数量的示例图像中提取出模式。由于不同的示例图像可能具有不同的外观模式,而且它们与不同输入图像之间的关联程度也存在差异,研究者设计了一种注意力机制来聚合提取出的外观模式q_1……q_K。

为此,它们构建了一个新的包含若干完全卷积层的注意力网络E_A。E_A应用于示例图像的每个分割图像s_e_k。这样可以得到一个关键向量a_k∈R^(C×N),其中,C是通道的数量,N=H×W是特征图的空间维度。

他们还将E_A应用于当前输入语义图像s_t,以提取其关键向量a_t∈R^(C×N)。接下来,他们通过利用矩阵乘积计算了注意力权重α_k=(a_k)^T⊗a_t。然后将注意力权重用于计算外观表征的加权平均值,然后将其输入到多层感知机E_P以生成网络权重(见下文中的图2(b))。这种聚合机制在不同示例图像包含目标的不同部分时很有帮助。例如,当示例图像分别包含目标人物的正面和背面时,该注意力图可以在合成期间帮助捕捉相应的身体部位。

实验结果

下图3展示了在合成人物时使用不同示例的结果。可以看出,英伟达提出的方法可以成功地将动作迁移至所有示例图像中。

图3:人体跳舞视频合成结果可视图。

下图4展示了英伟达提出的方法与其他方法的对比。可以看出,其他方法要么生成有瑕疵的视频,要么无法将动作完全迁移至新视频。

图4:与其他人体动作合成结果的对比。

下图5展示了用不同示例图像合成街景的效果。可以看出,即使使用相同的输入分割图,使用英伟达的方法也能得到不同的结果。

图5:街景视频合成结果图示。

下表1展示了在以上两个任务中,英伟达的方法与其他方法的定量比较。可以看出,英伟达的方法在所有性能指标上都优于其他方法。

表1:无论是在舞蹈还是街景视频合成任务中,英伟达的方法都优于现有的姿势迁移方法。

下图6展示了在合成人脸时使用不同示例图像的结果。英伟达的方法可以在捕捉到输入视频动作的同时完整保留示例人物特征。

图6:人脸视频合成结果。

研究者假设,更大的训练集可以得到质量更高的合成视频。为了验证这一假设,他们进行了实验。图7(a)显示了改变训练集中的视频数量所得到的性能结果。实验结果支持上述假设。

研究者还通过实验验证了测试时增加示例图像是否可以提升视频合成效果,结果证实了该假设,如下图7(b)所示:

图7:(a)显示,合成视频的质量随着训练集的增大而改善;(b)显示,合成视频的质量与测试时提供的示例图像数量有关。研究者提出的注意力机制可以利用较大的示例集来更好地生成网络权重;(c)给出多个示例图像时注意力图的变化。

+1
1

好文章,需要你的鼓励

参与评论
评论千万条,友善第一条
登录后参与讨论
提交评论0/1000
你可能也喜欢这些文章
当人形机器人来“敲门”,它距离真正会干活还有多远?
柔性纤维传感器推进至量产,「矩侨工业」获近千万元天使轮融资 | 36氪首发
杨植麟、姜大昕、朱军云栖激辩:我们对大模型发展的预测,都过于保守了
开源版《Her》来了,技术报告已公开,大神Karpathy:它很有个性
马斯克官宣,脑机接口新一代产品迎重大进展,让盲人重新「看见」?
连上脑机接口后,瘫痪的他们已经可以靠意念玩游戏、拿水杯、说话……
单图就能解锁全景视角,北大/港中文/腾讯等推出ViewCrafter
OpenAI重金押注,机器人NEO世界模型登场,机器人迎来ChatGPT时刻?
3类严重程度,6级不确定性,德州大学等首创全新胸部X光数据集,登IEEE TMI

最新文章推荐

我们的一生,都在为认知买单 实探苹果华为对垒下的华强北:iPhone有机型破发,华为三折叠最高加价2.6万 网红杯鼻祖宣布破产了 9月40多款新车下饺子,消费者真的不够用了 年内联名69次,安踏、太平鸟等运动/服装公司为何偏爱IP联名? 元保赴美IPO:网易前高管创办,频被投诉套路保 茶咖界新卷法:先完成“1个亿小目标”? 最前线|腾势Z9GT正式上市,33.48万元起,预售订单已超2万 女装电商迎来闭店潮,初代网红张大奕也没能躲过? 我在动画行业打工,倒欠八千块
机器之心
特邀作者

专业的人工智能媒体和产业服务平台

最近内容

o1带火的CoT到底行不行?新论文引发了论战
保守派中间派原生派,谁将主导搜索引擎未来三十年?
昂贵LLM的救星?Nature新研究提出新型忆阻器,比Haswell CPU高效460倍

下一篇

这么热爱密室逃脱的,大概也就中国人了

去过一次密室逃脱,再也不敢说自己脑子好,胆子大。

2019-10-28

热门标签

一闪一闪 魅蓝metal 跨考 跨专业考研 新闻传播 燕子矶 抵押合同 国家重点实验室 辛鑫 保卫萝卜4 沃尔沃xc60 诺基亚s60 微领地 船底座 九鼎投资 汽车车身 陈飞 计算天数 中国网球 单点故障 音响系统 汽车喇叭 热射病 招生简章 星辰变 大象安全套 绿色和平组织 社保医保卡 人形机器人 斯里兰卡卢比
意见反馈
36氪APP让一部分人先看到未来
36氪
鲸准
氪空间

推送和解读前沿、有料的科技创投资讯

一级市场金融信息和系统服务提供商

聚焦全球优秀创业者,项目融资率接近97%,领跑行业

玻璃钢生产厂家济源校园玻璃钢景观雕塑加工湖南广场玻璃钢人物雕塑公司许昌玻璃钢仿真雕塑玻璃钢花盆如何种植卡通玻璃钢雕塑美陈装饰宿迁商场美陈报价广西玻璃钢佛像雕塑玻璃钢消防人像雕塑六盘水玻璃钢花盆商场冬季美陈布置北京艺术商场美陈哪家好玻璃钢红色题材雕塑摆件中牟玻璃钢花盆花器玻璃钢商城广场美陈雕塑定制贵州小区玻璃钢雕塑玻璃钢室内雕塑商场美陈会带来什么福州环保玻璃钢雕塑多少钱高明玻璃钢动物雕塑内江景观玻璃钢雕塑加工老式百货商场美陈普洱玻璃钢雕塑厂家直供浙江大型商场创意商业美陈哪家好四川主题商场美陈价钱玻璃钢雕塑的设计制作多少钱湛江玻璃钢卡通雕塑供应商家玻璃钢雕塑表面做旧商场花卉美陈感悟昆明市玻璃钢玻璃钢雕塑厂家大理市玻璃钢雕塑设计批发香港通过《维护国家安全条例》两大学生合买彩票中奖一人不认账让美丽中国“从细节出发”19岁小伙救下5人后溺亡 多方发声单亲妈妈陷入热恋 14岁儿子报警汪小菲曝离婚始末遭遇山火的松茸之乡雅江山火三名扑火人员牺牲系谣言何赛飞追着代拍打萧美琴窜访捷克 外交部回应卫健委通报少年有偿捐血浆16次猝死手机成瘾是影响睡眠质量重要因素高校汽车撞人致3死16伤 司机系学生315晚会后胖东来又人满为患了小米汽车超级工厂正式揭幕中国拥有亿元资产的家庭达13.3万户周杰伦一审败诉网易男孩8年未见母亲被告知被遗忘许家印被限制高消费饲养员用铁锨驱打大熊猫被辞退男子被猫抓伤后确诊“猫抓病”特朗普无法缴纳4.54亿美元罚金倪萍分享减重40斤方法联合利华开始重组张家界的山上“长”满了韩国人?张立群任西安交通大学校长杨倩无缘巴黎奥运“重生之我在北大当嫡校长”黑马情侣提车了专访95后高颜值猪保姆考生莫言也上北大硕士复试名单了网友洛杉矶偶遇贾玲专家建议不必谈骨泥色变沉迷短剧的人就像掉进了杀猪盘奥巴马现身唐宁街 黑色着装引猜测七年后宇文玥被薅头发捞上岸事业单位女子向同事水杯投不明物质凯特王妃现身!外出购物视频曝光河南驻马店通报西平中学跳楼事件王树国卸任西安交大校长 师生送别恒大被罚41.75亿到底怎么缴男子被流浪猫绊倒 投喂者赔24万房客欠租失踪 房东直发愁西双版纳热带植物园回应蜉蝣大爆发钱人豪晒法院裁定实锤抄袭外国人感慨凌晨的中国很安全胖东来员工每周单休无小长假白宫:哈马斯三号人物被杀测试车高速逃费 小米:已补缴老人退休金被冒领16年 金额超20万

玻璃钢生产厂家 XML地图 TXT地图 虚拟主机 SEO 网站制作 网站优化