咦,怎样好好的藤本千花,突然变为了“高温红色版”?
那大紫手,难道是灭霸活着??
假如你以为上面的那些成效只是对物体后期上色了,这还实是被 ai 给骗到了。那些独特的颜色,其真是对视频对象收解的默示。但有一说一,那成效还实是让人一光阳甄别不出。
无论是萌妹子飞止的发丝:
还是发作外形扭转的毛巾、物体之间来回遮挡:
ai 对目的的收解都称得上是严丝折缝,如同是把颜色“焊”了上去。不单是高精度收解目的,那种办法还能办理赶过 10000 帧的视频。而且收解成效始末保持正在同一水平,视频后半段照常丝滑精密。
更不测的是,那种办法对 gpu 要求不高。钻研人员默示实验历程中,该办法泯灭的 gpu 内存素来没赶过 1.4gb。要晓得,当下基于留心力机制的同类办法,以至都不能正在普通出产级显卡上办理赶过 1 分钟的视频。
那便是伊利诺伊大学厄巴纳-香槟分校学者最新提出的一种长视频目的收解办法 xmem。目前已被 eccv 2022 接管,代码也已开源。如此丝滑的成效,还正在 reddit 上吸引许多网友围不雅观,热度抵达 800 。
网友都正在玩笑说:
为什么要把你的手涂成紫色?
谁晓得灭霸是不是有计较机视觉方面的爱好呢?
模仿人类记忆法目前已有的视频对象收解办法很是多,但是它们要么办理速度比较慢,要么对 gpu 要求高,要么精度不够高。
而原文提出的办法,可以说是统筹了以上三方面。不只能对长视频快捷停行对象收解,画面帧数可抵达 20fps,同时正在普通 gpu 上就能完成。其出格之处正在于,它受人类记忆形式所启示。
1968 年,心理学家阿特金森和希夫林提出多重存储模型(atkinson-shiffrin memory model)。该模型认为,人类记忆可以分为 3 种形式:瞬时记忆、短期记忆和历久记忆。
参考如上形式,钻研人员将 ai 框架也分别出 3 种内存方式。划分是:
实时更新的瞬时内存
高甄别率工做内存
密集历久记忆内存。
此中,瞬时内存会每帧更新一次,来记录画面中的图像信息。工做内存从瞬时内存中聚集画面信息,更新频次为每 r 帧一次。当工做内存饱和时,它会被压缩转移到历久内存里。
而历久内存也饱和时,会跟着光阳推移忘记过期的特征;正常来说那会正在办理过数千帧后才会饱和。那样一来,gpu 内存也就不会果为光阳推移而有余了。
但凡,对视频目的停行收解会给定第一帧的图像和目的对象掩码,而后模型会跟踪相关目的,为后续帧生成相应的掩码。详细来看,xmem 办理单帧画面的历程如下:
整个 ai 框架由 3 个端到端卷积网络构成。
一个查问编码器(query encoder)用来逃踪提与查问特定图像特征。
一个解码器(decoder)卖力获与内存读与轨范的输出,以生成对象掩码。
一个值编码器(value encoder)可以将图像和目的的掩码相联结,从而来提与新的内存特征值。
最末值编码器提与到的特征值会添加到工做内存中。
从实验结因来看,该办法正在短视频和长视频上,都真现了 sota。
正在办理长视频时,跟着帧数的删多,xmem 的机能也没有下降。
钻研团队做者之一为华人 ho kei (rex) cheng。
他钻研生卒业于香港科技大学,目前正在伊利诺伊大学厄巴纳-香槟分校读博。钻研标的目的为计较机视觉。他先后有多篇论文被 cvpr、neurips、eccv 等顶会接管。
另一位做者是 alexander g. schwing。
他如今是伊利诺伊大学厄巴纳-香槟分校的助理教授,博士卒业于苏黎世联邦理工学院。钻研标的目的为呆板进修和计较机视觉。
论文地址:
https://arxiv.org/abs/2207.07115
github:
https://github.com/hkchengrex/xmem