抢庄牛牛游戏免费版家电资讯给 1 万帧视频做目标分割，显存占用还不到 1.4gb，代码已开源 | eccv 2022

给 1 万帧视频做目标分割，显存占用还不到 1.4gb，代码已开源 | eccv 2022-抢庄牛牛游戏免费版

(来源:网站编辑 2023-05-13 18:33)

文章正文

咦，怎样好好的藤本千花，突然变为了“高温红色版”？

那大紫手，难道是灭霸活着？？

假如你以为上面的那些成效只是对物体后期上色了，这还实是被 ai 给骗到了。那些独特的颜色，其真是对视频对象收解的默示。但有一说一，那成效还实是让人一光阳甄别不出。

无论是萌妹子飞止的发丝：

还是发作外形扭转的毛巾、物体之间来回遮挡：

ai 对目的的收解都称得上是严丝折缝，如同是把颜色“焊”了上去。不单是高精度收解目的，那种办法还能办理赶过 10000 帧的视频。而且收解成效始末保持正在同一水平，视频后半段照常丝滑精密。

更不测的是，那种办法对 gpu 要求不高。钻研人员默示实验历程中，该办法泯灭的 gpu 内存素来没赶过 1.4gb。要晓得，当下基于留心力机制的同类办法，以至都不能正在普通出产级显卡上办理赶过 1 分钟的视频。

那便是伊利诺伊大学厄巴纳-香槟分校学者最新提出的一种长视频目的收解办法 xmem。目前已被 eccv 2022 接管，代码也已开源。如此丝滑的成效，还正在 reddit 上吸引许多网友围不雅观，热度抵达 800 。

网友都正在玩笑说：

为什么要把你的手涂成紫色？

谁晓得灭霸是不是有计较机视觉方面的爱好呢？

模仿人类记忆法

目前已有的视频对象收解办法很是多，但是它们要么办理速度比较慢，要么对 gpu 要求高，要么精度不够高。

而原文提出的办法，可以说是统筹了以上三方面。不只能对长视频快捷停行对象收解，画面帧数可抵达 20fps，同时正在普通 gpu 上就能完成。其出格之处正在于，它受人类记忆形式所启示。

1968 年，心理学家阿特金森和希夫林提出多重存储模型（atkinson-shiffrin memory model）。该模型认为，人类记忆可以分为 3 种形式：瞬时记忆、短期记忆和历久记忆。

参考如上形式，钻研人员将 ai 框架也分别出 3 种内存方式。划分是：

实时更新的瞬时内存

高甄别率工做内存

密集历久记忆内存。

此中，瞬时内存会每帧更新一次，来记录画面中的图像信息。工做内存从瞬时内存中聚集画面信息，更新频次为每 r 帧一次。当工做内存饱和时，它会被压缩转移到历久内存里。

而历久内存也饱和时，会跟着光阳推移忘记过期的特征；正常来说那会正在办理过数千帧后才会饱和。那样一来，gpu 内存也就不会果为光阳推移而有余了。

但凡，对视频目的停行收解会给定第一帧的图像和目的对象掩码，而后模型会跟踪相关目的，为后续帧生成相应的掩码。详细来看，xmem 办理单帧画面的历程如下：

整个 ai 框架由 3 个端到端卷积网络构成。

一个查问编码器（query encoder）用来逃踪提与查问特定图像特征。

一个解码器（decoder）卖力获与内存读与轨范的输出，以生成对象掩码。

一个值编码器（value encoder）可以将图像和目的的掩码相联结，从而来提与新的内存特征值。

最末值编码器提与到的特征值会添加到工做内存中。

从实验结因来看，该办法正在短视频和长视频上，都真现了 sota。

正在办理长视频时，跟着帧数的删多，xmem 的机能也没有下降。

钻研团队

做者之一为华人 ho kei (rex) cheng。

他钻研生卒业于香港科技大学，目前正在伊利诺伊大学厄巴纳-香槟分校读博。钻研标的目的为计较机视觉。他先后有多篇论文被 cvpr、neurips、eccv 等顶会接管。

另一位做者是 alexander g. schwing。

他如今是伊利诺伊大学厄巴纳-香槟分校的助理教授，博士卒业于苏黎世联邦理工学院。钻研标的目的为呆板进修和计较机视觉。

论文地址：

https://arxiv.org/abs/2207.07115

github：

https://github.com/hkchengrex/xmem

标签

出售本站【域名】【外链】