亞洲資本網(wǎng) > 資訊 > 國(guó)際 > 正文
視頻處理巨大飛躍!螞蟻前沿視頻處理技術(shù)CoDeF火出圈 國(guó)外網(wǎng)友直呼“不敢相信!”
2023-08-25 04:52:16來源: 新浪微博

近日,由螞蟻技術(shù)研究院交互智能實(shí)驗(yàn)室打造的最新視頻處理算法CoDeF,在全球開源平臺(tái)GitHub上熱度飆升,發(fā)布僅一周時(shí)間就在GitHub流行趨勢(shì)榜單上的Python語言分類中沖到了第一。

據(jù)悉,CoDeF是一項(xiàng)真實(shí)時(shí)、強(qiáng)細(xì)節(jié)、高保真的視頻處理技術(shù),用于完成視頻風(fēng)格遷移任務(wù)。


【資料圖】

實(shí)驗(yàn)表明,CoDeF技術(shù)能夠毫不費(fèi)力地將圖像風(fēng)格化算法升級(jí)為視頻風(fēng)格化算法,將圖像關(guān)鍵點(diǎn)檢測(cè)算法升級(jí)為視頻關(guān)鍵點(diǎn)跟蹤算法(甚至包括水和煙霧等非剛性物體的追蹤),將圖像語義分割算法升級(jí)為視頻物體跟蹤算法,將圖像超分算法升級(jí)為視頻超分算法,同時(shí)支持用戶可交互的視頻內(nèi)容編輯。

近年來,隨著以圖像生成、圖像編輯等任務(wù)為代表的視覺內(nèi)容生成領(lǐng)域取得突破性進(jìn)展,視覺生成正向著視頻方向發(fā)展。特別是真實(shí)應(yīng)用場(chǎng)景下,人們對(duì)視頻的實(shí)時(shí)性、流暢性、保真度等方面提出了更高要求。目前的主流算法多受限于生成視頻時(shí)序一致性較差的問題,導(dǎo)致其生成效果無法直接在真實(shí)場(chǎng)景中應(yīng)用。

為了解決這一問題,技術(shù)研究院的研究員們提出了一種全新的解決思路——將視頻處理簡(jiǎn)化為圖像處理。

具體來說,將視頻表示為一個(gè)2D內(nèi)容規(guī)范場(chǎng)(canonical content field)和一個(gè)3D時(shí)間形變場(chǎng)(temporal deformation field),其中內(nèi)容規(guī)范場(chǎng)負(fù)責(zé)整合一段視頻中包含的所有紋理信息,而時(shí)間形變場(chǎng)則負(fù)責(zé)建模視頻里的動(dòng)態(tài)信息。換言之,每一幀視頻都利用這個(gè)形變場(chǎng)對(duì)內(nèi)容規(guī)范場(chǎng)所編碼的的規(guī)范圖像(canonical image)進(jìn)行變形,就可以恢復(fù)出該幀圖像。

基于這種表征技術(shù),視頻處理任務(wù)可以簡(jiǎn)化為圖像處理任務(wù),用戶只需要處理每個(gè)視頻對(duì)應(yīng)的靜態(tài)規(guī)范圖像,然后通過形變場(chǎng)的變換,就可以將圖像處理結(jié)果自然地沿著時(shí)間維度進(jìn)行傳播,達(dá)到對(duì)整個(gè)視頻處理的目的,也因此保證了高度的時(shí)序一致性。

值得一提的是,研究者們?cè)O(shè)法盡量降低規(guī)范圖像和真實(shí)圖像的域差(domain gap),使得現(xiàn)有的圖像算法可以不加任何訓(xùn)練地應(yīng)用到規(guī)范圖像上,完成視頻處理。

該技術(shù)在GitHub發(fā)布并開源后,不僅在技術(shù)圈影響廣泛,在Twitter平臺(tái)也“火”出了圈。不少Twitter網(wǎng)友直呼“不敢相信!”、“這是一個(gè)巨大的飛躍!”,還有人說“只需給它一年時(shí)間,就能被用在電影制作上了”。

據(jù)悉,這項(xiàng)技術(shù)是由螞蟻集團(tuán)技術(shù)研究院交互智能實(shí)驗(yàn)室歷時(shí)三個(gè)月時(shí)間完成。項(xiàng)目主要負(fù)責(zé)人是螞蟻技術(shù)研究院交互智能實(shí)驗(yàn)室研究員沈宇軍,其主要研究方向?yàn)橛?jì)算機(jī)視覺和深度學(xué)習(xí)。

項(xiàng)目的另外三位主要作者分別為香港科技大學(xué)的博士生歐陽(yáng)豪、螞蟻技術(shù)研究院的王秋雨、和浙江大學(xué)的博士生肖宇曦,其中第一名和第三名參與者當(dāng)下為螞蟻集團(tuán)的研究型實(shí)習(xí)生。

自2021年成立以來,螞蟻技術(shù)研究院一直致力做有用、有想象力的科研。面向數(shù)字化、智能化未來,瞄準(zhǔn)世界科技前沿,推進(jìn)關(guān)鍵核心技術(shù)攻關(guān)。

其中,交互智能實(shí)驗(yàn)室主要聚焦計(jì)算機(jī)視覺和自然語言處理方向的基礎(chǔ)模型研究,開發(fā)通用人工智能算法架構(gòu),包括內(nèi)容生成、多模態(tài)理解、數(shù)字化、人機(jī)交互等關(guān)鍵技術(shù)。

關(guān)鍵詞:

專題新聞
  • 污水管材質(zhì)種類(污水管材質(zhì))
  • “豆腐褲”又火了,4種搭配,夠你美上一整個(gè)夏天
  • 西安這里解除封閉管理、景區(qū)恢復(fù)開放
  • 天津市河北區(qū)稅務(wù)局多措并舉落實(shí)稅費(fèi)優(yōu)惠政策
  • 河北寵物展團(tuán)全產(chǎn)業(yè)鏈攜手亮相第25屆亞洲寵物展
  • 湖北建立個(gè)體工商戶訴求處理閉環(huán)管理機(jī)制
最近更新

京ICP備2021034106號(hào)-51

Copyright © 2011-2020  亞洲資本網(wǎng)   All Rights Reserved. 聯(lián)系網(wǎng)站:55 16 53 8 @qq.com