拖拽下圖像就能生成視頻,中科大、微軟等DragNUWA屬實驚艷
機器之心報道
編輯:小舟
【資料圖】
隨著 ChatGPT、GPT-4、LLaMa 等模型的問世,人們越來越關注生成式模型的發展。相比于日漸成熟的文本生成和圖像生成,視頻、語音等模態的 AI 生成還面臨著較大的挑戰。
現有可控視頻生成工作主要存在兩個問題:首先,大多數現有工作基于文本、圖像或軌跡來控制視頻的生成,無法實現視頻的細粒度控制;其次,軌跡控制研究仍處于早期階段,大多數實驗都是在 Human3.6M 等簡單數據集上進行的,這種約束限制了模型有效處理開放域圖像和復雜彎曲軌跡的能力。
基于此,來自中國科學技術大學、微軟亞研和北京大學的研究者提出了一種基于開放域擴散的新型視頻生成模型 ——DragNUWA。DragNUWA 從語義、空間和時間三個角度實現了對視頻內容的細粒度控制。本文共一作殷晟明、吳晨飛,通訊作者段楠。
論文地址:https://arxiv.org/abs/2308.08089
以拖動(drag)的方式給出運動軌跡,DragNUWA 就能讓圖像中的物體對象按照該軌跡移動位置,并且可以直接生成連貫的視頻。例如,讓兩個滑滑板的小男孩按要求路線滑行:
還可以「變換」靜態景物圖像的相機位置和角度:
方法簡介
該研究認為文本、圖像、軌跡這三種類型的控制是缺一不可的,因為它們各自有助于從語義、空間和時間角度控制視頻內容。如下圖 1 所示,僅文本和圖像的組合不足以傳達視頻中存在的復雜運動細節,這可以用軌跡信息來補充;僅圖像和軌跡組合無法充分表征視頻中的未來物體,文本控制可以彌補這一點;在表達抽象概念時,僅依賴軌跡和文本可能會導致歧義,圖像控制可以提供必要的區別。
DragNUWA 是一種端到端的視頻生成模型,它無縫集成了三個基本控件 —— 文本、圖像和軌跡,提供強大且用戶友好的可控性,從語義、空間和時間角度對視頻內容進行細粒度控制。
為了解決當前研究中有限的開放域軌跡控制問題,該研究重點關注三個方面的軌跡建模:
使用軌跡采樣器(Trajectory Sampler,TS)在訓練期間直接從開放域視頻流中采樣軌跡,用于實現任意軌跡的開放域控制; 使用多尺度融合(Multiscale Fusion,MF)將軌跡下采樣到各種尺度,并將其與 UNet 架構每個塊內的文本和圖像深度集成,用于控制不同粒度的軌跡; 采用自適應訓練(Adaptive Training,AT)策略,以密集流為初始條件來穩定視頻生成,然后在稀疏軌跡上進行訓練以適應模型,最終生成穩定且連貫的視頻。實驗及結果
該研究用大量實驗來驗證 DragNUWA 的有效性,實驗結果展示了其在視頻合成細粒度控制方面的卓越性能。
與現有專注于文本或圖像控制的研究不同,DragNUWA 主要強調建模軌跡控制。為了驗證軌跡控制的有效性,該研究從相機運動和復雜軌跡兩個方面測試了 DragNUWA。
如下圖 4 所示,DragNUWA 雖然沒有明確地對相機運動進行建模,但它從開放域軌跡的建模中學習了各種相機運動。
為了評估 DragNUWA 對復雜運動的精確建模能力,該研究使用相同的圖像和文本對各種復雜的拖動(drag)軌跡進行了測試。如下圖 5 所示,實驗結果表明 DragNUWA 能夠可靠地控制復雜運動。
此外,DragNUWA 雖然主要強調軌跡控制建模,但也融合了文本和圖像控制。研究團隊認為,文本、圖像和軌跡分別對應視頻的三個基本控制方面:語義、空間和時間。下圖 6 通過展示文本(p)、軌跡(g)和圖像(s)的不同組合(包括 s2v、p2v、gs2v、ps2v 和 pgs2v)說明了這些控制條件的必要性。
感興趣的讀者可以閱讀論文原文,了解更多研究內容
關鍵詞:
相關閱讀
-
拖拽下圖像就能生成視頻,中科大、微軟...
現有可控視頻生成工作主要存在兩個問題:首先,大多數現有工作基于文本 -
ai頂部屬性欄不見了怎么調出來 ai頂部...
ai是一種應用于出版、多媒體和在線圖像的工業標準矢量插畫的軟件,然而 -
美債收益率飆至16年來新高!全球央行年...
在本周杰克遜霍爾全球央行年會開幕前,由于擔心美聯儲主席鮑威爾保持甚 -
《大征服者2:戰國時代》開發者日志(一...
當我們考慮做“日本戰國時代”主題的游戲的時候,其實也是有過顧慮... -
三亞濟南七夕“攜手”,探索經濟發展新天地
8月22日恰逢我國傳統七夕節,我國首個科創金融改革試驗區濟南、我國改 -
遼寧省出臺食品安全工作重大事項督促落...
為進一步建立更為嚴格的食品安全工作責任制和責任追究制度,防范食品安 -
港股逆勢反彈 分析人士:底部仍未確立
8月23日,在A股繼續走低的背景下,港股市場迎來逆勢反彈。其中,恒生指 -
國內成品油再上調 加滿一箱50升92號汽...
8月23日24時,國內成品油價格微幅上調。據國家發改委消息,國內汽、柴 -
深圳地鐵4號線著火?官方回應來了
據港鐵深圳官方微博消息,8月22日上午8時10分左右,地鐵4號線往福田口 -
(經濟觀察)為何8月中國房貸利率之“錨...
中新社北京8月21日電 (記者 龐無忌)21日最新公布的8月中國貸款市 -
華能清遠燃機熱電一期2×120MW工程相關...
中國華能集團有限公司電子商務平臺發布華能清遠燃機熱電一期(2×120MW -
新萊福(301323.SZ):正在進行透明射線防...
格隆匯8月23日丨有投資者向新萊福301323SZ提問公司的防輻射服主要應用 -
電池概念股早盤普跌,電池ETF基金連跌8天
24小時財經資訊平臺,依托新銳財經日報《每日經濟新聞》(NationalBusin -
降費降傭多措并舉 頭部券商在行動
日前,證監會發布了一攬子活躍資本市場的政策舉措,包括將降低證券交易 -
瑞豐銀行2023年上半年凈利7.3億 同比增加16.8%
挖貝網2023年8月22日,瑞豐銀行(601528)近日發布2023年半年度報,報告 -
科笛-B(02487):局部外用利多卡因丁卡因...
智通財經APP訊,科笛-B(02487)發布公告,CU-30101,一種用于皮膚表皮手 -
六年間山東取消各類實體證明1560余類 ...
海報新聞記者梁雯濟南報道“法治是最好的營商環境。”8月22日上午,... -
宣城廣德:深融長三角 養老發展“可圈...
近年來,宣城廣德市緊抓長三角一體化發展機遇,深化長三角區域養老服務 -
c和a的區別 數學c和a的區別
基金c和a的區別:1、基金a不會收取投資者的銷售服務費,基金c會收取;2 -
河南省首筆“節水貸”落地
【大河財立方記者席韶陽通訊員鄭薇常雙雙】近日,河南省水利廳舉辦...