无码中文字幕精品推荐,国产成人在线视频网

多模態(tài)視頻理解模型新標(biāo)桿！微軟黃學(xué)東團(tuán)隊發(fā)布 i-Code

發(fā)布日期：2022-05-11 來源：雷鋒網(wǎng) 瀏覽次數(shù)：1305

核心提示：真正的類人智能要考慮來自各種信號和感覺器官的信息。智能系統(tǒng)應(yīng)該是綜合的，引入來自所有可用模式的信號。在許多實(shí)際的數(shù)據(jù)體系

真正的類人智能要考慮來自各種信號和感覺器官的信息。智能系統(tǒng)應(yīng)該是綜合的，引入來自所有可用模式的信號。在許多實(shí)際的數(shù)據(jù)體系中，我們可以利用視覺（V）、語言（L）和語音/音頻（S）模態(tài)的數(shù)據(jù)。目前，研究者們在建立理解單模態(tài)、雙模太的模型方面取得了巨大的進(jìn)展，然而將這些工作推廣到能夠同時解譯視覺、語言、語音的三模態(tài)系統(tǒng)上仍然是一項艱巨的任務(wù)。

三模態(tài)訓(xùn)練需要大量的三模態(tài)數(shù)據(jù)（例如，帶文字描述的視頻），而此類數(shù)據(jù)的規(guī)模往往比可用的單模態(tài)或雙模態(tài)數(shù)據(jù)小好幾個數(shù)量級。例如，目前最大的帶標(biāo)注的視頻數(shù)據(jù)集由 1.8 億段視頻組成，而最大的圖像描述數(shù)據(jù)集則包含高達(dá) 9 億個圖文對。

為了解決該問題，本文提出了兩種解決方案。首先，除了三模態(tài)視頻，我們還利用了大規(guī)模的雙模態(tài)數(shù)據(jù)，例如：帶有文本描述的圖像（V+L）、帶有轉(zhuǎn)寫文本的語音（S+L）和視頻描述（V+S）。這極大地擴(kuò)展了模型輸入數(shù)據(jù)的規(guī)模和多樣性，同時涵蓋了全部三種目標(biāo)模式。其次，我們提出了一種融合架構(gòu)，可以采用研究社區(qū)提出的最先進(jìn)的單模態(tài)編碼器的上下文輸出，而非從頭開始構(gòu)建一個獨(dú)立的模型。

本文提出了「i-Code」,其中 i 代表集成多模態(tài)學(xué)習(xí)。我們開發(fā)了一個有效的融合模塊，該模塊集成了單模態(tài)編碼器的輸出，進(jìn)行跨模態(tài)理解，從而獲得最終的預(yù)測結(jié)果。為了設(shè)計最佳的融合架構(gòu)，我們試驗(yàn)了多種 Transformer 架構(gòu)內(nèi)的自注意機(jī)制的變體，包括交叉和合并不同模態(tài)的注意力得分的機(jī)制。

接著，我們使用各種自監(jiān)督目標(biāo)利用雙模態(tài)和三模態(tài)數(shù)據(jù)對 i-Code 進(jìn)行預(yù)訓(xùn)練。這些目標(biāo)包括：（1）掩碼單元建模。其中所有輸入信號都被轉(zhuǎn)換為離散的詞例（Token），旨在預(yù)測各模態(tài)下的被遮蔽的單元的正確詞例。（2）對比學(xué)習(xí)。給定兩種輸入模態(tài)，模型預(yù)測給定的信號是否來自訓(xùn)練數(shù)據(jù)中的同一個三元組（或數(shù)據(jù)對）。

我們在多個多模態(tài)對比基準(zhǔn)上徹底評估了 i-Code。實(shí)驗(yàn)結(jié)果證明了所提出的多模態(tài)預(yù)訓(xùn)練框架的有效性。對 i-Code 進(jìn)行微調(diào)，相較目前最先進(jìn)，我們可以在 6 個多模態(tài)數(shù)據(jù)集和 GLUE NLP 基準(zhǔn)測試中的算法獲得 11% 的性能提升。

工博士工業(yè)品商城聲明：凡資訊來源注明為其他媒體來源的信息，均為轉(zhuǎn)載自其他媒體，并不代表本網(wǎng)站贊同其觀點(diǎn)，也不代表本網(wǎng)站對其真實(shí)性負(fù)責(zé)。您若對該文章內(nèi)容有任何疑問或質(zhì)疑，請立即與商城(podvhdv.cn)聯(lián)系，本網(wǎng)站將迅速給您回應(yīng)并做處理。
聯(lián)系電話：021-31666777
新聞、技術(shù)文章投稿QQ：3267146135 投稿郵箱：syy@gongboshi.com

多模態(tài)視頻理解模型新標(biāo)桿！微軟黃學(xué)東團(tuán)隊發(fā)布 i-Code

多模態(tài)視頻理解模型新標(biāo)桿！微軟黃學(xué)東團(tuán)隊發(fā)布 i-Code