Sora火了,通用人工智能要來了?
2024年開年,Sora的橫空出世,給AI界投下一枚重磅炸彈。
這個由美國人工智能公司OpenAI發(fā)布的文生視頻模型,只需要一段提示文本,就能生成具有多個角色和特定動作類型,且主題和背景基本準確的高清視頻。相較于Runway Gen 2、Pika等AI視頻生成應(yīng)用幾秒鐘連貫性的視頻產(chǎn)出,Sora可生成長達60秒的連續(xù)、穩(wěn)定、高品質(zhì)視頻,且提示文本越充分、細節(jié)越精確,生成的視頻越真實。
不過,出于可能被濫用的擔憂,OpenAI表示目前并沒有公開發(fā)布Sora的計劃。模型有限的訪問權(quán)限只被授予小部分研究人員和創(chuàng)意人士等群體,以便OpenAI獲取他們的使用反饋。
目前,官網(wǎng)上已更新了48個Sora生成的演示視頻。這些視頻清晰且真實的細節(jié)和超高的精度不禁引發(fā)人們思考:這是否意味著具備人類同等智能或超越人類智能的通用人工智能(AGI)的到來?
對研究AGI意義重大
Sora問世后,360集團創(chuàng)始人周鴻祎發(fā)表了看法:Sora的出現(xiàn)讓AGI到來的時間提前了。原來估計需要十來年,現(xiàn)在可能只要兩三年。他認為,Sora雖然看起來只是個文生視頻工具,但實際上是AI認知世界并與之進行交互的里程碑,會給整個產(chǎn)業(yè)帶來巨大進步。
“實現(xiàn)AGI的技術(shù)路線多樣,涉及不同的研究方法和應(yīng)用方向。”中國科學(xué)院自動化研究所副總工程師、紫東太初大模型中心常務(wù)副主任王金橋向科技日報記者介紹,目前,學(xué)術(shù)界和工業(yè)界廣泛討論的AGI技術(shù)路線主要有三條。一是信息智能,即“大數(shù)據(jù)+自監(jiān)督學(xué)習+大算力”。這種方法依賴大量數(shù)據(jù),通過自監(jiān)督學(xué)習算法來訓(xùn)練模型,同時需要巨大的計算能力來處理復(fù)雜任務(wù)。二是博弈智能。這種技術(shù)路線強調(diào)在人機交互中通過強化學(xué)習的方式訓(xùn)練智能體,使其能進行自主學(xué)習和決策。三是類腦智能。這種方法試圖通過模仿人腦的運行方式實現(xiàn)AGI。
在王金橋看來,根據(jù)官網(wǎng)的演示視頻,Sora至少在畫質(zhì)、長視頻生成、多鏡頭一致性、學(xué)習世界規(guī)律、多模態(tài)融合等方面實現(xiàn)突破。
“Sora能引發(fā)如此轟動,并不只是因為它生成的視頻時間更長、清晰度更高,而是因為它能在一定程度上模擬物理世界中的物體運動和交互。”王金橋說,“這種能力對于AGI的研究具有重要意義,因為它涉及機器對現(xiàn)實世界的深入理解和高度模擬,而這些是實現(xiàn)AGI的核心挑戰(zhàn)。”
記者了解到,為了準確模擬物理世界,Sora被投喂了極大規(guī)模的訓(xùn)練數(shù)據(jù),并使用了擴散模型等先進的算法。“對于AGI而言,Sora讓大家看到,規(guī)模效應(yīng)不只在文字模態(tài)上成立,在視頻模態(tài)上也成立。”北京月之暗面科技有限公司(Moonshot AI)聯(lián)合創(chuàng)始人周昕宇認為,“通過擴展視頻生成模型可以建立通用物理世界模擬器。這是實現(xiàn)AGI的必要過程。”
距真正實現(xiàn)AGI仍有距離
雖然進步顯著、令人驚艷,但Sora仍然存在一些技術(shù)缺陷。
從目前Sora生成的視頻來看,它在處理某些細節(jié)時可能會出錯,例如混淆物體的左右方向。同時,它也無法完全理解復(fù)雜的因果關(guān)系,或在長時間跨度內(nèi)保持故事線的高度一致連貫。這些技術(shù)缺陷導(dǎo)致生成的視頻內(nèi)容可能出現(xiàn)與邏輯錯誤,或與常識、真實情形不符的情況。
“Sora模擬真實物理世界的方式,是通過對給定的文字、圖像、參考視頻進行建模,然后預(yù)測想要生成的視頻數(shù)據(jù)的條件概率分布。這與語言模型的原理沒有本質(zhì)區(qū)別,同樣是在做無損壓縮。”周昕宇說,“只要壓縮得足夠好,就可以模擬出足夠真實的物理世界。”
王金橋強調(diào),盡管Sora能夠通過學(xué)習了解表層的運動和交互關(guān)系,但是還沒有學(xué)習到物理規(guī)律的本質(zhì)。比如,它不知道多大的風能吹滅蠟燭,不了解玻璃掉到地上會碎、掉到地毯上不會碎的本質(zhì)原因。這也是Sora目前最為人詬病之處。
“從Sora為數(shù)不多的公開資料來看,它仍是數(shù)據(jù)驅(qū)動下的擬合,也就是模擬人類所能看到的物理世界。但真實的物理世界遠不僅包含人類視覺信息。”北京中關(guān)村科金技術(shù)有限公司技術(shù)副總裁張杰認為,Sora的創(chuàng)意來自大數(shù)據(jù)量下的概率擬合,它并沒有產(chǎn)生新知識,距離“深度模擬真實物理世界”這一目標還有很長的路要走。
中國社會科學(xué)院哲學(xué)研究所科技哲學(xué)研究室主任、研究員段偉文同樣表達了審慎的觀點。“Sora這種近乎人類的表達實際上是一種基于現(xiàn)有數(shù)據(jù)和語料的合成智能。”他說,“它給實現(xiàn)AGI找到了一種可行的路徑,但距真正的AGI還有很長的距離,且對實現(xiàn)AGI的價值相對有限。”
事實上,實現(xiàn)AGI這一目標可謂道阻且長。王金橋談到了幾大挑戰(zhàn)。首先是數(shù)據(jù)瓶頸。盡管像GPT-4這樣的預(yù)訓(xùn)練語言模型在數(shù)據(jù)標注上取得了進展,但數(shù)據(jù)依然是深度學(xué)習中的一個關(guān)鍵限制因素;其次是泛化瓶頸。目前的AI系統(tǒng)往往在特定任務(wù)上表現(xiàn)出色,但在面對新任務(wù)時難以有效適應(yīng);最后是能耗瓶頸。隨著AI模型變得越來越復(fù)雜,所需的計算資源和能源消耗也越來越大。這對硬件設(shè)備提出了更高要求。
或?qū)⒙氏嚷涞貍髅筋I(lǐng)域
Sora的發(fā)布不僅推動了技術(shù)的發(fā)展,也引發(fā)了對AI治理和倫理的探討。
段偉文提到,OpenAI采取了相關(guān)手段來阻止不當視頻的發(fā)布。王金橋進一步解釋道, Sora內(nèi)置的文本提示過濾器可篩選發(fā)送給模型的所有提示,阻止對暴力、色情內(nèi)容、仇恨言論以及名人肖像等敏感或不適當內(nèi)容的請求。視頻內(nèi)容過濾器能檢查生成的視頻幀,屏蔽違反OpenAI安全政策的內(nèi)容。
另外,OpenAI團隊可能會定期對Sora進行優(yōu)化和更新,以改進其過濾機制,確保模型能夠更好地識別和處理敏感內(nèi)容。同時,團隊可能會監(jiān)控系統(tǒng)的使用情況,以便及時發(fā)現(xiàn)并解決新出現(xiàn)的問題。
“從技術(shù)上看,Sora避免極端暴力、色情、名人肖像等內(nèi)容出現(xiàn)的方式,主要依靠的是模型的對齊能力。”周昕宇說,“這一點和語言模型的區(qū)別不大,也已經(jīng)有比較多的實踐經(jīng)驗。”
據(jù)國際數(shù)據(jù)公司預(yù)測,Sora將率先在短視頻、廣告、互動娛樂、影視制作和媒體等傳媒領(lǐng)域得到應(yīng)用。Sora的諸多能力,可以輔助這些領(lǐng)域的工作者更高效地進行視頻創(chuàng)作,加快生產(chǎn)速度,提高產(chǎn)出數(shù)量。這將助力相關(guān)行業(yè)降低成本、提升效率,進一步優(yōu)化用戶體驗。(記者 崔爽)
2024年開年,Sora的橫空出世,給AI界投下一枚重磅炸彈。
這個由美國人工智能公司OpenAI發(fā)布的文生視頻模型,只需要一段提示文本,就能生成具有多個角色和特定動作類型,且主題和背景基本準確的高清視頻。相較于Runway Gen 2、Pika等AI視頻生成應(yīng)用幾秒鐘連貫性的視頻產(chǎn)出,Sora可生成長達60秒的連續(xù)、穩(wěn)定、高品質(zhì)視頻,且提示文本越充分、細節(jié)越精確,生成的視頻越真實。
不過,出于可能被濫用的擔憂,OpenAI表示目前并沒有公開發(fā)布Sora的計劃。模型有限的訪問權(quán)限只被授予小部分研究人員和創(chuàng)意人士等群體,以便OpenAI獲取他們的使用反饋。
目前,官網(wǎng)上已更新了48個Sora生成的演示視頻。這些視頻清晰且真實的細節(jié)和超高的精度不禁引發(fā)人們思考:這是否意味著具備人類同等智能或超越人類智能的通用人工智能(AGI)的到來?
對研究AGI意義重大
Sora問世后,360集團創(chuàng)始人周鴻祎發(fā)表了看法:Sora的出現(xiàn)讓AGI到來的時間提前了。原來估計需要十來年,現(xiàn)在可能只要兩三年。他認為,Sora雖然看起來只是個文生視頻工具,但實際上是AI認知世界并與之進行交互的里程碑,會給整個產(chǎn)業(yè)帶來巨大進步。
“實現(xiàn)AGI的技術(shù)路線多樣,涉及不同的研究方法和應(yīng)用方向。”中國科學(xué)院自動化研究所副總工程師、紫東太初大模型中心常務(wù)副主任王金橋向科技日報記者介紹,目前,學(xué)術(shù)界和工業(yè)界廣泛討論的AGI技術(shù)路線主要有三條。一是信息智能,即“大數(shù)據(jù)+自監(jiān)督學(xué)習+大算力”。這種方法依賴大量數(shù)據(jù),通過自監(jiān)督學(xué)習算法來訓(xùn)練模型,同時需要巨大的計算能力來處理復(fù)雜任務(wù)。二是博弈智能。這種技術(shù)路線強調(diào)在人機交互中通過強化學(xué)習的方式訓(xùn)練智能體,使其能進行自主學(xué)習和決策。三是類腦智能。這種方法試圖通過模仿人腦的運行方式實現(xiàn)AGI。
在王金橋看來,根據(jù)官網(wǎng)的演示視頻,Sora至少在畫質(zhì)、長視頻生成、多鏡頭一致性、學(xué)習世界規(guī)律、多模態(tài)融合等方面實現(xiàn)突破。
“Sora能引發(fā)如此轟動,并不只是因為它生成的視頻時間更長、清晰度更高,而是因為它能在一定程度上模擬物理世界中的物體運動和交互。”王金橋說,“這種能力對于AGI的研究具有重要意義,因為它涉及機器對現(xiàn)實世界的深入理解和高度模擬,而這些是實現(xiàn)AGI的核心挑戰(zhàn)。”
記者了解到,為了準確模擬物理世界,Sora被投喂了極大規(guī)模的訓(xùn)練數(shù)據(jù),并使用了擴散模型等先進的算法。“對于AGI而言,Sora讓大家看到,規(guī)模效應(yīng)不只在文字模態(tài)上成立,在視頻模態(tài)上也成立。”北京月之暗面科技有限公司(Moonshot AI)聯(lián)合創(chuàng)始人周昕宇認為,“通過擴展視頻生成模型可以建立通用物理世界模擬器。這是實現(xiàn)AGI的必要過程。”
距真正實現(xiàn)AGI仍有距離
雖然進步顯著、令人驚艷,但Sora仍然存在一些技術(shù)缺陷。
從目前Sora生成的視頻來看,它在處理某些細節(jié)時可能會出錯,例如混淆物體的左右方向。同時,它也無法完全理解復(fù)雜的因果關(guān)系,或在長時間跨度內(nèi)保持故事線的高度一致連貫。這些技術(shù)缺陷導(dǎo)致生成的視頻內(nèi)容可能出現(xiàn)與邏輯錯誤,或與常識、真實情形不符的情況。
“Sora模擬真實物理世界的方式,是通過對給定的文字、圖像、參考視頻進行建模,然后預(yù)測想要生成的視頻數(shù)據(jù)的條件概率分布。這與語言模型的原理沒有本質(zhì)區(qū)別,同樣是在做無損壓縮。”周昕宇說,“只要壓縮得足夠好,就可以模擬出足夠真實的物理世界。”
王金橋強調(diào),盡管Sora能夠通過學(xué)習了解表層的運動和交互關(guān)系,但是還沒有學(xué)習到物理規(guī)律的本質(zhì)。比如,它不知道多大的風能吹滅蠟燭,不了解玻璃掉到地上會碎、掉到地毯上不會碎的本質(zhì)原因。這也是Sora目前最為人詬病之處。
“從Sora為數(shù)不多的公開資料來看,它仍是數(shù)據(jù)驅(qū)動下的擬合,也就是模擬人類所能看到的物理世界。但真實的物理世界遠不僅包含人類視覺信息。”北京中關(guān)村科金技術(shù)有限公司技術(shù)副總裁張杰認為,Sora的創(chuàng)意來自大數(shù)據(jù)量下的概率擬合,它并沒有產(chǎn)生新知識,距離“深度模擬真實物理世界”這一目標還有很長的路要走。
中國社會科學(xué)院哲學(xué)研究所科技哲學(xué)研究室主任、研究員段偉文同樣表達了審慎的觀點。“Sora這種近乎人類的表達實際上是一種基于現(xiàn)有數(shù)據(jù)和語料的合成智能。”他說,“它給實現(xiàn)AGI找到了一種可行的路徑,但距真正的AGI還有很長的距離,且對實現(xiàn)AGI的價值相對有限。”
事實上,實現(xiàn)AGI這一目標可謂道阻且長。王金橋談到了幾大挑戰(zhàn)。首先是數(shù)據(jù)瓶頸。盡管像GPT-4這樣的預(yù)訓(xùn)練語言模型在數(shù)據(jù)標注上取得了進展,但數(shù)據(jù)依然是深度學(xué)習中的一個關(guān)鍵限制因素;其次是泛化瓶頸。目前的AI系統(tǒng)往往在特定任務(wù)上表現(xiàn)出色,但在面對新任務(wù)時難以有效適應(yīng);最后是能耗瓶頸。隨著AI模型變得越來越復(fù)雜,所需的計算資源和能源消耗也越來越大。這對硬件設(shè)備提出了更高要求。
或?qū)⒙氏嚷涞貍髅筋I(lǐng)域
Sora的發(fā)布不僅推動了技術(shù)的發(fā)展,也引發(fā)了對AI治理和倫理的探討。
段偉文提到,OpenAI采取了相關(guān)手段來阻止不當視頻的發(fā)布。王金橋進一步解釋道, Sora內(nèi)置的文本提示過濾器可篩選發(fā)送給模型的所有提示,阻止對暴力、色情內(nèi)容、仇恨言論以及名人肖像等敏感或不適當內(nèi)容的請求。視頻內(nèi)容過濾器能檢查生成的視頻幀,屏蔽違反OpenAI安全政策的內(nèi)容。
另外,OpenAI團隊可能會定期對Sora進行優(yōu)化和更新,以改進其過濾機制,確保模型能夠更好地識別和處理敏感內(nèi)容。同時,團隊可能會監(jiān)控系統(tǒng)的使用情況,以便及時發(fā)現(xiàn)并解決新出現(xiàn)的問題。
“從技術(shù)上看,Sora避免極端暴力、色情、名人肖像等內(nèi)容出現(xiàn)的方式,主要依靠的是模型的對齊能力。”周昕宇說,“這一點和語言模型的區(qū)別不大,也已經(jīng)有比較多的實踐經(jīng)驗。”
據(jù)國際數(shù)據(jù)公司預(yù)測,Sora將率先在短視頻、廣告、互動娛樂、影視制作和媒體等傳媒領(lǐng)域得到應(yīng)用。Sora的諸多能力,可以輔助這些領(lǐng)域的工作者更高效地進行視頻創(chuàng)作,加快生產(chǎn)速度,提高產(chǎn)出數(shù)量。這將助力相關(guān)行業(yè)降低成本、提升效率,進一步優(yōu)化用戶體驗。(記者 崔爽)