核心提示:從計(jì)算機(jī)網(wǎng)絡(luò)到大型強(qiáng)子對(duì)撞機(jī)中的粒子相互作用,圖可以用來(lái)模擬任何東西。圖之所以無(wú)處不在,是因?yàn)樗鼈兙哂须x散性和組合性,這
從計(jì)算機(jī)網(wǎng)絡(luò)到大型強(qiáng)子對(duì)撞機(jī)中的粒子相互作用,圖可以用來(lái)模擬任何東西。圖之所以無(wú)處不在,是因?yàn)樗鼈兙哂须x散性和組合性,這使得它們能夠表達(dá)抽象關(guān)系,同時(shí)又易于計(jì)算。它們受歡迎的原因之一是圖抽象出幾何圖形,即節(jié)點(diǎn)在空間中的位置或邊緣是如何彎曲的,只留下節(jié)點(diǎn)如何連接的表示。
圖論起源于萊昂哈德 · 歐拉(Leonhard Euler)在1741年的著作《geometria situs》中的觀察,他指出著名的柯尼斯堡七橋問(wèn)題問(wèn)題沒(méi)有解決方案。
Michael Bronstein從代數(shù)拓?fù)鋵W(xué)取經(jīng),提出了一種新的圖神經(jīng)網(wǎng)絡(luò)計(jì)算結(jié)構(gòu)!
圖注:七橋問(wèn)題要求在哥尼斯堡市內(nèi)找到一條循環(huán)行走的路線,不需要多次過(guò)橋。正如歐拉所說(shuō),哥尼斯堡市的確切形狀并不重要,重要的是不同的土地(圖的節(jié)點(diǎn))是如何相互連接的(邊)。歐拉表明,當(dāng)且僅當(dāng)所有節(jié)點(diǎn)具有偶數(shù)度時(shí),這樣的循環(huán)才存在。另外,最初的橋梁中只有五座存活到現(xiàn)代。
有趣的是,歐拉的發(fā)現(xiàn)不僅標(biāo)志著圖論的開始,而且也常常被認(rèn)為是拓?fù)鋵W(xué)誕生的標(biāo)志。與圖一樣,拓?fù)鋵W(xué)家對(duì)空間的那些與其特定形狀或幾何形狀無(wú)關(guān)的屬性感興趣。
這些思想的現(xiàn)代表現(xiàn)形式出現(xiàn)在1895年的“分析地點(diǎn)” (Analysis situs),這是 Henri Poincaré 的一篇開創(chuàng)性的論文,他的工作點(diǎn)燃了對(duì)流形的組合描述的興趣,從這些流形中可以更容易地找到和計(jì)算拓?fù)洳蛔兞俊?br />
Michael Bronstein從代數(shù)拓?fù)鋵W(xué)取經(jīng),提出了一種新的圖神經(jīng)網(wǎng)絡(luò)計(jì)算結(jié)構(gòu)!
這些組合描述今天被稱為細(xì)胞復(fù)合體 ,可以被認(rèn)為是圖的高維概括。
與由節(jié)點(diǎn)和邊形成的圖不同,細(xì)胞復(fù)合體也可以包含更高維的結(jié)構(gòu)或“細(xì)胞”:頂點(diǎn)是0-細(xì)胞,邊是1-細(xì)胞,2D 表面是2-細(xì)胞等。為了構(gòu)建一個(gè)細(xì)胞復(fù)合體,我們可以通過(guò)將一個(gè)細(xì)胞的邊界粘合到其他低維細(xì)胞上來(lái)進(jìn)行分層。
在特殊情況下,當(dāng)單元格由單形(如邊、三角形、四面體等)構(gòu)成時(shí),這些空間也稱為單形復(fù)合體。
Michael Bronstein從代數(shù)拓?fù)鋵W(xué)取經(jīng),提出了一種新的圖神經(jīng)網(wǎng)絡(luò)計(jì)算結(jié)構(gòu)!
1
機(jī)器學(xué)習(xí)與數(shù)據(jù)科學(xué)中的拓?fù)?br /> 我們認(rèn)為,人們不必等待 400 年才將把拓?fù)鋵W(xué)變成一種實(shí)用的工具。
在拓?fù)鋽?shù)據(jù)分析(TDA)的保護(hù)傘下,諸如淺層復(fù)合物這樣的拓?fù)浣Y(jié)構(gòu)已經(jīng)被用于機(jī)器學(xué)習(xí)和數(shù)據(jù)科學(xué),這類方法出現(xiàn)在20世紀(jì)90年代,試圖以一種對(duì)度量不敏感和對(duì)噪聲穩(wěn)健的方式來(lái)分析“數(shù)據(jù)的形狀”。
TDA的根源可以追溯到20世紀(jì)20年代末最多產(chǎn)的拓?fù)鋵W(xué)家之一 Leopold Vietnam oris 的工作。然而,這些技術(shù)必須等到現(xiàn)代計(jì)算的誕生才能大規(guī)模應(yīng)用。
Michael Bronstein從代數(shù)拓?fù)鋵W(xué)取經(jīng),提出了一種新的圖神經(jīng)網(wǎng)絡(luò)計(jì)算結(jié)構(gòu)!
給定一個(gè)點(diǎn)云,每個(gè)點(diǎn)周圍固定半徑的封閉球之間的交叉點(diǎn)產(chǎn)生一個(gè)簡(jiǎn)單的復(fù)合體。通過(guò)逐步增加球的半徑,我們可以得到一個(gè)嵌套的簡(jiǎn)單復(fù)合體序列。圖源:Bastian Rieck。
TDA 的主力是持久性同源性(PH),一種從點(diǎn)云中提取拓?fù)涮卣鞯姆椒。給定一個(gè)點(diǎn)的數(shù)據(jù)集,PH 創(chuàng)建一個(gè)簡(jiǎn)單復(fù)數(shù)的嵌套序列,其中每個(gè)復(fù)數(shù)對(duì)應(yīng)于分析基礎(chǔ)點(diǎn)云的某個(gè)比例。然后,它跟蹤各種拓?fù)涮卣鳎ɡ,連接的組件、循環(huán)或空洞) ,這些特征隨著比例的逐漸增加而出現(xiàn)和消失,并且人們從序列中的一個(gè)復(fù)合物過(guò)渡到下一個(gè)復(fù)合物。
在深度學(xué)習(xí)時(shí)代,持久性同源性有了“第二次生命”,因?yàn)樗砻魅藗兛梢酝ㄟ^(guò)它進(jìn)行反向傳播,從而允許將已經(jīng)建立的 TDA 設(shè)備集成到深度學(xué)習(xí)框架中。
最近的一系列工作提出了在幾何深度學(xué)習(xí)中簡(jiǎn)化和細(xì)胞復(fù)合體的不同用途,作為一個(gè)更豐富的底層拓?fù)淇臻g來(lái)支持?jǐn)?shù)據(jù)和對(duì)其進(jìn)行的計(jì)算。
最早利用這一觀點(diǎn)的幾項(xiàng)工作提出了卷積模型以及在簡(jiǎn)化復(fù)合體上操作的隨機(jī)行走方法。如在本文中,卷積模型可以被理解為簡(jiǎn)單和細(xì)胞復(fù)合體上信息傳遞的具體實(shí)例。
由于計(jì)算是由這些空間的拓?fù)浣Y(jié)構(gòu)(即鄰域結(jié)構(gòu))驅(qū)動(dòng)的,我們把這套方法稱為拓?fù)湫畔鬟f。在這個(gè)框架中,相鄰的單元,可能是不同維度的,正在交換信息,如下圖所示。
Michael Bronstein從代數(shù)拓?fù)鋵W(xué)取經(jīng),提出了一種新的圖神經(jīng)網(wǎng)絡(luò)計(jì)算結(jié)構(gòu)!
拓?fù)湫畔鬟f示意圖。藍(lán)色箭頭描述了上層相鄰細(xì)胞之間的“水平”信息傳播,即同一高維細(xì)胞的邊界上的細(xì)胞。紅色箭頭描述了“垂直”信息傳播,即細(xì)胞從其邊界的低維細(xì)胞中接收信息。將來(lái)自邊界細(xì)胞的信息匯總到一個(gè)更粗的表示中,這種計(jì)算可以被解釋為一種(可微分的)集合形式。
在 GNN 中超越圖
盡管細(xì)胞復(fù)合體提供了豐富的結(jié)構(gòu),但我們不能忽視圖是迄今為止機(jī)器學(xué)習(xí)中最常見的拓?fù)鋵?duì)象,而且很少有數(shù)據(jù)集能超越它們。盡管如此,人們?nèi)匀豢梢酝ㄟ^(guò)轉(zhuǎn)換輸入圖來(lái)利用這些有趣的拓?fù)淇臻g。
我們把將圖轉(zhuǎn)換為高維拓?fù)淇臻g稱為“提升”,以類似于范疇理論中的同名概念。它是一種轉(zhuǎn)換,通過(guò)遵循某些規(guī)則將高維單元附加到輸入圖上。例如,一個(gè)圖可以通過(guò)在圖的每個(gè)懸崖或周期上附加一個(gè)高維單元而被提升為一個(gè)單元復(fù)合體。通過(guò)這樣做,圖被替換成一個(gè)不同的空間,它有更多的結(jié)構(gòu),可以為GNN提供一個(gè)比原始圖更好的計(jì)算結(jié)構(gòu)。在下文中,我們將討論這種方法的具體優(yōu)勢(shì)。
Michael Bronstein從代數(shù)拓?fù)鋵W(xué)取經(jīng),提出了一種新的圖神經(jīng)網(wǎng)絡(luò)計(jì)算結(jié)構(gòu)!
通過(guò)將二維封閉圓盤的邊界粘合到圖中的誘導(dǎo)循環(huán)上,可以從圖中構(gòu)造出高維的細(xì)胞復(fù)合體。
高階特征和結(jié)構(gòu)
GNN通常采用以節(jié)點(diǎn)為中心的觀點(diǎn),駐留在邊上的數(shù)據(jù)僅被視為增加頂點(diǎn)間通信的輔助信息。在拓?fù)湫畔鬟f中,所有單元都是一等公民。無(wú)論它們的維度如何,它們都被分配了一個(gè)特定的表示,這個(gè)表示是通過(guò)與相鄰的單元交換信息而發(fā)展起來(lái)的。這為明確地模擬某些高階結(jié)構(gòu)和它們之間的相互作用提供了一個(gè)秘訣。特別是,它提供了一種原則性的方法來(lái)演化輸入圖的邊緣(即1個(gè)單元)特征,這是一大類 GNN 模型沒(méi)有考慮到的問(wèn)題。
高階交互
圖表根據(jù)定義是二元的(“成對(duì)的”),不能表示涉及兩個(gè)以上對(duì)象的關(guān)系和交互。在對(duì)以高階相互作用為特征的復(fù)雜系統(tǒng)進(jìn)行建模時(shí),這可能是一個(gè)問(wèn)題:例如,化學(xué)反應(yīng)中的三種反應(yīng)物可能同時(shí)發(fā)生相互作用。在細(xì)胞復(fù)合體中,這種情況可以通過(guò)兩個(gè)細(xì)胞(即“填充”三角形)連接反應(yīng)物來(lái)編碼。因此,模型的計(jì)算流程適應(yīng)高階交互的存在。
Michael Bronstein從代數(shù)拓?fù)鋵W(xué)取經(jīng),提出了一種新的圖神經(jīng)網(wǎng)絡(luò)計(jì)算結(jié)構(gòu)!
圖注:七橋問(wèn)題要求在哥尼斯堡市內(nèi)找到一條循環(huán)行走的路線,不需要多次過(guò)橋。正如歐拉所說(shuō),哥尼斯堡市的確切形狀并不重要,重要的是不同的土地(圖的節(jié)點(diǎn))是如何相互連接的(邊)。歐拉表明,當(dāng)且僅當(dāng)所有節(jié)點(diǎn)具有偶數(shù)度時(shí),這樣的循環(huán)才存在。另外,最初的橋梁中只有五座存活到現(xiàn)代。
有趣的是,歐拉的發(fā)現(xiàn)不僅標(biāo)志著圖論的開始,而且也常常被認(rèn)為是拓?fù)鋵W(xué)誕生的標(biāo)志。與圖一樣,拓?fù)鋵W(xué)家對(duì)空間的那些與其特定形狀或幾何形狀無(wú)關(guān)的屬性感興趣。
這些思想的現(xiàn)代表現(xiàn)形式出現(xiàn)在1895年的“分析地點(diǎn)” (Analysis situs),這是 Henri Poincaré 的一篇開創(chuàng)性的論文,他的工作點(diǎn)燃了對(duì)流形的組合描述的興趣,從這些流形中可以更容易地找到和計(jì)算拓?fù)洳蛔兞俊?br />
Michael Bronstein從代數(shù)拓?fù)鋵W(xué)取經(jīng),提出了一種新的圖神經(jīng)網(wǎng)絡(luò)計(jì)算結(jié)構(gòu)!
這些組合描述今天被稱為細(xì)胞復(fù)合體 ,可以被認(rèn)為是圖的高維概括。
與由節(jié)點(diǎn)和邊形成的圖不同,細(xì)胞復(fù)合體也可以包含更高維的結(jié)構(gòu)或“細(xì)胞”:頂點(diǎn)是0-細(xì)胞,邊是1-細(xì)胞,2D 表面是2-細(xì)胞等。為了構(gòu)建一個(gè)細(xì)胞復(fù)合體,我們可以通過(guò)將一個(gè)細(xì)胞的邊界粘合到其他低維細(xì)胞上來(lái)進(jìn)行分層。
在特殊情況下,當(dāng)單元格由單形(如邊、三角形、四面體等)構(gòu)成時(shí),這些空間也稱為單形復(fù)合體。
Michael Bronstein從代數(shù)拓?fù)鋵W(xué)取經(jīng),提出了一種新的圖神經(jīng)網(wǎng)絡(luò)計(jì)算結(jié)構(gòu)!
1
機(jī)器學(xué)習(xí)與數(shù)據(jù)科學(xué)中的拓?fù)?br /> 我們認(rèn)為,人們不必等待 400 年才將把拓?fù)鋵W(xué)變成一種實(shí)用的工具。
在拓?fù)鋽?shù)據(jù)分析(TDA)的保護(hù)傘下,諸如淺層復(fù)合物這樣的拓?fù)浣Y(jié)構(gòu)已經(jīng)被用于機(jī)器學(xué)習(xí)和數(shù)據(jù)科學(xué),這類方法出現(xiàn)在20世紀(jì)90年代,試圖以一種對(duì)度量不敏感和對(duì)噪聲穩(wěn)健的方式來(lái)分析“數(shù)據(jù)的形狀”。
TDA的根源可以追溯到20世紀(jì)20年代末最多產(chǎn)的拓?fù)鋵W(xué)家之一 Leopold Vietnam oris 的工作。然而,這些技術(shù)必須等到現(xiàn)代計(jì)算的誕生才能大規(guī)模應(yīng)用。
Michael Bronstein從代數(shù)拓?fù)鋵W(xué)取經(jīng),提出了一種新的圖神經(jīng)網(wǎng)絡(luò)計(jì)算結(jié)構(gòu)!
給定一個(gè)點(diǎn)云,每個(gè)點(diǎn)周圍固定半徑的封閉球之間的交叉點(diǎn)產(chǎn)生一個(gè)簡(jiǎn)單的復(fù)合體。通過(guò)逐步增加球的半徑,我們可以得到一個(gè)嵌套的簡(jiǎn)單復(fù)合體序列。圖源:Bastian Rieck。
TDA 的主力是持久性同源性(PH),一種從點(diǎn)云中提取拓?fù)涮卣鞯姆椒。給定一個(gè)點(diǎn)的數(shù)據(jù)集,PH 創(chuàng)建一個(gè)簡(jiǎn)單復(fù)數(shù)的嵌套序列,其中每個(gè)復(fù)數(shù)對(duì)應(yīng)于分析基礎(chǔ)點(diǎn)云的某個(gè)比例。然后,它跟蹤各種拓?fù)涮卣鳎ɡ,連接的組件、循環(huán)或空洞) ,這些特征隨著比例的逐漸增加而出現(xiàn)和消失,并且人們從序列中的一個(gè)復(fù)合物過(guò)渡到下一個(gè)復(fù)合物。
在深度學(xué)習(xí)時(shí)代,持久性同源性有了“第二次生命”,因?yàn)樗砻魅藗兛梢酝ㄟ^(guò)它進(jìn)行反向傳播,從而允許將已經(jīng)建立的 TDA 設(shè)備集成到深度學(xué)習(xí)框架中。
最近的一系列工作提出了在幾何深度學(xué)習(xí)中簡(jiǎn)化和細(xì)胞復(fù)合體的不同用途,作為一個(gè)更豐富的底層拓?fù)淇臻g來(lái)支持?jǐn)?shù)據(jù)和對(duì)其進(jìn)行的計(jì)算。
最早利用這一觀點(diǎn)的幾項(xiàng)工作提出了卷積模型以及在簡(jiǎn)化復(fù)合體上操作的隨機(jī)行走方法。如在本文中,卷積模型可以被理解為簡(jiǎn)單和細(xì)胞復(fù)合體上信息傳遞的具體實(shí)例。
由于計(jì)算是由這些空間的拓?fù)浣Y(jié)構(gòu)(即鄰域結(jié)構(gòu))驅(qū)動(dòng)的,我們把這套方法稱為拓?fù)湫畔鬟f。在這個(gè)框架中,相鄰的單元,可能是不同維度的,正在交換信息,如下圖所示。
Michael Bronstein從代數(shù)拓?fù)鋵W(xué)取經(jīng),提出了一種新的圖神經(jīng)網(wǎng)絡(luò)計(jì)算結(jié)構(gòu)!
拓?fù)湫畔鬟f示意圖。藍(lán)色箭頭描述了上層相鄰細(xì)胞之間的“水平”信息傳播,即同一高維細(xì)胞的邊界上的細(xì)胞。紅色箭頭描述了“垂直”信息傳播,即細(xì)胞從其邊界的低維細(xì)胞中接收信息。將來(lái)自邊界細(xì)胞的信息匯總到一個(gè)更粗的表示中,這種計(jì)算可以被解釋為一種(可微分的)集合形式。
在 GNN 中超越圖
盡管細(xì)胞復(fù)合體提供了豐富的結(jié)構(gòu),但我們不能忽視圖是迄今為止機(jī)器學(xué)習(xí)中最常見的拓?fù)鋵?duì)象,而且很少有數(shù)據(jù)集能超越它們。盡管如此,人們?nèi)匀豢梢酝ㄟ^(guò)轉(zhuǎn)換輸入圖來(lái)利用這些有趣的拓?fù)淇臻g。
我們把將圖轉(zhuǎn)換為高維拓?fù)淇臻g稱為“提升”,以類似于范疇理論中的同名概念。它是一種轉(zhuǎn)換,通過(guò)遵循某些規(guī)則將高維單元附加到輸入圖上。例如,一個(gè)圖可以通過(guò)在圖的每個(gè)懸崖或周期上附加一個(gè)高維單元而被提升為一個(gè)單元復(fù)合體。通過(guò)這樣做,圖被替換成一個(gè)不同的空間,它有更多的結(jié)構(gòu),可以為GNN提供一個(gè)比原始圖更好的計(jì)算結(jié)構(gòu)。在下文中,我們將討論這種方法的具體優(yōu)勢(shì)。
Michael Bronstein從代數(shù)拓?fù)鋵W(xué)取經(jīng),提出了一種新的圖神經(jīng)網(wǎng)絡(luò)計(jì)算結(jié)構(gòu)!
通過(guò)將二維封閉圓盤的邊界粘合到圖中的誘導(dǎo)循環(huán)上,可以從圖中構(gòu)造出高維的細(xì)胞復(fù)合體。
高階特征和結(jié)構(gòu)
GNN通常采用以節(jié)點(diǎn)為中心的觀點(diǎn),駐留在邊上的數(shù)據(jù)僅被視為增加頂點(diǎn)間通信的輔助信息。在拓?fù)湫畔鬟f中,所有單元都是一等公民。無(wú)論它們的維度如何,它們都被分配了一個(gè)特定的表示,這個(gè)表示是通過(guò)與相鄰的單元交換信息而發(fā)展起來(lái)的。這為明確地模擬某些高階結(jié)構(gòu)和它們之間的相互作用提供了一個(gè)秘訣。特別是,它提供了一種原則性的方法來(lái)演化輸入圖的邊緣(即1個(gè)單元)特征,這是一大類 GNN 模型沒(méi)有考慮到的問(wèn)題。
高階交互
圖表根據(jù)定義是二元的(“成對(duì)的”),不能表示涉及兩個(gè)以上對(duì)象的關(guān)系和交互。在對(duì)以高階相互作用為特征的復(fù)雜系統(tǒng)進(jìn)行建模時(shí),這可能是一個(gè)問(wèn)題:例如,化學(xué)反應(yīng)中的三種反應(yīng)物可能同時(shí)發(fā)生相互作用。在細(xì)胞復(fù)合體中,這種情況可以通過(guò)兩個(gè)細(xì)胞(即“填充”三角形)連接反應(yīng)物來(lái)編碼。因此,模型的計(jì)算流程適應(yīng)高階交互的存在。