萊斯大學(xué)胡俠團隊 ICML 2022 杰出論文: 新型圖數(shù)據(jù)增強方法 G-Mixup｜附作者對話

本文作者：我在思考中

2022-08-03 10:05

專題：ICML 2019

導(dǎo)語：ICML 2022 共評選出 15 篇杰出論文獎和 1 項時間檢驗獎。

萊斯大學(xué)胡俠團隊 ICML 2022 杰出論文: 新型圖數(shù)據(jù)增強方法 G-Mixup｜附作者對話

作者｜李梅

編輯｜陳彩嫻

近日，備受關(guān)注的第十九屆機器學(xué)習(xí)國際會議（ICML 2022）在美國馬里蘭州巴爾的摩市舉辦。自新冠疫情以來，大會首次恢復(fù)線下形式，采取線上線下結(jié)合的方式舉辦。

ICML2022概況

本屆大會共收到5630 篇投稿，其中，1117 篇被接收為short oral，118篇被接收為long oral。接收率為21.94%，與以往幾年基本持平。前幾日，本屆大會的全部獎項公布，共評選出15 篇杰出論文獎和 1 項時間檢驗獎。其中，復(fù)旦大學(xué)、上海交通大學(xué)、廈門大學(xué)、萊斯大學(xué)等多個華人團隊的工作被評位杰出論文獎。ICML 2012 的一篇論文《Poisoning Attacks against Support Vector Machines》獲得了時間檢驗獎。

獲獎?wù)撐男畔⒃斠姡篽ttps://icml.cc/virtual/2022/awards_detail

今年的杰出論文獎不同尋常，評選數(shù)量多達 15 篇。而同樣是 21% 左右的接受率，前年只評選出2篇杰出論文，去年則僅有1篇。

本文我們來關(guān)注一下今年獲獎的一篇優(yōu)秀工作。AI 科技評論此次采訪到獲得杰出論文獎的萊斯大學(xué)胡俠團隊，為我們解讀他們的研究工作。該團隊的獲獎?wù)撐念}目為：《G-Mixup: Graph Data Augmentation for Graph Classification》。作者：Xiaotian Han、Zhimeng Jiang、Ninghao Liu、Xia Hu。

論文地址：https://arxiv.org/pdf/2202.07179.pdf

在這項研究中，作者提出了一種新的圖數(shù)據(jù)增強方法：G-Mixup，實驗表明，G-Mixup 能夠提高圖神經(jīng)網(wǎng)絡(luò)的泛化性和魯棒性。

胡俠，現(xiàn)任美國萊斯大學(xué)終身副教授，數(shù)據(jù)科學(xué)中心主任，AIPOW聯(lián)合創(chuàng)始人兼首席科學(xué)家。其主導(dǎo)開發(fā)的開源系統(tǒng)AutoKeras成為最常用的自動機器學(xué)習(xí)框架之一（超過8000次star及1000次fork），開發(fā)的NCF算法及系統(tǒng)（單篇論文他引3000余次）成為主流人工智能框架TensorFlow的官方推薦系統(tǒng)，主導(dǎo)開發(fā)的異常檢測系統(tǒng)在通用、Trane、蘋果等公司的產(chǎn)品中得到廣泛應(yīng)用，研究工作多次獲得最佳論文（提名）獎。

獲獎工作G-Mixup介紹

研究背景

圖數(shù)據(jù)在我們的現(xiàn)實生活中無處不在，我們可以使用圖來建模和描述各種復(fù)雜網(wǎng)絡(luò)系統(tǒng)。而為了將圖數(shù)據(jù)應(yīng)用于具體任務(wù)，我們首先需要對圖數(shù)據(jù)進行表征。近年來，通過深度學(xué)習(xí)技術(shù)對圖數(shù)據(jù)進行表示學(xué)習(xí)的圖神經(jīng)網(wǎng)絡(luò)（GNNs），在節(jié)點分類任務(wù)上取得了最優(yōu)性能，因而已被廣泛用于圖形分析。同時，數(shù)據(jù)增強（data augmentation）和 Subgraph（子圖）也被用于圖分析，它們通過生成合成圖來創(chuàng)建更多訓(xùn)練數(shù)據(jù)，以提高圖分類模型的泛化性能。

當前流行的數(shù)據(jù)增強方法 Mixup 通過在兩個隨機樣本之間插入特征和標簽，在提高神經(jīng)網(wǎng)絡(luò)的泛化性和魯棒性方面顯示出優(yōu)越性。但是，Mixup 更適用于處理圖像數(shù)據(jù)或表格數(shù)據(jù)，直接將其用于圖數(shù)據(jù)并非易事，因為不同的圖通常：（1）有不同數(shù)量的節(jié)點；（2）不容易對齊；（3）在非歐幾里得空間中的類型學(xué)具有特殊性。

為此，提出了一種 class-level 的圖數(shù)據(jù)增強方法：G-Mixup。具體來說，首先使用同一類中的圖來估計一個 graphon。然后，在歐幾里得空間中對不同類的 graphons 進行插值，得到混合的 graphons，合成圖便是通過基于混合 graphons 的采樣生成的。經(jīng)實驗評估，G-Mixup 顯著提高了圖神經(jīng)網(wǎng)絡(luò)的泛化性和魯棒性。

G-Mixup的實現(xiàn)方法

G-Mixup。G-Mixup 是一種通過圖形插值的class-level數(shù)據(jù)增強方法。具體來說，G-Mixup 對不同的圖生成器（graphon）進行線性插值以獲得新的混合的生成器。然后，基于混合的新的生成器對合成圖進行采樣得到新的圖數(shù)據(jù)以進行數(shù)據(jù)增強。改論文從理論上證明從該生成器中采樣的圖部分具有原始圖的屬性。

如圖1所示，G-Mixup包括三個關(guān)鍵步驟：（1）為每一類圖估計一個graphon，（2）混合不同圖類的graphons，以及（3）基于混合的graphons采樣生成合成圖。

萊斯大學(xué)胡俠團隊 ICML 2022 杰出論文: 新型圖數(shù)據(jù)增強方法 G-Mixup｜附作者對話圖 1：在二值圖分類任務(wù)中，有兩類不同的圖 G 和 H，二者拓撲不同（G 有兩個社區(qū)，而 H 有八個社區(qū)）。G 和 H 具有不同的graphons。

Graphon 估計和 Mixup。作者使用矩陣形式的階進函數(shù)作為graphon來混合和生成合成圖。對階躍函數(shù)估計方法，作者首先根據(jù)節(jié)點測量值將節(jié)點對齊在一組圖中，然后從所有對齊的鄰接矩陣中估計階躍函數(shù)。

合成圖的生成。一個 graphon W 提供一個分布來生成任意大小的圖。

G-Mixup 的性能評估

那么，G-Mixup 在真實世界的圖數(shù)據(jù)上表現(xiàn)如何？作者團隊對 G-Mixup 的性能進行了評估。

一個數(shù)據(jù)集中不同類別的圖的 graphons 顯著不同。圖 2 表明現(xiàn)實世界中不同類別的圖有完全不同的graphons，這為通過融合 graphon 來生成混合的圖奠定了基礎(chǔ)。

萊斯大學(xué)胡俠團隊 ICML 2022 杰出論文: 新型圖數(shù)據(jù)增強方法 G-Mixup｜附作者對話圖2：IMDBBINAERY 的 graphons 顯示 class 1 的 graphon 有更大的密集區(qū)域，這表明該類中的圖比 class 0 中的圖具有更大的社區(qū)。REDDIT-BINARY 的 graphons 顯示，class 0 中的圖有一個高度節(jié)點，而 class 1 中的圖有兩個。

G-Mixup 合成的圖是原始圖的混合。作者團隊將在 REDDIT-BINARY 數(shù)據(jù)集上生成的合成圖進行可視化，如圖 3，混合 graphon(0.5?W0+0.5?W1) 能夠生成包含高度節(jié)點和密集子圖的圖，這可看作是包含 1 個高度節(jié)點和包含 2 個高度節(jié)點的圖的混合圖。這驗證了 G-Mixup 更傾向于保留來自原始圖的區(qū)別性圖案，其合成圖確實是原始圖的混合。

萊斯大學(xué)胡俠團隊 ICML 2022 杰出論文: 新型圖數(shù)據(jù)增強方法 G-Mixup｜附作者對話

圖3：在 REDDIT-BINARY 數(shù)據(jù)集上生成的合成圖的可視化。

G-Mixup 可以提高 GNN 在各種數(shù)據(jù)集上的性能。作者比較了使用 G-Mixup 的各種GNN主干網(wǎng)絡(luò)在不同數(shù)據(jù)集上的性能。實驗結(jié)果表明，G-Mixup可以提高圖神經(jīng)網(wǎng)絡(luò)在各種數(shù)據(jù)集上的性能。

G -Mixup 可以提高 GNN 的魯棒性。作者對 G-Mixup 的兩種魯棒性（標簽腐蝕的魯棒性和拓撲腐蝕的魯棒性）進行研究，發(fā)現(xiàn) G-Mixup 能夠提高 GNN 的魯棒性。

結(jié)論

這項工作提出了一種名為 G-Mixup 的新型圖增強方法。與圖像數(shù)據(jù)不同，圖數(shù)據(jù)是不規(guī)則的、未對齊的且處于非歐幾里得空間中，因此很難進行混合。然而，同一類別中的圖具有相同的生成器（即graphon），它是規(guī)則的、良好對齊的且處于歐幾里得空間中。因此，作者轉(zhuǎn)而對不同類別的 graphons進行混合來生成合成圖。綜合實驗表明，使用 G-Mixup 訓(xùn)練的 GNN 獲得了更好的性能和泛化能力，并提高了模型對噪聲標簽和被損壞拓撲的魯棒性。

AI 科技評論對話G-Mixup作者團隊

AI 科技評論：祝賀你們的研究獲得ICML 2022杰出論文獎。首先，能否概括一下你們這項工作的主要貢獻？

作者團隊：我們提出了 G-Mixup 來增強用于圖分類的訓(xùn)練圖。由于直接混合圖是難以處理的，因此 G-Mixup 將不同類別的圖的圖元混合以生成合成圖。其次，我們理論上證明合成圖將是原始圖的混合，其中源圖的關(guān)鍵拓撲（即判別主題）將被混合。最后，我們證明了所提出的 G-Mixup 在各種圖神經(jīng)網(wǎng)絡(luò)和數(shù)據(jù)集上的有效性。大量的實驗結(jié)果表明，G-Mixup 能夠增強圖神經(jīng)網(wǎng)絡(luò)的泛化性和魯棒性。

AI 科技評論：當時論文收到的審稿意見是怎樣的？

作者團隊：審稿意見總體比較positive，不過當時審稿人對我們做數(shù)據(jù)增強的意義有一點疑問，我們對此作了詳細的解釋，比如就訓(xùn)練而言，有時訓(xùn)練數(shù)據(jù)集特別少，我們就可以用數(shù)據(jù)增強來獲取更多的數(shù)據(jù)。審稿人在最后的意見中也表明認識到了數(shù)據(jù)增強的重要意義。

AI 科技評論：與以往的Mixup方法相比，G-Mixup的不同之處在什么地方？

作者團隊：Mixup 技術(shù)主要應(yīng)用在圖像上，已經(jīng)比較成熟，它是將訓(xùn)練數(shù)據(jù)中的兩個數(shù)據(jù)集線性地加起來，得到一個新的訓(xùn)練數(shù)據(jù)，從而完成數(shù)據(jù)擴增。但它在圖數(shù)據(jù)上還沒有一個很好的解決方案。而我們的G-Mixup 是一個簡單且有效的方法，它是對不同類別的圖生成器進行混合來生成合成圖。

AI科技評論：與圖像數(shù)據(jù)和表格數(shù)據(jù)相比，對圖數(shù)據(jù)做mixup的難點在什么地方？

作者團隊：目前針對圖的mixup的研究比較少，因為圖數(shù)據(jù)比較難處理，它不容易表示，而且兩個圖的節(jié)點數(shù)量、無結(jié)構(gòu)信息是不一樣的，所以很難將其融合到一起。圖像數(shù)據(jù)和表格數(shù)據(jù)可以表示成連續(xù)的向量或矩陣的形式，所以很容易做融合，但圖數(shù)據(jù)無法表示成這種形式。

AI科技評論：為什么說G-Mixup 是一種Class-level的圖數(shù)據(jù)增強方法？

作者團隊：我們是用兩個類來生成一個新的類，我們用多張圖來估計圖的生成規(guī)則也就是圖的生成器，然后對每一類圖來估計一個生成器，這樣來生成一個新的類別。以往針對圖像的mixup是用兩張圖片來做，屬于instance-level，但針對圖的處理方法與此不同。

AI科技評論：有哪些途徑可以提高圖神經(jīng)網(wǎng)絡(luò)的泛化性？

作者團隊：比如設(shè)計新的網(wǎng)絡(luò)結(jié)構(gòu)，做數(shù)據(jù)增強，以及訓(xùn)練技巧方面的一些工作，都可以提高泛化性，我們這項工作展示的是其中一種方法。

AI科技評論：針對這項工作所研究的問題，有什么下一步的研究計劃？

作者團隊：我們這項工作提出的方法主要是用于圖分類任務(wù)，以后我們可以進一步考慮在節(jié)點分類任務(wù)上做融合，節(jié)點分類也是圖神經(jīng)網(wǎng)絡(luò)方面的一個重要任務(wù)。

AI科技評論：這次獲得杰出論文獎，有沒有什么經(jīng)驗、體會可以分享？

作者團隊：首先文章的寫作質(zhì)量要好，要將研究清楚地表述出來；研究的 idea 要十分合理；以及，研究問題本身要有意義和價值。

AI科技評論：這項研究的成果對相關(guān)領(lǐng)域有怎樣的影響？有哪些實際應(yīng)用的價值？

作者團隊：由于圖數(shù)據(jù)的本身特性，使得mixup這個在其他數(shù)據(jù)上很有效的方法不能直接適用在圖數(shù)據(jù)上，我們提出的g-mixup使用了圖生成器去融合圖數(shù)據(jù)，實現(xiàn)了class-level的圖數(shù)據(jù)mixup，希望能對圖數(shù)據(jù)的mixup能有一定的啟發(fā)作用。希望提出的方法能夠在圖生成，新藥物發(fā)現(xiàn)方向能有一定的啟發(fā)。

更多內(nèi)容，點擊下方關(guān)注：

掃碼添加 AI 科技評論微信號，投稿&進群：