為了減輕標注成本并在少樣本學習中增強魯棒性,基于自監(jiān)督任務的預訓練成為了一種有前景的方法,同時提示學習(prompting)被提出用于縮小預訓練任務和下游任務之間的目標差距。
盡管現(xiàn)有工作已經對基于提示的圖學習進行了一些初步探索,但它們主要利用單一預訓練任務,導致從預訓練數(shù)據中學習的通用知識有限。因此,本文研究者提出了 MultiGPrompt,一種新型的多任務預訓練和提示學習框架,用于利用多個預訓練任務以獲得更全面的預訓練知識。
論文題目:
MultiGPrompt for Multi-Task Pre-Training and Prompting on Graphs
論文鏈接:
https://arxiv.org/pdf/2312.03731.pdf
代碼鏈接:
https://github.com/Nashchou/MultiGPrompt
一、摘要
圖可模擬網絡中對象間的關系,從而促進一系列網絡應用的發(fā)展,如網絡分析和內容推薦。最近,圖神經網絡(GNNs)已成為圖表示學習的主流技術。然而,它們在端到端監(jiān)督框架內的有效性顯著地與特定任務的有標簽數(shù)據量相關。
為了減輕標注成本并在少樣本學習中增強魯棒性,基于自監(jiān)督任務的預訓練成為了一種有前景的方法,同時提示學習(prompting)被提出用于縮小預訓練任務和下游任務之間的目標差距。
盡管現(xiàn)有工作已經對基于提示的圖學習進行了一些初步探索,但它們主要利用單一預訓練任務,導致從預訓練數(shù)據中學習的通用知識有限。因此,在本文中,我們提出了 MultiGPrompt,一種新型的多任務預訓練和提示學習框架,用于利用多個預訓練任務以獲得更全面的預訓練知識。
首先,在預訓練中,我們設計了一系列預訓練標記(pretext token)以使多個預訓練任務協(xié)同合作。其次,我們提出了一個由組合提示(composed prompt)和開放提示(open prompt)組成的雙重提示機制,以利用特定預訓練任務和全局預訓練知識,從而指導少樣本場景中的下游任務。最后,我們在六個公共數(shù)據集上進行了廣泛的實驗以評估和分析 MultiGPrompt。
二、方法
2.1 多任務預訓練
本章中,我們討論了多任務預訓練的第一階段。 任何基于圖的預訓練任務都可以在我們的框架中使用。為了不失一般性,在我們的實驗中,我們利用了三個著名的預訓練任務,即 DGI 、GraphCL 和鏈接預測 。我們的目標是在預訓練標記(pretext token)的指導下,以協(xié)同的方式聚合多個預訓練任務的損失。
2.2 預訓練標記 Pretext Token
不同的預訓練任務往往關注圖上的不同特性,其損失函數(shù)也側重于反應不同的方面。因此直接將多個預訓練任務的損失函數(shù)直接聚合會由于不同任務間的互相干擾,導致結果不佳。
為了避免任務間干擾,我們利用了預訓練標記(pretext token)。在圖的上下文中,圖編碼器的不同層會反應圖的不同特征,因此對不同的預訓練任務具有不同的重要性。 我們?yōu)槊總€預訓練任務引入了一系列預訓練標記,以修改圖編碼器的輸入層、隱藏層和輸出層。
具體來說,考慮一個圖 ,一個總共有 層的編碼器,和 個前置任務。如圖2(a) 所示,我們提出了 組預訓練標記,表示為 。每個 表示第 個前置任務的 個預訓練標記,每層(包括輸入層)一個預訓練標記:
其中, 是一個可學習的向量,代表修改圖編碼器第 層的第 個預訓練任務的預訓練標記,對于 和 。這總共給出了 個前置標記,我們在圖 3 中展示了它們如何應用于修改一個預訓練任務的不同層。
接下來,給定任意預訓練標記 ,讓 表示在將前置標記 應用到圖編碼器的其中一層后得到的輸出,如下所示。
其中 表示其其中一層已被 修改。更具體地說,一個預訓練標記 將通過元素對位相乘修改圖編碼器的第 層為 ,其中我們將前置標記 與 的每一行逐元素相乘。隨后,當 l<L 時,下一層將被生成為
最后,對于第 個預訓練任務,我們生成一個特征矩陣 來計算任務損失。 我們進一步聚合 L 1 個嵌入矩陣,以獲得第 k 個任務的整體嵌入矩陣:
2.2.1 預訓練損失函數(shù)
為每個預訓練任務設計了特定預訓練標記后,我們的多任務預訓練可以協(xié)同獲取與每個預訓練任務相關的特定信息。在獲得第 個預訓練任務的特征矩陣后,我們可以計算相應的任務損失 ,其中 表示圖編碼器的模型權重。然后,我們將所有 個預訓練任務的損失聚合在一起,形成多任務預訓練階段的總體損失函數(shù):
2.3 下游提示學習
為了不僅利用特定任務的預訓練知識,而且還利用整個預訓練模型中的全局跨任務知識,我們提出了一個雙重提示機制,包括一組組合提示 和一組開放提示 。組合提示旨在通過可學習混合的預訓練標記將與訓練任務任務特定知識轉移到下游任務。同時,開放提示促進全局跨任務知識的轉移。組合提示和開放提示以與預訓練標記相同的方式應用于預訓練圖編碼器的不同層,如圖3所示。
2.3.1 組合提示
組合提示 修改了預訓練圖編碼器的第 層。然而, 并非直接可學習,而是由同一層中的 K 個預訓練前置標記的可學習組合構成,如下所示。
其中 是一個將 個預訓練標記“組合”在一起的函數(shù),例如線性組合或神經網絡,而 表示該函數(shù)的可學習參數(shù)。因此,組合提示旨在學習特定任務的預訓練知識的精確混合。
2.3.2 開放提示
類似于組合提示,一個開放提示 修改了預訓練圖編碼器的第 層。然而,與組合提示不同, 是直接學習的,而不是由預訓練標記組成。通過這種方式,開放提示不會提取任何特定預訓練任務的預訓練知識,而是全面地關注全局預訓練模型。
三、實驗
我們在六個基準數(shù)據集上進行了全面的實驗,以評估所提出的在少樣本節(jié)點分類和圖分類任務上的有效性。
3.1 少樣本學習表現(xiàn)
我們展示了1-shot節(jié)點分類和5-shot圖分類的結果。
3.1.1 1-shot節(jié)點分類
結果呈現(xiàn)在表2中。我們觀察到以下結果:
首先, 在所有四個數(shù)據集上都超越了所有基準,表明其在多任務預訓練整體策略中的優(yōu)勢。我們后續(xù)進行了一系列消融實驗,以評估特定設計的重要性。
其次,預訓練方法(DGI/InfoGraph, GraphCL)通常優(yōu)于監(jiān)督學習方法(GCN, GAT),因為前者組利用了預訓練模型。這些結果突顯了從無標簽圖中獲得通用知識的重要性。
最后,“預訓練,提示”方法,如 GraphPrompt 和我們的 ,可以進一步勝過沒有提示的預訓練方法,證明了基于提示的學習尤其在少樣本設置中的優(yōu)勢。
3.1.2 5-shot節(jié)點分類
我們進一步進行圖分類實驗,并在表2中展示結果。圖分類的趨勢與節(jié)點分類結果中觀察到的趨勢大致一致,這支持了 (以及更廣泛的基于提示的學習范式)在節(jié)點和圖層級任務上的通用性。
3.2 消融實驗
為了全面了解 中每個部分的影響,我們進行了兩項消融實驗分析。第一項分析研究了多個預訓練任務的效果,第二項分析則將 與使用不同提示的變體進行對比。
我們首先從三個只使用單個預訓練任務的基本變體開始:只使用 DGI/InfoGraph(DGI)、GraphCL 和鏈接預測(LP)。這三個基本變體在下游微調期間只簡單地使用分類器,不使用任何提示。
我們進一步比較了三個更高級的變體,即 DGI 、GraphCL 和 LP ,它們具有與 完全相同的框架和雙重提示設計,但只使用一個預訓練任務。
參考圖5,我們觀察到 始終優(yōu)于使用單個預訓練任務的所有變體,無論是否使用提示。這一發(fā)現(xiàn)強調了利用多個預訓練任務的價值。
接下來,對于多任務預訓練,我們通過移除我們雙重提示中的關鍵設計來分析 的幾個變體,包括使用預訓練標記、組合提示和開放提示。這些變體及其相應結果在表3中列出。結果證實了每個獨立設計的作用,如下分析結果。
首先,采用預訓練標記和組合提示是有益的。值得注意的是,變體 5 通常優(yōu)于不使用復合提示的變體 1 和 3。然而,僅使用預訓練標記,如變體 3與變體 1 相比并沒有穩(wěn)定的改善,這意味著前置標記與復合提示結合使用效果最佳。(注意復合提示是建立在前置標記之上的,沒有后者就無法單獨工作。)
其次,省略開放提示會導致性能下降,這在變體 2 和 4 相對于變體 1 和 3 的更高準確率中顯而易見。這表明通過開放提示利用全局跨任務知識的重要性。
最后,包括組合提示和開放提示的雙重提示設計證明是有益的,幫助 達到最優(yōu)性能。
四、總結與展望
在這篇論文中,我們探索了圖上的多任務預訓練和提示,旨在涵蓋來自多種前置任務的全面知識范圍。我們提出的方法 設計了一系列預訓練標記,以協(xié)同方式利用多個預訓練任務。
此外,我們引入了一個包括組合提示和開放提示的雙重提示機制,以利用特定預訓練任務的知識和全局跨任務知識。最后,我們在六個公共數(shù)據集上進行了廣泛的實驗,并證明 顯著優(yōu)于各種最先進的基準。
而本文提出的多任務預訓練與提示學習框架也或許為圖上大模型的實現(xiàn)提供了一條實現(xiàn)路徑。在大語言模型中,往往使用單詞掩碼這一通用的預訓練任務,并通過提示將預訓練知識遷移到下游任務。
但由于圖數(shù)據的復雜拓撲結構,使得單一的預訓練任務往往不能充分反映圖中的信息,而本文的多任務預訓練通過結合多種預訓練任務學習圖的各方面知識,從而可被視為一個通用的圖預訓練范式,而下游的雙重提示也為知識遷移帶來了優(yōu)秀的表現(xiàn),從而與大語言模型的形式更加接近,或許會成為通往圖大模型的路徑。
Illustration From IconScout By Delesign Graphics
-The End-
掃碼觀看!
本周上新!
“AI技術流”原創(chuàng)投稿計劃
TechBeat是由將門創(chuàng)投建立的AI學習社區(qū)(www.techbeat.net)。
社區(qū)上線500 期talk視頻,3000 篇技術干貨文章,方向覆蓋CV/NLP/ML/Robotis等;每月定期舉辦頂會及其他線上交流活動,不定期舉辦技術人線下聚會交流活動。我們正在努力成為AI人才喜愛的高質量、知識型交流平臺,希望為AI人才打造更專業(yè)的服務和體驗,加速并陪伴其成長。
投稿內容
// 最新技術解讀/系統(tǒng)性知識分享 //
// 前沿資訊解說/心得經歷講述 //
投稿須知
稿件需要為原創(chuàng)文章,并標明作者信息。
我們會選擇部分在深度技術解析及科研心得方向,對用戶啟發(fā)更大的文章,做原創(chuàng)性內容獎勵
投稿方式
發(fā)送郵件到
chenhongyuan@thejiangmen.com
或添加工作人員微信(chemn493)投稿,溝通投稿詳情;還可以關注“將門創(chuàng)投”公眾號,后臺回復“投稿”二字,獲得投稿說明。
>>> 添加小編微信!
關于我“門”
▼
將門是一家以專注于數(shù)智核心科技領域的新型創(chuàng)投機構,也是北京市標桿型孵化器。
公司致力于通過連接技術與商業(yè),發(fā)掘和培育具有全球影響力的科技創(chuàng)新企業(yè),推動企業(yè)創(chuàng)新發(fā)展與產業(yè)升級。
將門成立于2015年底,創(chuàng)始團隊由微軟創(chuàng)投在中國的創(chuàng)始團隊原班人馬構建而成,曾為微軟優(yōu)選和深度孵化了126家創(chuàng)新的技術型創(chuàng)業(yè)公司。
如果您是技術領域的初創(chuàng)企業(yè),不僅想獲得投資,還希望獲得一系列持續(xù)性、有價值的投后服務,
歡迎發(fā)送或者推薦項目給我“門”:
版權聲明:本文內容由互聯(lián)網用戶自發(fā)貢獻,該文觀點僅代表作者本人。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。如發(fā)現(xiàn)本站有涉嫌抄襲侵權/違法違規(guī)的內容, 請發(fā)送郵件至 舉報,一經查實,本站將立刻刪除。