《電子技術(shù)應(yīng)用》
您所在的位置:首頁 > 人工智能 > 業(yè)界動態(tài) > 香港大學(xué)開源圖基礎(chǔ)大模型OpenGraph

香港大學(xué)開源圖基礎(chǔ)大模型OpenGraph

強(qiáng)泛化能力,前向傳播預(yù)測新數(shù)據(jù)
2024-05-09
來源:量子位
關(guān)鍵詞: OpenGraph 圖基礎(chǔ)大模型

圖學(xué)習(xí)領(lǐng)域的數(shù)據(jù)饑荒問題,又有能緩解的新花活了!

OpenGraph,一個(gè)基于圖的基礎(chǔ)模型,專門用于在多種圖數(shù)據(jù)集上進(jìn)行零樣本預(yù)測。

背后是港大數(shù)據(jù)智能實(shí)驗(yàn)室的主任Chao Huang團(tuán)隊(duì),他們還針對圖模型提出了提示調(diào)整技術(shù),以提高模型對新任務(wù)的適應(yīng)性。

目前,這項(xiàng)工作已經(jīng)掛上了GitHub。

據(jù)介紹,這項(xiàng)工作主要深入探討增強(qiáng)圖模型泛化能力的策略(特別是在訓(xùn)練和測試數(shù)據(jù)存在顯著差異時(shí))。

而OpenGraph旨在通過學(xué)習(xí)通用的圖結(jié)構(gòu)模式,并僅通過前向傳播進(jìn)行預(yù)測,實(shí)現(xiàn)對全新數(shù)據(jù)的零樣本預(yù)測。

1.jpg

為了實(shí)現(xiàn)目標(biāo),團(tuán)隊(duì)解決了以下3點(diǎn)挑戰(zhàn):

數(shù)據(jù)集間的token差異:不同圖數(shù)據(jù)集常有不同的圖token集,我們需要模型能夠跨數(shù)據(jù)集進(jìn)行預(yù)測。

節(jié)點(diǎn)關(guān)系建模:在構(gòu)建通用圖模型時(shí),有效地建模節(jié)點(diǎn)關(guān)系至關(guān)重要,這關(guān)系到模型的擴(kuò)展性和效率。

數(shù)據(jù)稀缺:面對數(shù)據(jù)獲取的難題,我們通過大型語言模型進(jìn)行數(shù)據(jù)增強(qiáng),以模擬復(fù)雜的圖結(jié)構(gòu)關(guān)系,提升模型訓(xùn)練質(zhì)量。

通過一系列創(chuàng)新方法,如拓?fù)涓兄膱DTokenizer和基于錨點(diǎn)的圖Transformer,OpenGraph有效應(yīng)對上述挑戰(zhàn),在多個(gè)數(shù)據(jù)集上的測試結(jié)果證明了模型的出色泛化能力。

OpenGraph模型


OpenGraph模型架構(gòu)主要由3個(gè)核心部分組成:

1)統(tǒng)一圖Tokenizer;
2)可擴(kuò)展的圖Transformer;
3)基于大語言模型的知識蒸餾技術(shù)。

首先來說說統(tǒng)一圖Tokenizer。

為了適應(yīng)不同數(shù)據(jù)集的節(jié)點(diǎn)和邊的差異,團(tuán)隊(duì)開發(fā)了統(tǒng)一圖Tokenizer,它將圖數(shù)據(jù)標(biāo)準(zhǔn)化為token序列。

這一過程包括高階鄰接矩陣平滑化和拓?fù)涓兄成洹?/p>

高階鄰接矩陣平滑化即利用鄰接矩陣的高階冪來解決連接稀疏的問題,而拓?fù)涓兄成鋭t是將鄰接矩陣轉(zhuǎn)換為節(jié)點(diǎn)序列,并使用快速奇異值分解(SVD)最小化信息損失,保留更多的圖結(jié)構(gòu)信息。

其次是可擴(kuò)展的圖Transformer。

在token化后,OpenGraph使用Transformer架構(gòu)模擬節(jié)點(diǎn)間的依賴,主要采用以下技術(shù)優(yōu)化模型性能和效率:

一來是token序列采樣,通過采樣技術(shù)減少模型需要處理的關(guān)系數(shù)量,從而降低訓(xùn)練的時(shí)間和空間復(fù)雜度。

二來是錨點(diǎn)采樣的自注意力機(jī)制。此方法進(jìn)一步降低計(jì)算復(fù)雜度,通過分階段學(xué)習(xí)節(jié)點(diǎn)間的信息傳遞,有效提高模型的訓(xùn)練效率和穩(wěn)定性。

最后是大語言模型知識蒸餾。

為了應(yīng)對培訓(xùn)通用圖模型時(shí)面臨的數(shù)據(jù)隱私和種類多樣性問題,團(tuán)隊(duì)從大語言模型(LLM)的知識和理解能力中獲得靈感,使用LLM生成各種圖結(jié)構(gòu)數(shù)據(jù)。

這一數(shù)據(jù)增強(qiáng)機(jī)制通過模擬真實(shí)世界圖的特征,有效提升了數(shù)據(jù)的質(zhì)量和實(shí)用性。

團(tuán)隊(duì)還首先生成適應(yīng)特定應(yīng)用的節(jié)點(diǎn)集,每個(gè)節(jié)點(diǎn)擁有文本描述以便生成邊。

在面對如電子商務(wù)平臺這種大規(guī)模節(jié)點(diǎn)集時(shí),研究人員通過將節(jié)點(diǎn)細(xì)分為更具體的子類別來處理。

例如,從“電子產(chǎn)品”細(xì)化到具體的“移動電話”“筆記本電腦”等,此過程反復(fù)進(jìn)行,直到節(jié)點(diǎn)精細(xì)到接近真實(shí)實(shí)例。

提示樹算法則按樹狀結(jié)構(gòu)將節(jié)點(diǎn)細(xì)分,并生成更細(xì)致的實(shí)體。

從一般的類別如“產(chǎn)品”開始,逐步細(xì)化到具體的子類別,最終形成節(jié)點(diǎn)樹。

至于邊的生成,利用吉布斯采樣,研究人員基于已生成的節(jié)點(diǎn)集來形成邊。

為了減少計(jì)算負(fù)擔(dān),我們不直接通過LLM遍歷所有可能的邊,而是先利用LLM計(jì)算節(jié)點(diǎn)間的文本相似度,再通過簡單的算法判斷節(jié)點(diǎn)關(guān)系。

在此基礎(chǔ)上,團(tuán)隊(duì)引入了幾種技術(shù)調(diào)整:


動態(tài)概率標(biāo)準(zhǔn)化:通過動態(tài)調(diào)整,將相似度映射到更適合采樣的概率范圍內(nèi)。

節(jié)點(diǎn)局部性:引入局部性概念,只在節(jié)點(diǎn)的局部子集間建立連接,模擬現(xiàn)實(shí)世界中的網(wǎng)絡(luò)局部性。

圖拓?fù)淠J阶⑷耄菏褂脠D卷積網(wǎng)絡(luò)修正節(jié)點(diǎn)表示,以更好地適應(yīng)圖結(jié)構(gòu)特征,減少分布偏差。


以上步驟確保了生成的圖數(shù)據(jù)不僅豐富多樣,而且貼近現(xiàn)實(shí)世界的連接模式和結(jié)構(gòu)特性。


實(shí)驗(yàn)驗(yàn)證與性能分析


需要注意,該實(shí)驗(yàn)專注于使用僅由LLM生成的數(shù)據(jù)集訓(xùn)練OpenGraph模型,并在多樣化的真實(shí)場景數(shù)據(jù)集上進(jìn)行測試,涵蓋節(jié)點(diǎn)分類和鏈接預(yù)測任務(wù)。

實(shí)驗(yàn)設(shè)計(jì)如下:

零樣本設(shè)置。

為了評估OpenGraph在未見過的數(shù)據(jù)上的表現(xiàn),我們在生成的訓(xùn)練集上訓(xùn)練模型,然后在完全不同的真實(shí)測試集上進(jìn)行評估。確保了訓(xùn)練和測試數(shù)據(jù)在節(jié)點(diǎn)、邊和特征上均無重合。

少樣本設(shè)置。

考慮到許多方法難以有效執(zhí)行零樣本預(yù)測,我們引入少樣本設(shè)置,基線模型在預(yù)訓(xùn)練數(shù)據(jù)上預(yù)訓(xùn)練后,采用k-shot樣本進(jìn)行微調(diào)。

在2個(gè)任務(wù)和8個(gè)測試集上的結(jié)果顯示,OpenGraph在零樣本預(yù)測中顯著優(yōu)于現(xiàn)有方法。

此外,現(xiàn)有預(yù)訓(xùn)練模型在跨數(shù)據(jù)集任務(wù)中的表現(xiàn)有時(shí)不如從頭訓(xùn)練的模型。


圖Tokenizer設(shè)計(jì)影響研究


同時(shí),團(tuán)隊(duì)探索了圖Tokenizer設(shè)計(jì)如何影響模型性能。

首先,通過實(shí)驗(yàn)發(fā)現(xiàn),不進(jìn)行鄰接矩陣平滑(平滑階數(shù)為0)會顯著降低性能,說明平滑處理的必要性。

然后,研究人員嘗試了幾種簡單的拓?fù)涓兄娲桨福嚎鐢?shù)據(jù)集的獨(dú)熱編碼ID、隨機(jī)映射和基于節(jié)點(diǎn)度數(shù)的表示。

實(shí)驗(yàn)結(jié)果顯示,這些替代方案性能均不理想。

具體來說,跨數(shù)據(jù)集的ID表示效果最差,基于度數(shù)的表示也表現(xiàn)不佳,而隨機(jī)映射雖稍好,但與優(yōu)化的拓?fù)涓兄成湎啾龋阅懿罹嗝黠@。

2.jpg1.jpg

數(shù)據(jù)生成技術(shù)的影響


團(tuán)隊(duì)調(diào)查了不同預(yù)訓(xùn)練數(shù)據(jù)集對OpenGraph性能的影響,包括使用基于LLM的知識蒸餾方法生成的數(shù)據(jù)集,以及幾個(gè)真實(shí)數(shù)據(jù)集。

實(shí)驗(yàn)中比較的預(yù)訓(xùn)練數(shù)據(jù)集包括從團(tuán)隊(duì)生成方法中移除某項(xiàng)技術(shù)后的數(shù)據(jù)集、2個(gè)與測試數(shù)據(jù)集無關(guān)的真實(shí)數(shù)據(jù)集(Yelp2018和Gowalla)、1個(gè)與測試數(shù)據(jù)集類似的真實(shí)數(shù)據(jù)集(ML-10M)。

實(shí)驗(yàn)結(jié)果顯示,生成數(shù)據(jù)集在所有測試集上均展示了良好性能;三種生成技術(shù)的移除都顯著影響了性能,驗(yàn)證了這些技術(shù)的有效性。

使用與測試集無關(guān)的真實(shí)數(shù)據(jù)集(如Yelp和Gowalla)訓(xùn)練時(shí),性能有時(shí)候會下降,這可能是由于不同數(shù)據(jù)集之間的分布差異。

ML-10M數(shù)據(jù)集在與之類似的測試數(shù)據(jù)集(如ML-1M和ML-10M)上取得了最佳性能,突顯了訓(xùn)練和測試數(shù)據(jù)集相似性的重要性。

3.jpg

Transformer采樣技術(shù)的研究


在這部分實(shí)驗(yàn)中,研究團(tuán)隊(duì)探討了圖Transformer模塊中使用的兩種采樣技術(shù):

token序列采樣(Seq)和錨點(diǎn)采樣(Anc)。

他們對這兩種采樣方法進(jìn)行了詳細(xì)的消融實(shí)驗(yàn),以評估它們對模型性能的具體影響。

4.jpg

實(shí)驗(yàn)結(jié)果表明,無論是token序列采樣還是錨點(diǎn)采樣,兩者都能在訓(xùn)練和測試階段有效地減少模型的空間和時(shí)間復(fù)雜度。這對于處理大規(guī)模圖數(shù)據(jù)尤為重要,可以顯著提高效率。

從性能的角度分析,token序列采樣對模型的整體性能產(chǎn)生了正面影響。這種采樣策略通過選取關(guān)鍵的token來優(yōu)化圖的表示,從而提高了模型處理復(fù)雜圖結(jié)構(gòu)的能力。

相比之下,在ddi數(shù)據(jù)集上的實(shí)驗(yàn)顯示,錨點(diǎn)采樣可能對模型性能產(chǎn)生負(fù)面影響。錨點(diǎn)采樣通過選擇特定的節(jié)點(diǎn)作為錨點(diǎn)來簡化圖結(jié)構(gòu),但這種方法可能會忽略一些關(guān)鍵的圖結(jié)構(gòu)信息,從而影響模型的準(zhǔn)確性。

綜上所述,雖然這兩種采樣技術(shù)都有其優(yōu)勢,但在實(shí)際應(yīng)用中需要根據(jù)具體的數(shù)據(jù)集和任務(wù)需求仔細(xì)選擇合適的采樣策略。


研究結(jié)論


本研究旨在開發(fā)一個(gè)高適應(yīng)性框架,該框架能夠精確地識別和解析各種圖結(jié)構(gòu)的復(fù)雜拓?fù)淠J健?/p>

研究人員的目標(biāo)是通過充分發(fā)揮所提出模型的能力,顯著增強(qiáng)模型在零樣本圖學(xué)習(xí)任務(wù)中的泛化能力,包括多種下游應(yīng)用。

模型是在可擴(kuò)展的圖Transformer架構(gòu)和LLM增強(qiáng)的數(shù)據(jù)增強(qiáng)機(jī)制的支持下構(gòu)建的,以提升OpenGraph的效率和健壯性。

通過在多個(gè)標(biāo)準(zhǔn)數(shù)據(jù)集上進(jìn)行的廣泛測試,團(tuán)隊(duì)證明了模型的出色泛化性能。

5.jpg

據(jù)了解,作為對圖基礎(chǔ)模型構(gòu)建的初步嘗試,未來,團(tuán)隊(duì)工作將著重于增加框架的自動化能力,包括自動識別噪聲連接和進(jìn)行反事實(shí)學(xué)習(xí)。

同時(shí),團(tuán)隊(duì)計(jì)劃學(xué)習(xí)和提取各種圖結(jié)構(gòu)的通用且可遷移的模式,進(jìn)一步推動模型的應(yīng)用范圍和效果。


Magazine.Subscription.jpg

本站內(nèi)容除特別聲明的原創(chuàng)文章之外,轉(zhuǎn)載內(nèi)容只為傳遞更多信息,并不代表本網(wǎng)站贊同其觀點(diǎn)。轉(zhuǎn)載的所有的文章、圖片、音/視頻文件等資料的版權(quán)歸版權(quán)所有權(quán)人所有。本站采用的非本站原創(chuàng)文章及圖片等內(nèi)容無法一一聯(lián)系確認(rèn)版權(quán)者。如涉及作品內(nèi)容、版權(quán)和其它問題,請及時(shí)通過電子郵件或電話通知我們,以便迅速采取適當(dāng)措施,避免給雙方造成不必要的經(jīng)濟(jì)損失。聯(lián)系電話:010-82306118;郵箱:aet@chinaaet.com。
亚洲一区二区欧美_亚洲丝袜一区_99re亚洲国产精品_日韩亚洲一区二区
欧美日韩免费观看一区=区三区 | 欧美一级黄色网| 一本一本a久久| 亚洲美女中出| 亚洲精品一区二区三区av| 亚洲黄色成人久久久| 久久精彩视频| 亚洲二区免费| 最新热久久免费视频| 亚洲欧洲在线看| 99ri日韩精品视频| 一区二区三区色| 亚洲视频在线一区| 亚洲男人的天堂在线| 午夜日韩av| 久久电影一区| 久久青草欧美一区二区三区| 久久视频这里只有精品| 麻豆精品网站| 欧美极品在线播放| 欧美日韩视频免费播放| 国产精品v亚洲精品v日韩精品| 欧美视频一区二区三区…| 国产精品xvideos88| 国产精品视频网| 国产一区二区| 亚洲成人中文| 一区二区日本视频| 亚洲欧美日韩在线一区| 亚洲第一成人在线| 日韩一区二区精品| 亚洲欧美成人| 久久亚洲精品视频| 欧美久久视频| 国产精品一区在线观看| 激情久久五月天| 亚洲精品在线一区二区| 亚洲天堂av图片| 欧美在线视频一区二区| 日韩一级不卡| 午夜精品久久久久久久久久久久久| 久久精品五月婷婷| 欧美激情五月| 国产精品蜜臀在线观看| 国内精品久久久久久久果冻传媒 | 亚洲精品视频免费观看| 一本久道久久综合中文字幕| 亚洲欧美国产77777| 久久女同精品一区二区| 欧美日韩国产经典色站一区二区三区| 国产精品入口麻豆原神| 影音先锋日韩资源| 亚洲少妇一区| 亚洲国产美国国产综合一区二区| 艳女tv在线观看国产一区| 欧美一区二区三区久久精品| 免费成人黄色av| 国产精品久久久久久久久久尿| 国产综合欧美在线看| 日韩亚洲一区在线播放| 欧美有码在线视频| 亚洲色诱最新| 快she精品国产999| 国产精品美女久久久久久免费| 伊人精品成人久久综合软件| av成人老司机| 久久精品欧洲| 亚洲欧美伊人| 欧美久久一级| 伊人狠狠色j香婷婷综合| 亚洲一区综合| 一级日韩一区在线观看| 久久久99精品免费观看不卡| 欧美三级第一页| 尤物yw午夜国产精品视频明星| 亚洲一二三级电影| 亚洲精品乱码久久久久久蜜桃麻豆 | 久久福利毛片| 欧美婷婷久久| 亚洲国产精品美女| 久久国产主播| 久久www免费人成看片高清| 欧美视频二区36p| 亚洲激情自拍| 亚洲第一精品在线| 欧美在线观看日本一区| 欧美精品一区三区| 在线播放豆国产99亚洲| 欧美一区在线直播| 性色一区二区| 欧美视频在线播放| 91久久视频| 亚洲精品国产精品国自产在线 | 国产一区二区三区免费观看| 中日韩在线视频| 中国女人久久久| 欧美日本一区二区高清播放视频| 国内精品国语自产拍在线观看| 亚洲综合三区| 亚洲欧美日韩综合aⅴ视频| 欧美日韩国产不卡| 亚洲国产精品久久久久婷婷884 | 欧美在线免费一级片| 性欧美在线看片a免费观看| 欧美午夜无遮挡| 亚洲精选91| 夜夜嗨av色综合久久久综合网| 欧美不卡视频一区发布| 伊人影院久久| 91久久嫩草影院一区二区| 久久亚洲一区| 伊人激情综合| 最近中文字幕mv在线一区二区三区四区| 久久久久免费视频| 国内精品99| 久久精品卡一| 蜜臀久久99精品久久久久久9 | 亚洲国产成人av在线| 久久久视频精品| 国产综合色在线视频区| 欧美在线看片a免费观看| 久久久久.com| 在线观看一区二区视频| 亚洲国产精品久久久久婷婷884| 久久久爽爽爽美女图片| 黑人巨大精品欧美黑白配亚洲| 久久国产精品亚洲77777| 久久久久亚洲综合| 在线不卡免费欧美| 亚洲精品国精品久久99热| 欧美激情视频给我| 亚洲精品久久视频| 亚洲一二三级电影| 国产精品素人视频| 久久爱www.| 欧美顶级少妇做爰| 一本一本久久a久久精品综合麻豆| 亚洲视频在线观看视频| 国产精品美女久久久久久2018| 午夜国产精品影院在线观看| 久久久夜夜夜| 亚洲福利在线观看| 亚洲天堂av综合网| 国产欧美欧洲在线观看| 亚洲国产成人久久综合一区| 欧美成人蜜桃| 一区二区动漫| 久久久久久久久一区二区| 亚洲动漫精品| 亚洲天堂视频在线观看| 国产精品自拍小视频| 久久国产欧美| 欧美久久综合| 午夜欧美精品| 欧美激情第二页| 亚洲一区一卡| 免费影视亚洲| 亚洲私人影院在线观看| 久久久亚洲精品一区二区三区 | 亚洲一区精彩视频| 久久影视精品| 亚洲另类春色国产| 久久久国际精品| 亚洲巨乳在线| 久久精品一区二区三区不卡牛牛 | 中文日韩欧美| 久久免费视频在线| 日韩午夜三级在线| 久久久久久9999| 亚洲美洲欧洲综合国产一区| 欧美在线三级| 日韩小视频在线观看| 久久久之久亚州精品露出| 99视频超级精品| 老鸭窝毛片一区二区三区| 9色精品在线| 久久亚洲精选| 亚洲一区二区在| 欧美日韩国产黄| 久久激情一区| 国产精品午夜av在线| 亚洲精品国产精品乱码不99| 国产精品入口66mio| 亚洲精品国产拍免费91在线| 国产欧美日韩精品在线| 99视频一区| 极品少妇一区二区| 性亚洲最疯狂xxxx高清| 亚洲精华国产欧美| 久久视频在线看| 亚洲欧美日韩久久精品| 欧美精品在线网站| 亚洲国产精品第一区二区三区| 国产精品你懂得| 99精品欧美一区二区三区| 激情婷婷欧美| 久久动漫亚洲| 亚洲免费人成在线视频观看| 欧美日韩在线亚洲一区蜜芽| 亚洲国产91|