來源1:“Multi-Modal Knowledge Graph Construction and Application: A Survey”
作者:Xiangru Zhu, Zhixu Li Member, IEEE, Xiaodan Wang, Xueyao Jiang, Penglei Sun, Xuwu Wang, Yanghua Xiao Member, IEEE, Nicholas Jing Yuan Member, IEEE
來源2:https://zhuanlan.zhihu.com/p/484096631
閱讀對象:想要快速了解多模態(tài)知識圖譜相關研究內(nèi)容的讀者,最好具有知識圖譜基礎知識
常用縮寫:知識圖譜-KG;多模態(tài)知識圖譜-MMKG;傳統(tǒng)符號模態(tài)知識圖譜-SKG
????本文在來源1和來源2的基礎上,進行進一步完善和梳理生成;文章中每一個引文以[索引-年份]形式表示,可以方便了解相關工作的年份;本文中的多模態(tài)數(shù)據(jù)主要考慮圖像模態(tài)。
知識體系腦圖
一、研究背景與意義
????知識圖譜(KG)本質(zhì)上是一個以實體/概念作為節(jié)點,以它們之間的各種語義關系作為邊的大規(guī)模語義網(wǎng)絡。然而,現(xiàn)有的知識圖譜大多是以文本(符號)的形式表示,這削弱了機器描述和理解現(xiàn)實世界的能力。例如,一個人如果沒有跟狗直接接觸的經(jīng)歷,或者沒有看過相關視頻或圖片,是無法通過“狗”這個符號去準確理解狗的含義的。再比如,如果一個人沒有做過“藏手禮”,甚至沒有在影視劇或者照片中見過“藏手禮”,他是無法理解藏手禮是一種特殊的姿勢(手在大衣襟翼)。對此,為了更好地理解真實的世界,研究者們嘗試將符號與其在真實世界中的表示形式(圖片、視頻、音頻等)進行關聯(lián)。
? ? 另一方面,多模態(tài)知識的應用在計算機其他領域的需求上也越來越迫切。例如,在關系抽取任務中,附加圖像信息會大大提高視覺上明顯,但是從純文本符號層面難以識別的屬性和關系的抽取性能。例如屏幕和筆記本電腦的partOf關系,香蕉和黃色或黃綠色的colorOf關系等等;在文本生成任務中,附加圖像信息也可以幫助生成包含更加豐富且準確信息的句子。例如,在沒有圖片賦能的情況下,生成“一個金發(fā)的高個子正在演講”,如果有合適的圖片賦能,則會生成“唐納德特朗普正在發(fā)表演講”。
? ? ?知識圖譜已經(jīng)成為認知智能的基石,主要以常識庫的形式為機器的自然語言理解和可解釋推理等應用提供服務,成為人工智能領域不可獲取的一部分。隨著人工智能技術的發(fā)展,傳統(tǒng)的單符號模態(tài)知識圖譜(SKG)已經(jīng)無法滿足當前應用的需求,多模態(tài)知識圖譜(MMKG)對真實世界具有更加優(yōu)秀的建模能力,越來越收到研究者們的關注,也得到了快速的發(fā)展。下面將主要圍繞對MMKG的構建和應用相關技術進展進行系統(tǒng)性的探討。
二、多模態(tài)知識圖譜定義?
????MMKG的定義可以看做是SKG定義的一種擴展,主要根據(jù)將非符號模態(tài)信息的表示形式,可以分為基于屬性表示的多模態(tài)知識圖譜——A-MMKG和基于實體表示的多模態(tài)知識圖譜——N-MMKG。即A-MMKG定義中將圖片等模態(tài)信息表示為符號表示實體的屬性信息;N-MMKG定義中將圖片等模態(tài)信息表示為獨立實體,與其他實體建立關系。
????圖1中分別給出了A-MMKG和N-MMKG的示例。圖2為圖1中MMKG對應的RDF三元組數(shù)據(jù)。例如,圖1-(a)中,法國國旗圖片作為法國實體的hasImage屬性表示;圖1-(b)中,埃菲爾鐵塔圖片作為實體與巴黎實體具有imageOf關系;圖1-(b)中,兩個埃菲爾鐵塔圖片之間具有similar關系;除此之外,還包括如下關系,contain:一個圖像實體通過圖像的相對位置在視覺上包含另一個圖像實體;nearBy:一個圖像實體在視覺上靠近圖像中的另一個圖像實體;sameAs:兩個不同的圖像實體指的是同一個實體;similar:兩個圖像實體在視覺上彼此相似。
????當然,我們可以看出,圖1-(b)中的圖譜數(shù)據(jù)并不準確,第二幅埃菲爾鐵塔圖片與凱旋門圖片之間建立sameAS關系并不合理。(在這里我們的目標是了解MMKG的不同定義形式,并不對知識圖譜的質(zhì)量做要求。)
三、多模態(tài)知識圖譜的構建
????多模態(tài)知識圖譜構建過程包括,輸入:一個SKG和大量的圖像模態(tài)數(shù)據(jù);過程:通過將SKG中實體/概念、事件、事件元素、關系等符號與對應圖像數(shù)據(jù)中的具體視覺對象進行關聯(lián);輸出:包含符號模態(tài)與圖片模態(tài)數(shù)據(jù)的MMKG。根據(jù)構建過程中SKG和圖像模態(tài)數(shù)據(jù),誰占主導地位,將多模態(tài)知識圖譜構建過程分類兩種策略:給圖像打標簽策略(從圖像到符號,圖像占主導地位)和符號定位策略(從符號模態(tài)圖譜到圖像,符號模態(tài)圖譜占主導地位)。下面分別展開介紹。
3.1 從圖像到符號:給圖像打標簽
????CV 社區(qū)提出了許多圖像標記解決方案,可用于為圖像打標簽,將圖像內(nèi)容到映射到SKG包含的符號上。知識圖譜相關的符號集具體包括:對象、場景、實體、屬性、關系、事件,等。具體的圖像標記過程如圖 3 所示,從圖片中檢測相關對象(用邊界框表示),并賦予相關標簽。
? ? 此外,表1列出了NEIL[19-2013]、GAIA[20-2020]、RESIN[21-2021]等基于圖片的知識抽取系統(tǒng),可以用于基于給圖片打標簽的方式構建MMKG。
????根據(jù)標簽(符號)類型的不同,可以將MMKG構建任務分為:視覺實體/概念抽取、視覺關系抽取和視覺事件抽取。
3.1.1 視覺實體/概念抽取
????視覺實體(或概念)抽取指在檢測和定位圖像中的目標對象,然后用對應SKG中的文本實體(或概念)標記這些對象。
? ??挑戰(zhàn):這項任務的主要挑戰(zhàn)在于如何在沒有大規(guī)模、細粒度、高質(zhì)量的標記數(shù)據(jù)集的情況下學習細粒度抽取模型(fine-grained)。 雖然CV中有豐富的標注好的圖像數(shù)據(jù)集,但這些數(shù)據(jù)集幾乎是粗粒度的概念圖像,不能滿足MMKG構建對細粒度概念/實體的圖像標注數(shù)據(jù)的要求。
????現(xiàn)有的視覺實體/概念提取工作大致可分為兩類:1)?對象識別方法(object recognition),通過對檢測到的對象區(qū)域進行分類來標記視覺實體/概念;2)?視覺定位方法(visual grounding),通過將圖片對應描述中的單詞或短語映射到最相關的區(qū)域來標記視覺實體/概念。
? ??1)對象識別方法,在早期的工作中,研究的圖像通常很簡單,一張圖像中只有一個對象,可以通過分類模型進行處理。但是現(xiàn)實生活中的圖像比較復雜,包含多個視覺對象(visual objects),需要用多個標簽來標記不同的視覺單元。
????圖像標記過程分為檢測階段和分類階段。檢測階段需要從輸入圖像中自動發(fā)現(xiàn)所有可能的視覺對象。檢測器的訓練往往采用基于監(jiān)督學習的方法,需要大量的標記數(shù)據(jù)(MSCOCO [62-2014]、Flickr30k[63-2014]、Flick30k Entities[64-2015]、Open Images[65-2020]、等等)。在完成檢測階段工作之后,就需要利用分類器為檢測到的視覺對象打具體標簽。標簽可以是實體級別的(例如,BMW 320),也可以是概念級別的(例如,汽車)
????在利用對象識別方法從圖片中識別出對應概念/實體的時候,會存在視覺對象大量重復的問題。相同的概念/實體根據(jù)拍攝的角度、位置和其姿勢的不同,產(chǎn)生大量的視覺對象,因此,如何從大量重復的視覺對象中選出最有代表性的對象與對應的概念/實體建立映射關系成為了需要解決的問題。最常見的解決方法是聚類方法[20-2020],首先對識別出的視覺圖像進行聚類,然后選擇每個了類簇的中心視覺對象與對應的概念/實體建立映射關系。
? ??2)視覺定位方法,上述對象識別方法,在訓練檢測器和分類器的過程中,通常采用有監(jiān)督的方法,需要大量的標記數(shù)據(jù),同時需要提前定義好需要標記的概念/實體集合。由于需要大量人力、物力的投入,對象識別方法再規(guī)模上受到的限制。幸運的是,網(wǎng)絡上(例如新聞網(wǎng)站)存在大量的圖像-描述對數(shù)據(jù),可以用于基于弱監(jiān)督視覺知識的抽取。因此,視覺實體抽取問題被簡化為一個視覺定位問題,即通過對圖像-描述對進行分析,在圖像中準確定位描述涉及的概念/實體,并將其區(qū)域標記出來作為對應的視覺對象。
????如圖4所示,當采用弱監(jiān)督策略學習圖像-描述對中的知識之后,通常利用空間熱力圖進行表示,提升概念/實體(描述中的文字表示)在圖像中對應的像素的溫度,根據(jù)像素熱力值找出對應視覺對象區(qū)域。對于描述生成對應圖片上的熱力圖,可以通過基于注意力的方法(attention based)和基于顯著性的方法(saliency based)。當前,基于注意力的方法相對于基于顯著性的方法更加受歡迎。
????盡管視覺定位方法不依賴于標記數(shù)據(jù),但實際上仍需要人工干預。一些研究工作試圖在訓練階段增加對常識、關系和事件參數(shù)的約束,以增加監(jiān)督信息。在 MMKG的構建相關的工作中[20-2020],視覺定位方法的精確度低于 70%。通過視覺定位的視覺對象可以是實體(例如 Barack Hussein Obama)、概念(例如地點、汽車、石頭)、屬性(例如紅色、短)。然而,圖像和文本描述的語義尺度不一致可能導致不正確的匹配。例如,“部隊”可能會映射到幾個穿著軍裝的人,而“烏克蘭(國家)”可能會映射到烏克蘭國旗。上述兩個例子都只是相關,但是不相等
????圖5. 通過多模態(tài)預訓練語言模型進行弱監(jiān)督視覺實體提取。 該圖通過 ViLT 的自注意力機制顯示了圖像中與描述中給定單詞最相關的區(qū)域? ??
? ??機遇:隨著多模態(tài)預訓練語言模型強大的表示能力將增強實體和概念的抽取能力。具體多模態(tài)預訓練語言模型的應用包括:ViLT[50-2021],CLIP[68-2021],DINO[70-2021]。
3.1.2 視覺關系抽取
????視覺關系抽取指識別圖像中檢測到的視覺實體(或概念)之間的語義關系(語義關系由對應SKG中的關系類型決定)。
? ??挑戰(zhàn):盡管視覺關系抽取已經(jīng)在 CV 社區(qū)進行了廣泛的研究,但是其關系類型還是停留在視覺對象之間的表面視覺關系,例如(人,站立,海灘)。但是,符號模態(tài)知識圖譜中定義的關系普遍是具有一定語義關系,例如(杰克、配偶、羅斯)。抽取出更加復雜的語義關系成為視覺關系抽取的挑戰(zhàn)。
????現(xiàn)有的視覺關系抽取工作大致可以分為基于規(guī)則的關系抽取(rule based)和基于統(tǒng)計的關系抽取(statistic based)兩大類。其他一些工作主要集中在長尾關系和細粒度關系上,下面也會介紹。
? ??1)基于規(guī)則的方法,傳統(tǒng)的基于規(guī)則的方法主要關注一些特定類型的關系,如空間關系[71-2013, 72-2013]和動作關系[74-2010, 75-2011, 76-2014, 77-2015, 78-2017]。這些規(guī)則通常由專家預先定義,判別特征通過啟發(fā)式方法進行評分和選擇。
????在基于規(guī)則的方法中,要檢測的關系是根據(jù)標簽的類型和區(qū)域的相對位置來定義的。例如,如果一個對象的邊界框總是在另一個對象的邊界框內(nèi),則它們之間可能存在 PartOf 關系。抽取過程中,檢測到的一對對象之間的關系反過來又會對新實例標記的附加約束。例如,“Wheel is a part of Car”表示 Wheel 更有可能出現(xiàn)在Car的邊界框中。基于規(guī)則的方法提供高度準確的視覺關系,但它們依賴于大量的人工工作。所以在大規(guī)模MMKG建設中是不實用的。
? ??2)基于統(tǒng)計的方法,基于統(tǒng)計的方法將檢測到的對象的視覺特征、空間特征和統(tǒng)計等特征編碼為分布式向量,并通過分類模型預測給定對象之間的關系。與基于規(guī)則的方法相比,基于統(tǒng)計的方法能夠檢測到訓練集中出現(xiàn)的所有關系類型。
????一些工作證明謂詞在很大程度上依賴于主客體的類別,但主客體不依賴于謂詞,主客體之間也沒有依賴關系。例如,在三元組(人(主體)、騎(謂詞)、大象(客體))中,人和大象表示關系可能是騎而不是穿。因此,一些研究工作中嘗試將上述依賴關系引入關系抽取過程[79-2018, 80-2016, 81-2017, 82-2017]。圖像中檢測到的視覺對象和關系可以表示為圖,利用圖結構對關系建模,能夠從其關聯(lián)節(jié)點和邊中獲得信息擴展,從而提升視覺對象關系抽取的精度[83-2017, 84-2017]。
? ??3)長尾關系和細粒度關系提取,盡管基于統(tǒng)計的方法能夠檢測一般關系,但很難檢測長尾關系。其主要原因是樣本偏差,從具有偏差的數(shù)據(jù)集中訓練得到的模型更加傾向于預測多樣本關系類型,導致長尾關系類型的預測精度偏低。對于長尾關系預測精度低的問題,也開展了一些研究[85-2019, 86-2020, 87-2020, 88-2019]。
????細粒度關系也可以看做是一種長尾關系,現(xiàn)有的從特征融合角度對長尾關系問題的研究未能很好地區(qū)分細粒度的關系。例如,模型傾向于預測成“on”而不是細粒度的關系“sit on/walk on/lay on”。對此,[89-2020]展開了研究。
????在細粒度關系檢測問題中,人與對象的交互/動作關系檢測的難度會更大一些,因為一個人的動作是由身體的許多組成部分決定的。例如,描述(person,?play, violin) 和 (person,?hold, violin) 的圖像之間存在差別是非常細微的。對此,研究者們也展開了如下工作[73-2010, 74-2010, 75-2011, 90-2019]
? ??機遇1:視覺關系知識判斷,許多從圖像中提取的視覺三元組只描述了圖像的場景,其質(zhì)量還達不到視覺知識的標準。因此,如何從大量的視覺三元組中準確識別視覺關系知識,過濾視覺關系場景,提升視覺關系質(zhì)量成為新的機遇和挑戰(zhàn)。
? ??機遇2:基于推理的關系檢測,對于包含一個人和一個足球的圖像進行分析可以得到如下三個視覺關系:(head, look at, sth)、(arm, swing, -)、(foot, kick, sth),則可以通過推理得到(person, kick, football)。不幸的是,這個數(shù)據(jù)集是手動構建的。我們需要自動總結關系檢測的推理鏈。
3.1.3 視覺事件提取
????一個事件通常被定義為參數(shù)之間的動態(tài)交互,包括一個觸發(fā)詞和幾個參數(shù)及其相應的參數(shù)角色。觸發(fā)詞是表示事件發(fā)生的動詞或名詞,參數(shù)角色是指事件與時間、人、地點等參數(shù)之間的語義關系,參數(shù)是實體提及、概念或?qū)傩灾怠鹘y(tǒng)的事件提取任務旨在通過觸發(fā)詞預測事件類型,然后根據(jù)預定義的事件模式,進一步識別事件對應的參數(shù)。同樣,視覺事件提取也可以分為兩個子任務:1)視覺事件類型預測; 2)定位和識別視覺對象作為事件參數(shù)[21-2021, 67-2020, 92-2017, 93-2021]
? ??挑戰(zhàn)1:視覺事件抽取需要提前定義好每個事件的模式,即事件類型以及事件類型對應的參數(shù)類型。這個工作需要大量專家的人工干預,因此,很難覆蓋全面。對此,如何自動挖掘視覺事件模式成為新的挑戰(zhàn)
? ??挑戰(zhàn)2:如何從圖像或視頻中提取視覺事件的視覺參數(shù)。
? ??下面從視覺事件模式挖掘和視覺事件參數(shù)抽取兩個任務展開說明。
????1)視覺事件模式挖掘,例如,事件 Clipping的模式可以用事件的參數(shù)類型列表(Agent、Source、Tool、Item、Place)表示。其在剪羊毛的圖像中它們分別是 Man、Sheep、Shears、Wool、Field。這些模式往往需要專家通過人工總結得到。但是,對于大規(guī)模的視覺事件識別任務,很難通過人工總結得到完整的事件模式,因此,需要自動挖掘潛在的事件模式。
????互聯(lián)網(wǎng)上大量的圖片-描述對數(shù)據(jù)讓自動挖掘視覺事件模式成為可能。視覺事件模式的發(fā)現(xiàn)可以轉(zhuǎn)換成關聯(lián)規(guī)則挖掘算法中頻繁項集的發(fā)現(xiàn)任務。首先,利用視覺定位(visual grounding)等技術識別出圖片中包含的所有視覺對象。然后,通過對圖片描述進行分析,抽取相關事件觸發(fā)詞,確定事件類型。最后,通過文本描述的分析結果,將相同事件類型對應的圖片放在一起,找出經(jīng)常共現(xiàn)的視覺對象集合,生成對應的視覺事件模式[92-2017, 97-2016]。
????利用自動挖掘的視覺事件模式,不僅可以補充新的事件模式,還可以矯正現(xiàn)有錯誤事件模式。
????2)視覺事件參數(shù)抽取,視覺事件參數(shù)抽取任務可以看作是視覺對象集合識別任務,其中,識別出的視覺對象之間受到事件與參數(shù)類型之間的關系約束。通過弱監(jiān)督策略分析圖片-描述對數(shù)據(jù)得到的視覺事件,可以通過從描述文本中分析得到的事件進行交叉驗證,或通過從描述文本分析中語義信息的引入,提升視覺事件抽取性能[21-2021, 67-2020]。
????相對于對圖片數(shù)據(jù),視頻數(shù)據(jù)可能更加適合視覺事件抽取任務,因為有些事件的完整參數(shù)可能會分到視頻的多個視頻幀中,即一個圖片中可能無法表示完整的事件參數(shù)[93-2021]。
? ??機遇1:從長視頻中順序提取多個事件。?
????機遇2:具有多個子事件的視覺事件提取。例如,制作咖啡包括:清潔咖啡機、倒入咖啡豆、啟動咖啡機等三個步驟,每個步驟為一個事件。連續(xù)的步驟需要通過步驟的時間線來提取和列出,這是目前的方法難以解決的。
3.2 從符號到圖像:符號定位
????符號定位是指對SKG中的概念、實體、屬性、關系、事件等符號找到適當?shù)亩嗄B(tài)數(shù)據(jù)項(例如圖像),并進行關聯(lián)的過程。與圖像標記方法相比,符號定位方法在MMKG構建中應用更為廣泛。表2中列出了利用符號定位策略構建的MMKG。
3.2.1 實體定位(entity grounding)
????實體定位旨在將符號模態(tài)知識圖譜中的文本實體定位到其相應的多模態(tài)數(shù)據(jù),例如圖像、視頻和音頻[12-1990]。當前的研究工作主要研究定位到圖像數(shù)據(jù)。
? ??挑戰(zhàn)1:如何以低成本地為實體找到足夠多的高質(zhì)量圖像??
? ??挑戰(zhàn)2:如何從大量噪聲中選擇最匹配實體的圖像?
? ??根據(jù)圖像數(shù)據(jù)的來源,可以分為基于在線百科全書(如維基百科)和基于網(wǎng)絡搜索引擎的實體定位方法。
? ??1) 基于在線百科全書,在維基百科中,一篇文章通常用圖像和其他多模態(tài)數(shù)據(jù)來描述一個實體。 Wikipedia 和 DBpedia 提供了許多工具(例如?Wikimedia Commons?)來幫助DBpedia 中的實體與 Wikipedia 中的相應圖像或其他模態(tài)數(shù)據(jù)之間建立連接。研究人員很容易使用像維基百科這樣的在線百科全書來構建大規(guī)模 MMKG 的初級版本。然而,基于在線百科全書的方法有三個缺點:
????第一,每個實體對應的圖像數(shù)量是有限的。維基百科中每個實體對應的圖像數(shù)量平均為 1.16。
????第二,維基百科中的許多圖像與其對應的實體在含義上只是相關,但不相同,因此,與相關的圖片建立關聯(lián)將導致語義漂移(semantic drift)。例如,維基百科中“北京動物園”實體對應的圖片中存在動物、建筑、牌匾、雕刻等多張圖片,“北京動物園”實體與動物圖片建立聯(lián)系是不合理的。
????第三,基于維基百科構建的MMKG的覆蓋率仍有待提高。英文維基百科有600萬個實體(文章),這是從英文維基百科構建的MMKG的規(guī)模上線。根據(jù)調(diào)研,近 80%的英文維基百科文章沒有對應的圖像,其中只有 8.6 %有超過 2 個圖像。
? ??2)基于搜索引擎,為了提高 MMKG 的覆蓋率,提出了基于搜索引擎的解決方案。通過查詢實體名稱從搜索引擎的搜索結果中發(fā)現(xiàn)對應圖像。一般來說,排名靠前的結果圖像很有可能是實體需要關聯(lián)的圖像。與基于在線維基百科的解決方案相比,基于搜索引擎的方案可以顯著提升MMKG的覆蓋率。然而,基于搜索引擎的方法很容易將錯誤的事實引入MMKG。眾所周知,搜索引擎結果中慘咋著大量的錯誤結果。另一個原因是指定恰當?shù)乃阉麝P鍵字并非易事。例如,想要查詢Commercial Bank對應的圖像的時候,關鍵詞Bank是不夠準確的,因為它還有可能返回River Bank相關圖像。因此,已經(jīng)有很多關于清理候選圖像的研究工作。也可以用同義詞集[99-2009]或?qū)嶓w類型[24-2019]來擴展關鍵詞以消除歧義。在為實體選擇最佳圖像時,多樣性也是不可忽視的問題。訓練圖像多樣性檢索模型以去除冗余的相似圖像,使圖像盡可能多樣化[25-2020]。
????由于在構建過程中符號實體與視覺對象在特征空間上解耦,基于上述實體定位策略構建的MMKG具有區(qū)分視覺相似實體的能力,如圖6所示,也使得構建面向領域的細粒度MMKG成為可能。
????與基于百科全書的方法相比,基于搜索引擎的方法覆蓋率高,但質(zhì)量較差。因此,經(jīng)常將這兩種方法結合使用,達到取長補短的效果[25-2020, 100-2019]。
? ??機遇1:一個符號實體有可能找到多個關聯(lián)的圖像,每個圖像只是該實體的一個方面。例如,一個人關聯(lián)的圖像可以是不同年齡的圖像、生活照片、事件照片、單人照片和家庭照片。如何確定最典型的圖像集有待解決?
? ??機遇2:現(xiàn)實世界的實體是多面的,一個實體在不同的上下文環(huán)境下,對應的圖像應該是不同的。即,一個實體應該關聯(lián)多個圖像,每個圖像都對應這個實體先不同上下文環(huán)境的表示。對此,催生了一個新的任務——實體多定位。假設每個符號實體已經(jīng)有關聯(lián)的圖像集(圖像池),實體多定位任務就是在給定一個符號實體以及對應上下文的情況下,從關聯(lián)的圖像池中選出最合適的圖像的過程。例如,美國第 45 任和現(xiàn)任總統(tǒng)唐納德·特朗普 (Donald Trump) 擁有許多可以從網(wǎng)絡上收集的不同圖像。如圖 7 所示,任何單個圖像都不適用于所有不同的上下文。然而,將實體的不同方面映射到不同上下文中最相關的圖像并非易事。首先,實體的圖像池很難建立,因為圖像池的完整性無法保證,在某些上下文中很容易漏掉一些相關的圖像。其次,為特定上下文的實體消歧圖像具有挑戰(zhàn)性,因為上下文通常是嘈雜的并且包含稀疏信息,并且需要更多的背景信息來指導語義信息的獲取。最后,作為一項新任務,標記數(shù)據(jù)的缺乏是一個大問題。
3.2.2 概念定位(concept grounding)
????概念定位旨在為視覺概念找到具有代表性的、有區(qū)分度的多樣化的圖像。
? ??挑戰(zhàn)1:并非所有的概念都可以可視化展示的。例如,“非宗教主義者”這個概念就很難找到對應的圖像。因此,如何區(qū)分可視化概念(visualizable concept)和非可視化概念(non-visualizable concept)成為一個難點。
? ??挑戰(zhàn)2:如何從一組相關圖像中找到一個可視化概念的代表性圖像?可視化概念的圖像可能非常多樣化。例如,一提到公主,人們往往會想到幾種不同的形象,迪士尼公主、歷史電影中的古代公主或新聞中的現(xiàn)代公主。因此,我們必須考慮圖像的多樣性。
? ??1)可視化概念判斷,該任務旨在判斷一個概念是否可視化展示,研究人員發(fā)現(xiàn)對于Person子樹下的概念集合中只有 12.8 %可以被可視化[101-2020]。研究者們也展開了部分研究工作,有的直接將WordNet中Abstract節(jié)點下的所有概念進行刪除,因為他們假設抽象的概念普遍不具備可視化展示特點[102-2008],有的研究者通過比較一個概念在Google圖像搜索的返回結果是否大于Google Web搜索返回結果,判斷一個概念是否具有可視化展示特點[103-2017]。
? ??2) 代表性和多樣性圖像選擇,對于一個概念發(fā)現(xiàn)的候選圖像集合,我們需要對其集合進行進一步排序,選出同時具有代表性和多樣性的圖片進行關聯(lián)。代表性考慮的概念與圖像之間的語義相關性,多樣性考慮的是關聯(lián)的多個圖片應該盡量代表不同的主題,避免主題的冗余。
????對于代表性圖像的選擇,通常采用聚類的方法,例如 K-means、譜聚類等。類簇內(nèi)的方差越小,聚類中圖像的得分越高,認為更具有代表性。圖像的描述也可以用來評估圖像在語義層面的代表性和區(qū)分性。描述將提供圖像沒有包含的語義信息[103-2017, 106-2014, 107-2021]。例如,一張冰島風景照片和一張英國風景的照片從視覺角度可能非常相似,可以通過參考對應的描述文本區(qū)分它們的概念差異。有的研究者利用最大最小方法同時對代表性和多樣性進行建模[108-2009, 109-2010]
????也可以通過將候選圖片集合表示成圖(每個圖像為節(jié)點,圖像相似度為圖像之間邊的權重),再利用圖搜索技術找到具有代表性的圖片[103-2017, 110-2009, 111-2011]。
????這些研究集中在文本圖像檢索領域,很少有與多模態(tài)知識圖譜相關的研究。來自互聯(lián)網(wǎng)的關于性別、種族、膚色和年齡的概念圖像的多樣性仍然存在許多未解決的偏見,現(xiàn)在這個問題在很大程度上依賴于眾包。
? ??機遇1:抽象概念定位,以往的概念定位任務通常認為抽象概念不具備可視化展示特性,經(jīng)常在概念定位過程中被忽略,但抽象概念也可以找到對應的圖像的。例如,“幸福”通常與“微笑”關聯(lián),而“憤怒”通常與“生氣的臉”關聯(lián)。例如,Beauty 的圖像與以下詞集關聯(lián):woman/girl、water/beach/ocean、flower/rose、sky//cloud/sunset。類似地,Love 的圖像與以下詞集關聯(lián):baby/cute/newborn、dog/pet、heart/red/oalentine、beach/sea/couple、sky/cloud/sunset、flower/rose[112-2008]。
? ??機遇2:動名詞概念定位?動名詞是一種特殊的名詞,可以轉(zhuǎn)化為動詞,如singing -> sing。[76-2014]利用眾包完成了許多動名詞的圖像定位,例如arguing with, wrestling with以及 dancing with。
? ??機遇3:通過實體定位完成非可視化概念的定位,如果一個概念是不具備可視化展示特性,但該概念的實體可以被可視化,則該概念也可以通過其實體關聯(lián)圖像,具體通過選擇當前概念最具有代表性的實體對應圖像作為該概念的圖像進行關聯(lián)。如表 3 所示,使用愛因斯坦的照片作為物理學家概念的圖像是可以被接受的,因為當提到物理學家時,大多數(shù)人都會想到愛因斯坦。但是,仍然有很多未解決的問題: (a) 一般來說,不同的人對一個概念有不同的典型實體,因此我們應該在概念定位上解決這種主觀性。(b) 我們應該選擇幾個典型實體圖像來呈現(xiàn)這個概念。如何確定這個實體集合? (c) 我們是否需要從多個實體圖像中抽象出共同的視覺特征?
3.2.3 關系定位
????關系定位是從圖像數(shù)據(jù)語料庫或互聯(lián)網(wǎng)中找到可以符號模態(tài)知識圖譜中特定關系的圖像。輸入可以是這個關系的一個或多個三元組(subject,relation,object),輸出是這個關系最具代表性的圖像。
? ??挑戰(zhàn):當我們將三元組作為輸入試圖定位圖像時,排名靠前的圖像通常與三元組的subject和object更相關,而與relation本身關聯(lián)較弱。如何找到能夠反映輸入三元組中relation的圖像成為了較大的挑戰(zhàn)?
? ? 現(xiàn)有的關系定位研究主要集中在空間關系(例如,left of、on)或動作關系(ride、eat)。具體采用文本-圖像匹配和圖匹配方法。
? ??1)文本-圖像匹配,通常將文本和圖像映射到相同的語義嵌入空間,得到統(tǒng)一的向量形式表示,然后通過計算文本向量和圖像向量的相似度得分找到最匹配的圖像。跨模態(tài)表示通常由注意力機制融合,因此全局統(tǒng)一表示的缺點是缺乏顯式細粒度關系的語義[35-2019]。除了上述基于分布式統(tǒng)一表示的方法之外,一種更方便的方法是基于圖像描述的檢索,但是其具有一個明顯的缺點就是,它并沒有用到圖像信息。為了表示對象之間的明確關系,許多研究集中在考慮圖像局部結構的圖像編碼器上。最終的圖像表示通過融合全局視覺特征、局部結構特征和文本對齊嵌入三部分信息得到[78-2017, 114-2018, 115-2020]。多模態(tài)預訓練語言模型是新的圖像編碼方法,它考慮對象(實體或概念)和三元組的。
? ??2)圖匹配,文本-圖像匹配將文本和圖像表示成統(tǒng)一的向量進行匹配,而圖匹配方法先將匹配對象轉(zhuǎn)換成圖結構,再去匹配可以提升過程的可解釋性。一種更方便的方法是基于描述的檢索,如 Internet 上的搜索引擎,匹配實體和關系包含的tokens與描述之間的匹配關系。基于描述的檢索的缺點是沒有使用視覺特征進行匹配。Richpedida[25-2020] 提出了一個非常強的假設,即如果 Wikipedia 描述中的兩個實體之間存在預定義的關系(例如 nearBy 和 contains),則兩個實體對應的視覺實體之間也存在相同的關系。但實際上,這兩個對象很有可能不會同時出現(xiàn)在一張圖像中,就算它們同時出現(xiàn)在一張圖中,也很有可能不存在對應的關系。
????如圖8所示,如果我們將文本查詢和候選圖像均表示為圖,則關系定位任務變成了圖匹配任務。將圖像中的視覺對象表示為節(jié)點,對象之間的關系表示為邊,將圖像轉(zhuǎn)換為圖;通過依存句法分析對輸入文本進行分析,得到對應的依存分析結果——依存圖。一個簡單的解決方案是只匹配兩個圖中的對象和共現(xiàn)關系而不預測關系類型[113-2015],即假設如果兩個實體之間存在關系,則該關系被認為是匹配的,這也是一個強假設。顯然,關系預測模塊是必不可少的。 [116-2020]用GCN分別表示成兩個場景圖(scene graph),其中對象自己進行更新,關系節(jié)點通過聚集其鄰居節(jié)點的信息進行更新。預測時,分別通過對象節(jié)點匹配和關系節(jié)點匹配兩種形式計算兩個圖的相似度。
? ??機遇:現(xiàn)有研究主要集中在空間關系(spatial)和動作關系(action)的定位上,這些關系可以在圖像中直觀地觀察到。但是,多數(shù)關系例如isA, Occupation, Team和Spouse在圖像中可能并不明顯。這些關系通常缺乏訓練數(shù)據(jù),因此很難用上述兩種解決方案訓練模型來檢索圖像。
四、應用
在對 MMKG 構建進行系統(tǒng)回顧之后,本節(jié)探討如何將 MMKG 的具體應用。
4.1 MMKG 內(nèi)部應用(In-MMKG)
????In-MMKG 應用是指在 MMKG 范圍內(nèi)執(zhí)行的任務,包括鏈接預測(link prediction)、三元組分類(triple classification)、實體分類(entity classification)和實體對齊(entity alignment)等。In-MMKG應用假設其中實體、概念和關系等已經(jīng)完成分布式表示。因此,在介紹 in-MMKG 應用之前,我們簡要介紹一下 MMKG 中知識的分布式表示學習,也稱為 MMKG 嵌入。基本上,MMKG 嵌入模型是從傳統(tǒng)的知識圖譜的嵌入模型發(fā)展而來的。例如,即基于距離的模型(distance-based),即假設一個三元組的頭實體和尾實體在投影空間上應該是接近的;基于翻譯的模型(translation-based),即TransE及其變體。
????在建模MMKG的時候還需要考慮如下兩個問題:如何有效地編碼圖像中包含的視覺知識和信息,以及如何融合不同模態(tài)的知識。 1)視覺編碼器(vision encoder)。隨著深度學習的發(fā)展,利用卷積神經(jīng)網(wǎng)絡的隱含層特征向量編碼圖像成為了當前主要手段[138-2018, 139-2017, 140-?],而CV 中許多現(xiàn)成的顯式圖像信息編碼技術,例如灰度直方圖描述符 (GHD)、定向梯度直方圖描述符 ( HOG),顏色布局描述符(CLD)則很難在 MMKG 表示中使用。 2)知識融合(knowledge fusion)[139-2017, 140-?]。為了融合多模態(tài)的知識嵌入,考慮了各種融合方式,包括簡單連接、平均多模態(tài)嵌入以及基于歸一化或加權的 SVD 和 PCA。
4.1.1 鏈接預測
????MMKG中的鏈接預測指在(h, r, t)三元組中的一個實體或關系缺失時,自動補全缺失的部分,形成完整三元組的過程[134-2013, 136-2015, 138-2018, 141-2016, 142-2015, 143-2013, 144-2016]。 與傳統(tǒng)SKG的連接預測任務相比,MMKGs 中的實體和關系的附加圖像可以提供額外的視覺信息,以提高嵌入表示質(zhì)量。例如,一個人的圖像可能會豐富這個人的年齡、職業(yè)等信息。
????IMAGEgraph[23-2017] 提出將看不見的圖像和多關系圖像檢索之間的關系預測表達為視覺關系問詢,以便可以利用這些問詢來補全 MMKG。與傳統(tǒng)方式相比,IMAGEgraph 在關系和頭/尾實體預測任務上表現(xiàn)更好,并且能夠推廣到看不見的圖像,以回答一些零樣本的視覺關系問詢。例如,給定一個不屬于知識圖譜的全新實體的圖像,這種方法可以確定它與另一個給定圖像的關系,盡管我們不知道其對應的知識圖譜實體。
? ? MMKG[24-2019]構建了三個數(shù)據(jù)集來預測實體之間的多關系鏈接,所有實體都與數(shù)字和視覺數(shù)據(jù)相關聯(lián)。但是,它只專注于sameAs這個關系的鏈接預測任務并回答此類查詢以補全 MMKG。三個相當異構的知識使 MMKG 成為衡量多關系鏈接預測方法性能的重要基準,并驗證了不同模態(tài)對于sameAs的鏈接預測任務是互補的假設。
4.1.2 三元組分類
????三元組分類指判斷一個給定的三元組是否為正確,這也可以看作是一種知識圖譜補全任務。[143-2013, 144-2016]
4.1.3 實體分類
????實體分類指將一個實體分類為不同的語義類別,即 MMKG 中不同粒度的概念。實體分類也可以看成是一種特殊的鏈接預測任務,輸入為(entity, IsA, ?),其中關系類型固定為IsA,預測實體對應的概念。
????實體分類問題在傳統(tǒng)的SKG上進行了研究,也積累了不少模型可以在 MMKGs 中使用。但是,它們沒有充分利用 MMKG 中實體和概念的豐富多模態(tài)數(shù)據(jù)。對此,[145-2020]致力于從幾種不同類型的模態(tài)中學習實體和概念的嵌入,然后將它們編碼到聯(lián)合表示空間。
4.1.4 實體對齊
????實體對齊在將多個MMKG進行合并的時候,找出不同MMKG中具有相同含義的實體的過程。其目標是為了將對齊的實體合并,消除合并圖譜中存在的冗余。其核心思想是學習每個實體在MMKG中的分布式表示,然后,通過計算兩個實體的的相似度判斷它們是否可以被對齊。與傳統(tǒng)SKG不同,MMKG中包含了豐富的多模態(tài)信息,如何學習包含豐富模態(tài)信息的實體表示成為了MMKG實體對齊重點解決的問題[146-2021, 147-2020]。
????有些研究者另辟蹊徑,采用Product of Experts模型[24-2019],通過回答(h?, sameAs, t)或(h, sameAs, t?)兩種形式的查詢完成實體對齊任務。其中,h和t分別是來自不同MMKG的候選實體對。
4.2 MMKG下游應用(Out-of-MMKG)
????Out-of-MMKG 應用指基于 MMKG的下游應用。下面從基于MMKG的命名實體識別(entity recognition)和實體鏈接(entity linking)、視覺問答(visual question answing, VQA)、圖文匹配(image-text matching)、多模態(tài)生成(multi-model generation)和多模態(tài)推薦系統(tǒng)(multi-model recommender system)等幾個應用為例進行介紹。本文沒有對這些任務的所有解決方案提供系統(tǒng)評價,而是主要關注介紹如何使用 MMKG。
4.2.1 多模態(tài)實體識別與鏈接
? ??多模態(tài)實體識別(MNER) 旨在檢測帶有圖像的文本中的實體,其中圖像可以為實體識別提供必要的補充信息。 MMKG 通過提供視覺特征使得 MNER 附帶圖像信息用于實體識別。例如,使用 MMKG 中圖像的背景知識來幫助捕獲圖像的深層特征,以避免來自淺層特征的錯誤[57-2018, 117-2018, 149-2021]。
? ??多模式實體鏈接 (MEL),指對于帶有附加圖像的文本中,通過結合文本和視覺信息將文本中的實體鏈接到知識庫中的實體[150-2020, 151-2018]。
4.2.2 視覺問答
????視覺問答(VQA)是一項具有挑戰(zhàn)性的任務,不僅需要對問題進行準確的語義解析,還需要深入理解給定圖像中不同對象和場景之間的相關性。最近發(fā)布的VQA任務數(shù)據(jù)集(GQA[119-2019]、OK-VQA[56-2019]、KVQA[121-2019]),普遍要求結合視覺推理完成。OK-VQA任務中,人們可以方便地結合知識庫中多模態(tài)信息,對問題進行解答。例如,在“哪個美國總統(tǒng)與這里看到的毛絨玩具有關?”的問題中,如果圖像中的毛絨玩具被檢測為“泰迪熊”,則通過 KG 推理出的答案將是“西奧多·羅斯福”,因為他常常被稱為“泰迪羅斯福”,泰迪熊以他的名字命名。
? ??抽取視覺概念之間的關系和理解問題中的語義信息是 VQA 的兩個關鍵問題。然而,如果不結合更多各種模態(tài)的知識,它就無法通過語義解析和匹配對圖像-問題-答案三元組進行推理,并且很難推廣到更復雜的情況[122-2015]。MMKG 有助于解決上述問題并增強答案的可解釋性。首先,MMKG 提供某個圖像中包含的實體及實體間關系信息,提供更深入的視覺內(nèi)容理解。其次,MMKG 中的結構化符號知識在進行推理和最終答案預測上提供數(shù)據(jù)支持。[152-2021]結合了多種KG去完成VQA任務,具體包括用于提供分類和常識知識的SKG(DBpedia[6-2007], ConceptNet[2-2004], hasPartKB[153-2020])和一個MMKG(Visual Genome[59-2017])。除此之外,MMKG中豐富的語義信息可以從可解釋性和通用性方面完善答案[154-2020]。
4.2.3 圖-文匹配
????圖像-文本匹配是許多與文本和圖像相關應用的一項基本任務,例如圖像-文本和文本-圖像檢索,其核心目標是計算圖像和文本對之間的語義相似度[114-2018, 155-2015, 156-2018, 157-2019, 158-2020]。
????圖像-文本匹配通常是通過將文本和圖像映射到一個語義空間中,計算不同模態(tài)數(shù)據(jù)在同一語義空間中的向量表示的相似度實現(xiàn)。一種通用的方法是利用多標簽檢測模塊來抽取語義概念,然后將這些概念與圖像的全局上下文融合[114-2018, 159-2018, 160-2019]。然而,預訓練的基于檢測的模型很難找到長尾概念,導致性能不佳。對于數(shù)據(jù)偏差導致的長尾問題,可以利用MMKG中豐富的多模態(tài)數(shù)據(jù)對長尾概念用圖像等模態(tài)擴展。此外,MMKG還可以幫助構建場景圖(scene graph),引入視覺對象之間的關系信息,進一步增強圖像表示能力。例如,可以提取在 MMKG 的三元組中經(jīng)常共現(xiàn)的實體對(房屋-窗戶對和樹-樹葉對),以增強圖像的表示,從而為圖像的語義理解提供豐富的上下文信息,并提升圖像-文本匹配的性能[16-2019]。此外,考慮到圖像-文本匹配任務中的一個關鍵步驟是在不同模態(tài)之間對齊局部和全局表示。對此,[161-2020]嘗試將MMKG中的關系引入,以表示更高語義級別的圖像和文本。這種圖結構信息更好地增強了多模態(tài)數(shù)據(jù)的推理能力和可解釋性。 MMKG 還通過學習更統(tǒng)一的多模態(tài)表示來幫助跨模態(tài)對齊。
4.2.4 多模態(tài)生成任務
????當前基于MMKG的多模態(tài)生成任務主要包括,圖像標記(image tagging)、圖像描述(image caption)、視覺敘事(visual storytelling)等。
? ??1)圖像標記,傳統(tǒng)的圖像標記方法很容易受到標簽數(shù)量偏差以及標記質(zhì)量的限制。通過將 MMKG 中的概念知識嵌入到圖像中,可以極大地改善圖像的表示,從而提高圖像標記的性能[162-2019]。[162-2019]構建一個名為 Visio-Textual Knowledge Base (VTKB) 的MMKG,其中包括文本和視覺信息以及它們之間的關系。基于VTKB,提出了一種新的圖像標記框架,將視覺信息結合到 VTKB 中,以幫助消除概念歧義并將它們與圖像更好地聯(lián)系起來。
? ? 2)圖像描述,主流的基于統(tǒng)計的圖像描述模型有兩個缺點:首先,它們嚴重依賴目標檢測器的性能(先檢測視覺對象,再生成對應描述內(nèi)容)。其次,訓練集中沒有出現(xiàn)的對象總是給他們帶來很大的挑戰(zhàn)。在圖像-描述并行語料庫上訓練的模型總是無法描述之前未見過的對象和概念。
????幸運的是,MMKG 可以通過以下方式幫助緩解圖像描述上述兩個問題:1)[163-2019]提出利用 MMKG 進行關系推理,從而產(chǎn)生更準確和合理的描述。2) MMKG的符號關聯(lián)知識可以幫助理解訓練集中沒有出現(xiàn)的實體/概念[55-2017]。具體來說,符號知識提供了關于沒有被訓練到的對象的符號信息,并與已知對象之間建立語義關系。
????一個更復雜的任務為實體感知圖像描述,它要求在以文本形式給定背景知識的情況,對圖像中的對象給出更加豐富的描述內(nèi)容。盡管一些研究將背景文本知識利用細粒度的注意力機制編碼近模型中,但它們忽略了實體/概念與圖像中視覺線索之間的關聯(lián),因此在某些復雜場景下表現(xiàn)不佳。然而,MMKG可以捕獲上下文中的實體和圖像中的對象之間的細粒度關系,以便生成更準確實體和更多相關事件的描述[18-2021]。
? ? 3)視覺敘事,視覺敘事可以看做是升級版的圖像描述任務,需要根據(jù)許多連續(xù)的圖像來講述故事。該任務不僅需要分析圖像與圖像之間的關聯(lián),還需要分析相關圖像中視覺對象之間的關系。傳統(tǒng)的視覺敘事方法通常將其抽象為順序圖像描述問題,忽略圖像之間的關聯(lián)關系,導致產(chǎn)生單調(diào)的故事。此外,上述方法生成的描述詞匯和知識受限于單個訓練數(shù)據(jù)集。為了解決這些問題,[164-2020]在蒸餾-濃縮-生成三階段框架中引入MMKG。首先,從每個圖像中提取一組單詞,然后,將兩個連續(xù)圖像中的所有單詞配對以查詢Visual Genome的對象關系和OpenIE的術語關系,以獲取所有可能的元組并生成豐富的故事。最后,生成最優(yōu)的詞語組合輸入到故事生成模塊,執(zhí)行故事生成。通過這種模仿人類如何敘述故事的方式,知識圖譜中關系的使用提供了圖像之間強大的邏輯推理,使生成的故事更加流暢。
4.2.5 多模態(tài)推薦系統(tǒng)
????推薦系統(tǒng)旨在通過對歷史數(shù)據(jù)的分析來推薦用戶可能喜歡/購買的商品。在此過程中需要平衡多種因素,例如準確性、新穎性、分散性和穩(wěn)定性[165-2013]。多模態(tài)推薦系統(tǒng)指在推薦場景中涉及圖像和文本等多模態(tài)數(shù)據(jù),需要聯(lián)合利用不同模態(tài)的信息,以提升推薦性能。
????近年來已經(jīng)證明,MMKG可以極大地增強多模態(tài)推薦系統(tǒng)[166-2009]。一些方法通過利用外部 MMKG 來獲得具有豐富語義的項目表示。跨不同模態(tài)整合 MMKG 的信息可以幫助解決基于協(xié)作過濾 (CF) 的推薦策略中長期存在的冷啟動問題[167-2016]。其他一些方法找到了利用 MMKG 獲得更個性化和可解釋的推薦的其他方法[131-2020, 168-2021]。
五、未解決的問題
????本節(jié)討論了一些關于 MMKG 構建和應用的開放問題,留待未來研究。
5.1 復雜符號知識定位
????除了實體、概念和關系等的定位之外,一些下游應用需要對更加復雜的符號知識定位,這些知識由多個相互之間具有密切語義關系的關系事實組成。這些多重關系事實可能是知識圖譜中的一條路徑或一個子圖。例如,對于包含特朗普的妻子、女兒、孫子等的子圖,合適的圖像定位可能是特朗普的全家福。
????多重關系定位具有挑戰(zhàn)性,因為它涉及多個關系的定位,并且這些多重定位通常以復雜的方式相互交織。我們必須找到充分體現(xiàn)復合語義關系的圖像。在許多情況下,復合語義只是隱式表達的,并且可能隨著時間而改變。
5.2 質(zhì)量控制
????一般來說,我們依靠數(shù)據(jù)驅(qū)動的方法來構建大規(guī)模的 MMKG。從大數(shù)據(jù)中自動獲取的 MMKG 不可避免地會遇到質(zhì)量問題,即 MMKG 可能包含錯誤、缺失事實或過時的事實。例如,在基于搜索行為數(shù)據(jù)的多模態(tài)知識獲取中,很容易為長尾實體關聯(lián)錯誤的圖像,因為該實體可能在 Web 上沒有圖像,因此任何點擊的圖像都會誤導錯誤定位。
????除了在傳統(tǒng)知識圖譜中廣泛討論和研究的準確性、完整性、一致性和新穎度等常見質(zhì)量問題外,多模態(tài)知識圖譜還存在一些與圖像有關的特殊質(zhì)量問題。第一,當兩個實體彼此密切相關時,兩個實體的圖像很容易被混淆。見表 4 中的第一個例子,Pluvianus aegyptius是一種與鱷魚共生的鳥類,因此我們在搜索時可能總是得到鱷魚和鳥類的照片。第二,更加有名的實體的圖像很容易出現(xiàn)在其密切相關實體的定位結果中。見表4中的第二個例子,《The Wandering Earth》是中國著名科幻作家劉慈欣寫的。在搜索這本書的過程中,我們總能找到另一本劉慈欣更著名的書的圖片,名為《The dark forest》。第三,一些抽象概念的視覺特征不夠清晰。比如抽象名詞arrogance的視覺特征是不固定的,所以我們總能得到一些完全不相關的圖片。為了解決上述問題,可能需要更多的視覺分析和背景信息來指導點擊率和文本信息,以避免這種誤導。
5.3 效率
????在構建大規(guī)模KG,效率始終是一個不可忽視的問題,對于MMKG的構建,效率問題更為突出,因為還需要額外考慮處理多媒體數(shù)據(jù)復雜性。例如,NEIL[19-2013]耗費大約350K的CPU小時去收集 2273個對象的400K個視覺實例,而在一個典型的KG 中,我們需要處理數(shù)十億個實例。因此,構建MMKG的現(xiàn)有解決方案的執(zhí)行過程將受到極大挑戰(zhàn)。如果定位目標是視頻數(shù)據(jù),則可執(zhí)行性難度可能會被放大。
????除了MMKG的構建,MMKG的在線應用也需要認真解決效率問題,因為基于MMKG應用普遍要求實時性。效率對于構建基于MMKG的在線應用至關重要。
六,結論
????我們第一次對包含文本和圖像模態(tài)MMKG構建和應用方面現(xiàn)有工作進行了系統(tǒng)全面的總結,梳理了主流MMKG涉及的概念和知識,分析了MMKG構建和應用中不同解決方案的優(yōu)勢和劣勢。通過對現(xiàn)有研究工作的分析和總結,我們給出了在MMKG建設和應用任務中存在的挑戰(zhàn)和未來可能的機遇。