[譯文]圖論是理解大數(shù)據(jù)的關(guān)鍵

Neil Zhu,簡(jiǎn)書(shū)ID Not_GOD,University AI 創(chuàng)始人 & Chief Scientist,致力于推進(jìn)世界人工智能化進(jìn)程。制定并實(shí)施 UAI 中長(zhǎng)期增長(zhǎng)戰(zhàn)略和目標(biāo),帶領(lǐng)團(tuán)隊(duì)快速成長(zhǎng)為人工智能領(lǐng)域最專(zhuān)業(yè)的力量。
作為行業(yè)領(lǐng)導(dǎo)者,他和UAI一起在2014年創(chuàng)建了TASA(中國(guó)最早的人工智能社團(tuán)), DL Center(深度學(xué)習(xí)知識(shí)中心全球價(jià)值網(wǎng)絡(luò)),AI growth(行業(yè)智庫(kù)培訓(xùn))等,為中國(guó)的人工智能人才建設(shè)輸送了大量的血液和養(yǎng)分。此外,他還參與或者舉辦過(guò)各類(lèi)國(guó)際性的人工智能峰會(huì)和活動(dòng),產(chǎn)生了巨大的影響力,書(shū)寫(xiě)了60萬(wàn)字的人工智能精品技術(shù)內(nèi)容,生產(chǎn)翻譯了全球第一本深度學(xué)習(xí)入門(mén)書(shū)《神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)》,生產(chǎn)的內(nèi)容被大量的專(zhuān)業(yè)垂直公眾號(hào)和媒體轉(zhuǎn)載與連載。曾經(jīng)受邀為國(guó)內(nèi)頂尖大學(xué)制定人工智能學(xué)習(xí)規(guī)劃和教授人工智能前沿課程,均受學(xué)生和老師好評(píng)。

Is Graph Theory Key to Understanding Big Data

By DR. Roy Marsten, Emcien

圖論起源于著名的柯尼斯堡七橋問(wèn)題,并且與一位偉大的數(shù)學(xué)家L. Euler相關(guān)。插一句,這個(gè)名字可不是那么容易讀準(zhǔn)確的。在讀研的時(shí)候,常常聽(tīng)起宋公方敏的德語(yǔ)發(fā)音,無(wú)比高大上。而到現(xiàn)代,圖論的發(fā)展異常迅猛。由于其本身的通用性和抽象能力的強(qiáng)大,現(xiàn)在的世界已經(jīng)是圖論發(fā)揮其重要作用的天地,大有囊括自然科學(xué)的趨勢(shì)(成為 一個(gè)框架,能夠供眾多理論在里面玩耍)。這篇文章是一個(gè)初級(jí)介紹,從搜索巨頭Google說(shuō)起,點(diǎn)破了現(xiàn)在大數(shù)據(jù)場(chǎng)景下圖論最為關(guān)鍵的應(yīng)用。

在Google誕生后的一小段時(shí)間內(nèi),它已經(jīng)成為了人們?nèi)粘I畹谋仨毱贰?/p>

在眾多美劇中,你都可以看到主人公使用Google來(lái)查詢?nèi)宋锘蛘呤挛铮凇禨upernatural》中就常常看到這個(gè)場(chǎng)景,地址,歷史,人物關(guān)系都可以使用搜索引擎獲得。

搜索已經(jīng)成為了難以避免的生活方式,由于他們集中服務(wù)和產(chǎn)品在索引因特網(wǎng)這一杰出的工作之上。

Google的網(wǎng)絡(luò)爬蟲(chóng)和PageRank算法革新了人們搜索網(wǎng)絡(luò)的方式,使用分類(lèi)數(shù)字和網(wǎng)絡(luò)連接的重要性比以前更快地傳達(dá)了相關(guān)信息。

這些網(wǎng)絡(luò)連接和網(wǎng)站一起形成了一個(gè)連接圖。這不是我們一般意義上的“圖畫(huà)”,而是一個(gè)表象背后的眾多個(gè)體的關(guān)聯(lián)圖。

PageRank使用這些連接來(lái)判斷一個(gè)網(wǎng)頁(yè)有多重要或者多么有價(jià)值。被眾多第三方網(wǎng)站鏈接指向的網(wǎng)頁(yè)更可能出現(xiàn)Google搜索的結(jié)果中,其原因是那些網(wǎng)站是具有一定的權(quán)威性的信息來(lái)源。Google搜索結(jié)果一般來(lái)說(shuō)要更快更好因?yàn)樗麄兊乃惴▽⒕W(wǎng)頁(yè)之間的鏈接關(guān)系發(fā)揮到了極致。

通過(guò)這樣去思考關(guān)于鏈接和與其他類(lèi)型的數(shù)據(jù)的關(guān)系,我們可以揭示數(shù)據(jù)的本性(the nature),并知道什么是相關(guān)的,什么并沒(méi)有關(guān)系,并且知道什么是重要的,什么不重要。

When a Connection Becomes a Pattern Becomes a Graph

來(lái)看看如何對(duì)數(shù)據(jù)進(jìn)行分析和處理來(lái)揭示一個(gè)問(wèn)題的答案,理解傳統(tǒng)的與數(shù)據(jù)交互的方式很重要。大多數(shù)的尋求答案的方式的本質(zhì)是搜索。

搜索是一個(gè)本質(zhì)問(wèn)題,這個(gè)是理論計(jì)算機(jī)科學(xué)中有過(guò)相應(yīng)的討論的。搜索就對(duì)應(yīng)著一個(gè)搜索空間,這里是可能的所有的解的集合。而我們就是要在這里面找出滿足給定要求的解集合。然而這與我們使用的搜索引擎時(shí)提及的搜索是不同層面上的概念,然而察其本質(zhì)仍是一個(gè)。

搜索始于一個(gè)問(wèn)題的形成。我們?nèi)羰强梢愿玫貫橐延兄R(shí)和他們和數(shù)據(jù)的關(guān)系,便更有可能通過(guò)相應(yīng)的問(wèn)題獲得最終答案。如果你需要找到你的鑰匙,你可能會(huì)問(wèn)“我的鑰匙在哪里?”。這就不如“我的鑰匙在柜臺(tái)上么?”更加準(zhǔn)確了。第一個(gè)問(wèn)題可能太過(guò)寬泛了,而第二個(gè)則在你的鑰匙在柜臺(tái)上的時(shí)候才算是一個(gè)好的問(wèn)題。

查詢數(shù)據(jù)庫(kù)的方式和上面相似。為了獲得想要的結(jié)果,你需要構(gòu)造與數(shù)據(jù)相關(guān)的查詢語(yǔ)句。總有更多你可以使用的語(yǔ)句來(lái)運(yùn)行。但是極少的查詢語(yǔ)句可以讓你得到相應(yīng)的解答。

這個(gè)極為困難的問(wèn)題讓數(shù)據(jù)科學(xué)相當(dāng)棘手,不過(guò)也正是數(shù)據(jù)科學(xué)家們的價(jià)值所在。那群最厲害的人是既了解數(shù)據(jù)本身,也理解用來(lái)回答的那些技術(shù)的人們。

如果網(wǎng)絡(luò)是你的數(shù)據(jù)集,那么搜索引擎就是你的查詢工具。

搜索引擎在爬取網(wǎng)絡(luò),索引網(wǎng)頁(yè)使得這些數(shù)據(jù)可以通過(guò)搜索獲得。這些搜索的結(jié)果相差很大,不過(guò)通過(guò)創(chuàng)建更好的搜索關(guān)鍵詞,用戶可以改變自己的查詢結(jié)果。搜索引擎在不斷地提高準(zhǔn)確度,而創(chuàng)新時(shí)刻直到2000年才暴增。

Google的PageRank漸漸流行,整合和排名內(nèi)容通過(guò)每個(gè)超鏈共享的鏈接(organizing and ranking content by connections that each link shared)。使用圖的鏈接,Google已經(jīng)量化了網(wǎng)頁(yè)的鏈接來(lái)幫助用戶更快的獲得正確的結(jié)果。當(dāng)然更好的查詢語(yǔ)句會(huì)讓用戶得到更加準(zhǔn)確的結(jié)果。

查詢和PageRank算法之間有一個(gè)特定的關(guān)系。Google已經(jīng)映射了或者圖化了網(wǎng)頁(yè)之間的關(guān)系來(lái)識(shí)別那些更加相關(guān)的網(wǎng)頁(yè)。沒(méi)有這樣的關(guān)聯(lián)的網(wǎng)頁(yè)和聯(lián)系的映射,Google需要更好的查詢來(lái)獲得一個(gè)令用戶滿意的結(jié)果。甚至使用了加強(qiáng)的搜索技術(shù),現(xiàn)代數(shù)據(jù)問(wèn)題可以讓構(gòu)造正確的更加準(zhǔn)確的查詢更加困難或結(jié)果更糟糕。

理解數(shù)據(jù)之間的這些關(guān)系,不管它是網(wǎng)頁(yè)、產(chǎn)品、貨車(chē)的特征、信息中的字詞或者病人的癥狀、治療和收入等等,這是接受圖的第一步,也是今后人們看待數(shù)據(jù)的方式。

今天所擁有的數(shù)據(jù),還有我們觀察數(shù)據(jù)的方式,已經(jīng)深深邁進(jìn)圖論的領(lǐng)域。在未來(lái),我們借助來(lái)理解數(shù)據(jù)將帶來(lái)一個(gè)搜索得到結(jié)果的飛越。創(chuàng)建和分析可以讓答案自動(dòng)的得出。當(dāng)我們讓數(shù)據(jù)自己互聯(lián)時(shí),其意義已經(jīng)自動(dòng)地出現(xiàn)了。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書(shū)系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

推薦閱讀更多精彩內(nèi)容