最近幾年,以深度學(xué)習(xí)為代表的人工智能技術(shù)迎來(lái)了一次革命。目前,人工智能最為熱門的方向在圖像識(shí)別、自動(dòng)駕駛、語(yǔ)音識(shí)別等領(lǐng)域。和這些領(lǐng)域?qū)映霾桓F的明星初創(chuàng)公司相比,人工智能技術(shù)在科研領(lǐng)域的應(yīng)用則相對(duì)少有人關(guān)注。然而,在這一領(lǐng)域,其實(shí)是有不少非常有趣的研究成果,本文將嘗試進(jìn)行一些總結(jié)。
科研領(lǐng)域人工智能技術(shù)的應(yīng)用前景
科研可以說(shuō)是人類探索未知的最前沿戰(zhàn)場(chǎng),然而,和很多人所想象的不同的是,科研領(lǐng)域的生產(chǎn)力發(fā)展水平其實(shí)是相當(dāng)?shù)偷摹_@一方面是由于科研領(lǐng)域眾多,研究方向分散,沒(méi)法規(guī)模化;另一方面是作為科研主體的研究生們價(jià)格十分低廉,采用手工作坊模式比較具有性價(jià)比。
但是科研發(fā)展到今天,尋找更有效率的工具既是美好的期望也是刻不容緩的現(xiàn)實(shí)需求。這是因?yàn)樵诖蠹业牟恍腹嗨拢F(xiàn)在科研論文的產(chǎn)出速度已經(jīng)非常快了。即使是一個(gè)非常小眾的領(lǐng)域,一個(gè)人閱讀文獻(xiàn)的速度也很難跟上新文獻(xiàn)的產(chǎn)出速度。當(dāng)然,我們可以通過(guò)個(gè)人經(jīng)驗(yàn)篩選出其中有價(jià)值的那些,但是這就像手工作坊依賴?yán)蠋煾狄粯樱@樣抽象的經(jīng)驗(yàn)是否合理,能否傳承是一個(gè)大問(wèn)題。
那么,科學(xué)研究的哪些流程可以做的更好一點(diǎn)呢?這里我們可以列舉一些:
- 檢索。我們通常的搜索方式是在各個(gè)搜索引擎的搜索框里輸出文字,獲得返回的網(wǎng)頁(yè)、圖片等信息。但是對(duì)于科研來(lái)說(shuō),除了文字之外,我們還希望能夠檢索公式、專有名詞、圖片等等。這些檢索內(nèi)容在通常的搜索引擎中很難獲得有效的結(jié)果。
- 引文網(wǎng)絡(luò)。對(duì)于一篇文獻(xiàn)來(lái)說(shuō),它引用的文獻(xiàn)和引用它的文獻(xiàn)都是很重要的參考信息。雖然很多出版商的網(wǎng)站提供了獲取文獻(xiàn)引文的選項(xiàng),但是文獻(xiàn)通常是以PDF的形式傳播,我們希望能直接從離線存儲(chǔ)的PDF文件中還原出它的引文信息。此外,如果能夠從一片文獻(xiàn)出發(fā),描繪出相關(guān)的引文網(wǎng)絡(luò),我們就能夠找到該領(lǐng)域的重要文獻(xiàn),非常有利于我們快速的掌握一個(gè)領(lǐng)域的核心信息。
- 知識(shí)記錄。一篇文獻(xiàn)的細(xì)節(jié)往往是非常之多的,一般情況下,我們只能通過(guò)在PDF文件或者引文管理軟件中標(biāo)注來(lái)記錄重要的信息,可是,這樣的記錄方式顯然是不夠有效的,不僅很難講零散記錄的信息集中整理,時(shí)間一長(zhǎng)也很容易遺忘當(dāng)初標(biāo)記的初衷。
問(wèn)題的根源
為什們會(huì)有這些問(wèn)題呢?究其根本,這是因?yàn)楝F(xiàn)在的科研出版體系還停留在紙質(zhì)時(shí)代,然而我們的工作方式早已邁入了互聯(lián)網(wǎng)時(shí)代。令人悲觀的是,這些問(wèn)題雖然引起了一些人的關(guān)注,但是可能很難在短期內(nèi)解決。因?yàn)楣ぷ餍实牡拖潞馁M(fèi)的只是研究生們的青春,而這個(gè)行業(yè)并不缺源源不斷涌入的勤勞的學(xué)生。而且,科研是一個(gè)壟斷行業(yè),幾大國(guó)際出版商把持了絕對(duì)的話語(yǔ)權(quán),如果他們沒(méi)有變革的動(dòng)力,行業(yè)本身并不會(huì)發(fā)生根本的變化。
但是對(duì)于學(xué)生們來(lái)說(shuō),時(shí)間是寶貴的財(cái)富。工作效率是贏得時(shí)間的根本手段,因此我們非常有必要關(guān)注一些能提高效率的工具。這里,我將列舉一些最新的工具,他們也許能在你的日常工作中派上用場(chǎng)。需要注意的是,這里的很多工具具有實(shí)驗(yàn)性質(zhì),他們的功能可能還相當(dāng)不完善,因此需要你自己使用之后來(lái)判斷它的價(jià)值。
科研工具的搜索引擎——LabWorm
LabWorm是一個(gè)用來(lái)搜索科研工具的搜索引擎,這里有著各種五花八門的科研相關(guān)工具。
檢索工具
更具深度的文獻(xiàn)搜索引擎
AMiner是由清華大學(xué)的團(tuán)隊(duì)開(kāi)發(fā)的文獻(xiàn)檢索引擎,相比傳統(tǒng)的文獻(xiàn)檢索引擎,它提供了更多更具深度的內(nèi)容,比如,按照h-index排序檢索結(jié)果,給出作者的常見(jiàn)合作者,文章或者領(lǐng)域的歷年引用趨勢(shì)等等,同時(shí)它還提供一定的社交功能,可以對(duì)作者投票或者評(píng)論。可以說(shuō)AMiner代表了文獻(xiàn)搜索引擎的未來(lái)。但是它主要側(cè)重計(jì)算機(jī)領(lǐng)域的文獻(xiàn),其它領(lǐng)域的文獻(xiàn)信息不是非常完善。
用公式來(lái)搜索維基百科
Koala能夠讓你通過(guò)輸入Latex表達(dá)式形式的公式來(lái)檢索維基百科,它會(huì)自動(dòng)分析相近形式的公式,給出相關(guān)維基百科條目的鏈接。
用公式來(lái)搜索網(wǎng)頁(yè)
uniquation,如果你希望用公式來(lái)搜索所有網(wǎng)頁(yè)結(jié)果,可以試試這個(gè),同樣需要以Latex形式輸入公式,也會(huì)給出相近形式的公式。如果你對(duì)Latex表達(dá)式的寫法不熟悉,可以搜索一些在線的Latex公式轉(zhuǎn)換器。
用圖片來(lái)搜索論文
Viziometrics是一個(gè)完全基于圖片的搜索引擎。其實(shí)論實(shí)用性,它估計(jì)比不上谷歌圖片搜索。它是直接提取論文中的圖片和圖片標(biāo)題來(lái)生成相關(guān)搜索項(xiàng),是一個(gè)非常有意思的工具,雖然打開(kāi)速度很慢。
引文相關(guān)工具
自動(dòng)提取PDF中的文獻(xiàn)信息
cermine是一個(gè)開(kāi)源項(xiàng)目,它提供一個(gè)在線工具,能夠?qū)⒛闵蟼鞯腜DF格式的文獻(xiàn)中的關(guān)鍵信息提取出來(lái),這些信息包括作者、單位、摘要、參考文獻(xiàn)等等。
引用文獻(xiàn)的逆向格式化
CitationFinder是一個(gè)相當(dāng)神奇的實(shí)用工具。我們知道,文獻(xiàn)管理軟件可以將數(shù)據(jù)庫(kù)導(dǎo)出成各種專有格式,這些格式可以轉(zhuǎn)換成txt。可是,反過(guò)來(lái)把TXT還原成文獻(xiàn)管理軟件能夠識(shí)別的格式卻是一個(gè)難題。這個(gè)網(wǎng)站可以將大段TXT格式的參考文獻(xiàn)列表轉(zhuǎn)換成常用的文獻(xiàn)管理軟件能夠識(shí)別的格式,正確率相當(dāng)高。
公式自動(dòng)識(shí)別
InftyReader是一個(gè)OCR軟件,它的強(qiáng)大之處在于它能夠?qū)df文件中的公式轉(zhuǎn)換成Word或者Latex格式,準(zhǔn)確率是目前最高的。
引文網(wǎng)絡(luò)分析
理論上來(lái)說(shuō),引文網(wǎng)絡(luò)分析是科學(xué)研究中的重要內(nèi)容,但是實(shí)際上卻很少有人去做這樣的事情。原因是多方面的,一是:引文網(wǎng)絡(luò)本身涉及的方面非常多,比如作者之間的引用關(guān)系,期刊權(quán)重的排序等等;二是,一旦涉及到較深的層次,引文的數(shù)量將會(huì)非常龐大,導(dǎo)致獲取、分析和展示文獻(xiàn)信息都將變得非常緩慢;三是,如何將復(fù)雜的網(wǎng)絡(luò)清晰的展現(xiàn)出來(lái),并從中發(fā)掘有用的信息也是一個(gè)難題。所以,雖然現(xiàn)在已經(jīng)有一些工具能夠?qū)崿F(xiàn)引文網(wǎng)絡(luò)的分析,但是學(xué)習(xí)成本相當(dāng)高,普及率很低。目前,常用的引文分析軟件包括:CiteSpace、SCI2和HistCite,有興趣的人自行嘗試。需要注意的是,官方的HistCite版本有一些Bug,如果需要可以用這里的版本。
科研知識(shí)管理
用思維導(dǎo)圖管理文獻(xiàn)
如果將數(shù)量繁多的文獻(xiàn)中有用的信息組織起來(lái)是一個(gè)難題,將文獻(xiàn)以思維導(dǎo)圖的形式組織起來(lái)是一個(gè)可供嘗試的方向。Docear就是為這一目的而生的軟件。它的功能比較完善,但是使用起來(lái)有些復(fù)雜。
與PDF閱讀器集成的文獻(xiàn)管理軟件
與思維導(dǎo)圖這一本身并不太普及的形式相比,直接在PDF文件上標(biāo)注信息則實(shí)用的多,然而,如何將標(biāo)注的信息組織起來(lái)呢?Mac和iOS上有一款國(guó)人開(kāi)發(fā)的軟件MarginNote就是為這一目的量身打造,它不僅可以將PDF文件中的信息用思維導(dǎo)圖組織起來(lái),還可以生成記憶卡片,用作背誦之用,因而廣受醫(yī)學(xué)、法律專業(yè)的學(xué)生歡迎。遺憾的是,這一軟件并沒(méi)有Windows版本。
Windows用戶可以使用文獻(xiàn)管理軟件Citavi,在提供常用的文獻(xiàn)管理,Word引文插入功能之外,它還提供了一個(gè)Adobe PDF 閱讀器的插件,可以直接在PDF文件上標(biāo)注,這些標(biāo)注的信息可以單獨(dú)組織管理,也可以導(dǎo)出到思維導(dǎo)圖軟件。這個(gè)軟件的另外一個(gè)亮點(diǎn)是,在Word中不僅可以插入文獻(xiàn)庫(kù)中的文獻(xiàn),也可以檢索插入標(biāo)注的文獻(xiàn)中的信息。
除了文獻(xiàn)管理軟件之外,還有一類更專業(yè)的文件標(biāo)注工具,學(xué)名叫質(zhì)性分析軟件,在心理學(xué)、社會(huì)學(xué)等學(xué)科比較常用。這類軟件能夠標(biāo)注的文件類型更為廣泛,以常用的atlas.ti軟件為類,它除了可以標(biāo)記PDF、Word之外,還可以標(biāo)記音頻、視頻,標(biāo)注的信息以節(jié)點(diǎn)方式組織,可以注釋、組合、鏈接。這類軟件適合分析含有大量文本、音視頻數(shù)據(jù),需要提取抽象信息的項(xiàng)目。
幻想未來(lái)
科學(xué)研究有著理論上的巨大價(jià)值,但是對(duì)于身在其中的從業(yè)者,個(gè)中甘苦,唯有己知。本文介紹了很多具有實(shí)驗(yàn)性質(zhì)的工具,它們中到底哪些能夠真的普及,尚未可知。趁著人工智能的東風(fēng),不妨讓我們暢想一下科學(xué)研究的未來(lái),想象一下,人工智能在科學(xué)研究中有哪些應(yīng)用前景。
- 自動(dòng)提取PDF格式文獻(xiàn)的核心信息,識(shí)別其中的各個(gè)區(qū)域,生成結(jié)構(gòu)化文件。這涉及到版面識(shí)別,文本OCR等方面。現(xiàn)在已經(jīng)有一些相對(duì)成熟的工作。
- 內(nèi)容感知檢索。將PDF文件中的公式、專有名字、圖片加入針對(duì)性的檢索選項(xiàng),可以一鍵搜索相關(guān)內(nèi)容。
- 學(xué)術(shù)專用的網(wǎng)絡(luò)爬蟲。針對(duì)作者、單位,通過(guò)網(wǎng)絡(luò)爬蟲搜索到課題組主頁(yè)、作者職稱、單位排名等信息。
- 試劑、儀器識(shí)別。針對(duì)文獻(xiàn)中提到的試劑、儀器信息,自動(dòng)給出相應(yīng)的購(gòu)買鏈接和參考價(jià)格。
- 合作式的標(biāo)注和社交化評(píng)論。不同地點(diǎn)的作者可以共同標(biāo)記同一篇文獻(xiàn),并且可以相互查閱。同時(shí)可以建立一個(gè)問(wèn)答平臺(tái),作者和讀者可以直接交流。讀者可以點(diǎn)贊,也可以質(zhì)疑。
- 引文網(wǎng)絡(luò)生成和文獻(xiàn)推薦。自動(dòng)生成文獻(xiàn)的引用和被引網(wǎng)絡(luò),同時(shí)根據(jù)文獻(xiàn)的關(guān)鍵詞和相關(guān)文獻(xiàn),自動(dòng)推薦相關(guān)論文。
- 知識(shí)鏈接。對(duì)于文獻(xiàn)中提到的知識(shí),可以自動(dòng)鏈接教科書中對(duì)應(yīng)的內(nèi)容。
- 語(yǔ)義分析。自動(dòng)分析文獻(xiàn)中語(yǔ)句含義,歸納提取關(guān)鍵信息,生成邏輯關(guān)系圖。
- 語(yǔ)言翻譯。將英文自動(dòng)翻譯成其他語(yǔ)言。
- 鏈接企業(yè)。根據(jù)文獻(xiàn)信息,鏈接到關(guān)注或者從事相關(guān)技術(shù)的公司。
- 團(tuán)隊(duì)管理和流程控制。 引入企業(yè)中的團(tuán)隊(duì)管理體系和流程化工作方式,便于課題組績(jī)效考核和效率控制。
。。。。
可以想象的地方還有很多,但是要想完全實(shí)現(xiàn)上面的設(shè)想,恐怕需要一個(gè)堪比BAT規(guī)模的企業(yè)。
但是再完善的工具也只是工具,最核心的仍然是人類自身的創(chuàng)造力。