譯自 Munro, Robert
像每個工程領(lǐng)域,自然語言處理(NLP)既有接受率約為20%或者更低的頂級會議,也有每篇論文都接受的地方。 這也就意味著這里有很多低質(zhì)量論文。 然而除了 Quora 的 NLP 模塊有提到,我在網(wǎng)上并沒有找到太多關(guān)于 NLP 會議的介紹。
其實很多類似的知識都像是一種圈內(nèi)人的隱性知識,對外人來說有些不透明。而且一些很好的會議也都沒在推廣上做太多工作,因為該領(lǐng)域的每個人都已經(jīng)知道他們就是領(lǐng)導(dǎo)者了,沒必要花多余的精力。
因此,對于試圖在 NLP 中探索哪些應(yīng)該讀的圈外人或者新手來說,我認為我可以分享一些更全面的東西。 首先,簡單起見,其實在 NLP 中,你幾乎只需要查看這六個會議:
ACL: Association for Computational Linguistics
EMNLP: Empirical Methods in Natural Language Processing
NAACL: North American Chapter of the Association for Computational Linguistics
EACL: European Chapter of the Association for Computational Linguistics
COLING: International Conference on Computational Linguistics
CoNLL: Conference on Natural Language Learning
當(dāng)然,同時你還可以看看信息檢索,人工智能,機器學(xué)習(xí)和數(shù)據(jù)挖掘相關(guān)領(lǐng)域的頂級會議如:
SIGIR: Special Interest Group on Information Retrieval
AAAI: Association for the Advancement of Artificial Intelligence
ICML: International Conference on Machine Learning
ICDM: International Conference on Data Mining
ICLR: International Conference on Learning Representations
(更多可以查看我之前的一個分享。)
然后,還有少數(shù)一些相關(guān)的期刊。
Journal of Computational Linguistics
Transactions of the Association for Computational Linguistics
Journal of Information Retrieval
Journal of Machine Learning
所以對于嫌麻煩的人來說,這里有個極簡閱讀指南:
如果論文來自上面提到會議的主會場,或者是其中某個期刊,請閱讀。 如果不是,請忽略它。 同樣的如果你寫出了具有開創(chuàng)性研究成果的論文,想要投稿,也可以如此參考。
若是想知道更詳細的人,可以繼續(xù)讀下去。
更詳細的閱讀指導(dǎo)
上面這個是個簡化版的回答,具體答案要復(fù)雜得多。 其實在其他地方發(fā)表 NLP 相關(guān)成果也很正常:比如我的大部分出版和發(fā)表都不是在上述這些場所中。
為了幫助你了解其中差異,以下是一些需要考慮的其他細節(jié)。 其中大部分是 NLP 領(lǐng)域的一般知識,還有些是來自我自己經(jīng)驗的主觀知識:
1. 閱讀:會議和期刊
會議是王道。 如果你正在查找論文,那么就得清楚會議和研討會(workshop)之間有很大的差異。得確保論文來自主會議,而不是相關(guān)的研討會。
還有,像 NLP 這樣的工程領(lǐng)域的頂級會議通常比頂級期刊更好(與大多數(shù)科學(xué)不同)。這主要是因為其快速的周期,可以吸引更多的研究人員。當(dāng)然,期刊標準仍然很高,一篇涵蓋的研究內(nèi)容通常要比典型的8或10頁的會議論文要多。
......如果有人知道 workshop 和 symposium (兩者中文翻譯都是研討會)之間的區(qū)別,請告訴我。
2. 跳過:關(guān)于某應(yīng)用領(lǐng)域的研討會
關(guān)于將 NLP 應(yīng)用于某特定領(lǐng)域的研討會,主要是針對在類似子領(lǐng)域中工作的人員,以分享他們的研究并尋找可能合作機會。 它也非常適合年輕研究人員獲得他們的初次發(fā)表。而且擁有一個專注的學(xué)科領(lǐng)域,也有助于吸引其他研究人員到此應(yīng)用領(lǐng)域。
例如,我參加了 IJCNLP 2013年的語言處理和危機信息研討會的計劃委員會。 這是一個很棒的研討會,有一些實體論文,并引起了其他 NLP 研究人員的興趣,他們可能會想將他們的技能運用到這個領(lǐng)域。 總的來說,它實現(xiàn)了它的初衷。 但是大多數(shù)提交的論文都被接受了,所以無法保證這些論文經(jīng)過仔細審核。對于這方面的工作,最好留意之后幾年同一作者在頂會上的論文。
3. 閱讀:專注于 NLP 子領(lǐng)域的研討會
例如,我在和 ACL 2012 同時進行的第4屆命名實體研討會(Named Entities Workshop, NEWS)上,發(fā)表了一篇關(guān)于災(zāi)難響應(yīng)的命名實體識別的論文:
Munro, Robert and Christopher Manning. 2012. Accurate Unsupervised Joint Named-Entity Extraction From Unaligned Parallel Text. The 4th Named Entities Workshop (NEWS), Jeju, Korea.
我更傾向于相信有關(guān)子領(lǐng)域的研討會,而不是關(guān)于應(yīng)用領(lǐng)域的研討會。你可以確保論文的審稿者都對“命名實體識別”這個子領(lǐng)域了解很多。但是這里也通常比主會議更容易被接受,因此在這樣的研討會上論文質(zhì)量仍然不太高。我不確定 NEWS 的水平有多高,但是機器翻譯等更受歡迎的子領(lǐng)域卻會有很高的品質(zhì)。例如,統(tǒng)計機器翻譯研討會 (Workshop on Statistical Machine Translation) 的論文,我相信都是經(jīng)過了解相關(guān)領(lǐng)域的人充分審查的,幾乎相當(dāng)于大多數(shù)主會場上的論文了。
4. 跳過:主題演講和邀請演講
如果你被邀請了,那么(顯然)沒有雙盲的同行評審。 比如我的一個例子:
Munro, Robert. 2010. Crowdsourced translation for emergency response in Haiti: the global collaboration of local knowledge. (Keynote) AMTA Workshop on Collaborative Crowdsourcing for Translation. Denver, Colorado.
主題演講是個非常好的地方,讓人們超越學(xué)術(shù)界限制來談?wù)摯缶趾蛻?zhàn)略問題。 它也是人們總結(jié)大量過去工作的好地方。 但這樣的內(nèi)容不受雙盲審查,所以你不應(yīng)當(dāng)把這些看成和經(jīng)過仔細審查的論文一樣。
5. 閱讀:頂級會議的短論文
有些會議允許短論文,通常為4頁。
在一個好的會議上,一篇短論文幾乎總是比研討會或次要會議上的長篇論文還要好。 大多數(shù)情況下,一篇短論文一般意味著它之前作為長論文提交被拒絕了,之后重新提交。它不用符合同一會議的長論文標準,只需要4頁就行,所以一些會議甚至?xí)笕藗兺瑫r提交長短論文,以確保一些刻意投短論文的,而不是被刪減過的長論文。 查看會議的“征集論文”頁面,以確定對短論文的確切信息。
6. 跳過:通過摘要審查(或根本沒有)的會議
在人文學(xué)科中,會議論文通常得不到全面評審,期刊會更重要(這其實在工程學(xué)以外都非常常見)。
在 NLP 中,一個例子就是 LREC 會議,它的論文都只通過摘要進行審查,然后他們發(fā)布該摘要而無需進一步修改。 LREC 是查找 NLP 資源信息的最佳會議,也是那些創(chuàng)建語言資源的人聚集的最佳會議。 但這些論文并未經(jīng)過同行評審。
7. 閱讀:來自頂級機構(gòu)/導(dǎo)師的博士論文
博士論文可以算作經(jīng)過同行評審的工作,但是其中差異也和論文一樣大。 如果博士論文是由頂尖大學(xué)授予的,那么它就比較有價值,但你還是得確定它在給定領(lǐng)域的專業(yè)性。可以看看誰在審查委員會,然后看看這些研究人員都怎么樣:
http://scholar.google.com/citations?view_op=search_authors&hl=en&mauthors=label:natural_language_processing
博士審查委員會是不是由頂尖研究人員組成的? 如果是的話,那你就可以讀讀。 通常一個優(yōu)秀的博士論文,也會有幾章內(nèi)容是在頂級 NLP 會議上發(fā)表過的。
8. 跳過:領(lǐng)域外的會議和期刊
這是一些最糟糕論文出現(xiàn)的地方。如果審稿人沒有 NLP 的背景,那么他們更可能讓論文充滿錯誤或誤導(dǎo)性信息然后還被接受。甚至像 Nature 這樣的期刊也可以通過糟糕的 NLP 文章:參見 Mark Liberman 對“Language cool as they expand”的評論(它的博客,Language Log 是關(guān)于語言的必讀博客之一,即使沒有同行評審)。
另一個例子是 ISCRAM:Information Systems for Crisis Response and Management。在很多場合,我看到自己的工作在那里被扭曲了。在一篇論文中,研究人員誤解了我復(fù)雜的語言獨立研究,錯誤地引用我們的話說,以英語為中心的研究確實適用于其他語言。這是一種錯誤的引用,以使他們能跳過建立(最難)90%的研究。
9. 閱讀:被引用很多的論文
引用可以很好地指示出論文的重要性,但有的時候也會出現(xiàn)誤導(dǎo)。 例如,BioNLP 這個子領(lǐng)域與生物學(xué)領(lǐng)域重疊,而生物學(xué)領(lǐng)域的研究人員多于 NLP,因此就有更多的人可以引用論文。
有時候,即使是技術(shù)報告(未經(jīng)審查的論文)也可能具有影響力:
Winograd, Terry (1971). Procedures as a representation for data in a computer program for understanding natural language. Technical Report, MIT.
許多重要的論文都很相似,因為它們經(jīng)常開創(chuàng)出科學(xué)領(lǐng)域。 根據(jù)經(jīng)驗,對于NLP 中的論文,1000次或更多次引用意味著它可能是高質(zhì)量的研究,特別是如果其中許多引用來自于頂級會議的論文。
10. 跳過:書籍章節(jié)
如果論文是書的章節(jié),那么很可能是偽裝的研討會論文。 許多較小的工程研討會和會議將把會議記錄作為一本書出版。 這不一定是故意欺騙 - 它起源于大多數(shù)論文可以在線發(fā)表之前,而且它是捆綁論文以便分發(fā)的簡單方法。
在大多數(shù)其他情況下,書籍章節(jié)都是被邀請寫的,因此不受雙盲的同行評審。 而且如果真的是很有重量的研究的話,那也不會在書的章節(jié),而是直接在頂會上發(fā)表了。
11. 閱讀:來自頂級研究人員的教科書
這是一個比較難的過程:因為現(xiàn)在任何人都能隨時出版一本書,并且想怎么叫就怎么叫,但最受歡迎的教科書往往來自頂級的研究人員。 我建議你可以查查作者先:如果他們在上述的頂級會議經(jīng)常發(fā)表,那么教科書質(zhì)量也應(yīng)該很好。書的引用次數(shù)也是一個有用的指標。
(Andy: 舉幾個例子比如說 Manning,還有 Goldberg 他們的教科書就非常棒,如果你去查這倆人也會發(fā)現(xiàn)他們在頂會都有不少發(fā)表。)
12. SKIP:討論可部署系統(tǒng)的學(xué)術(shù)論文
我們需要學(xué)者來推動科學(xué)的界限,這是一項罕見且至關(guān)重要的技能。而不是讓我們最好和最聰明的人去生產(chǎn)標準化的軟件 - 這個世界上已經(jīng)有夠多的了。
除非研究人員來自一家大型公司(微軟,谷歌或IBM),且成立的研發(fā)團隊專注于NLP,否則他們不會生產(chǎn)可用于工業(yè)的軟件。 大規(guī)模的機器學(xué)習(xí)非常復(fù)雜,并且建立在許多與自然語言處理無關(guān)的操作和監(jiān)控的軟件開發(fā)技能之上。
13.閱讀:你最喜歡的研究員的任何東西
我們都有被“審稿人#3”給坑了的情況,看到我們認為好的研究被拒絕。 于是有時,一位優(yōu)秀的研究人員會將這項研究簡單地提交給一個較小的會議,以便在進入新項目之前與社區(qū)分享。 如果你已經(jīng)了解某個研究人員可以提供高質(zhì)量的工作,那么就可能在不太知名的地方尋找到一些寶石。
其他列表和我錯過的東西
雖然我已經(jīng)試圖列出一些客觀上公認特別棒的會議,但還是有些我不太了解,例如 IJCNLP International Joint Conference on Natural Language Processing 和新的關(guān)于計算語義的聯(lián)合會議 SEM* 等等。
你可能會說,這些會議和上面列出的一些會議一樣具有競爭力,只是現(xiàn)在缺一些聲望而已。
還有一些更常見的機器學(xué)習(xí)/數(shù)據(jù)挖掘會議通常也有 NLP 論文:比如 NIPS 和 KDD,或者更側(cè)重于語音識別等相關(guān)領(lǐng)域,如 Interspeech。
此外,你還可以找些列出各個會議截稿日期的網(wǎng)站來獲得會議信息,例如 NLP Calendar。這些將使你對該領(lǐng)域的研究人員認為重要的內(nèi)容有所了解。同樣,可以在 aclweb.org 上查找會議的“接受率”。提交很多但接受率很低,通常是說明會議質(zhì)量好的一個指標。
最后,有許多組織會為大學(xué)建立一個會議等級表。這些排名通常用于確定學(xué)者的資金,工資或工作機會。