干貨/比詞典還好用的語料庫

絕對干貨,親自操作,手把手教程,如果覺得有用,趕緊收藏

記得前一段時間,群里的小伙伴詢問我最好用的詞典APP。今天我們不說詞典,我們說一個比詞典還要牛逼的東西,那就是語料庫,英文是corpus。其實在大多數(shù)情況下,我們手中的詞典,無論是Oxford、Langman or Macmillan等等,已經(jīng)完全可以幫助我們解決日常英文閱讀中所遇到的問題了。但是如果我們手中再多一件利器,會給我們的英文學習帶來諸多方便。

那么什么是語料庫呢?我們強大的“度娘”給出答案。

語料庫是指經(jīng)科學取樣和加工的大規(guī)模電子文本庫。借助計算機分析工具,研究者可開展相關(guān)的語言理論及應用研究。

再來看一下英文介紹。

corpus n. (pl. corpora) refers to a large collection of well-sampled and processed electronic texts, on which language studies, theoretical or applied, can be conducted with the aid of computer tools.

也許你會告訴我,這是什么鬼,看不懂呀。別急,通俗的講,語料庫就是一個海量的語言集。它包羅萬象,無所不有,涵蓋眾多表達,無論書面語亦或是口頭語,可謂無比豐富,取材來自電視廣播、報紙雜志、學術(shù)期刊、小說電影等等,全部是真實語料。

也許你正在為你的中式英語而著急:我說的英語只有中國人可以聽懂呀,老外聽了都是懵逼狀態(tài)......

所以學習英語時,真實的場景就顯得尤為重要。我們就來看看這個強大的語料庫,如果好好利用,分分鐘鐘帶你裝逼帶你飛。

今天我們只看第一種在線語料庫,那就是美國當代英語語料庫(全稱 Corpus of Contemporary American English),簡稱COCA。以下是來自Wikipedia的介紹。

The freely searchable 450-million-wordCorpus of Contemporary American English(COCA) is the largest corpus of American English currently available, and the only publicly available corpus of American English to contain a wide array of texts from a number of genres. It was created by Mark Davies, Professor of Corpus Linguistics at Brigham Young University.

好了,我們先看一下COCA的整體頁面布局,最上面是語料庫名稱,然后下面有4個分欄,分別是SEARCH 檢索、FREQUENCY 頻次、CONTEXT 文本、 ACCOUNT 賬戶。

我們最常用的功能就是第一個: SEARCH,也就是語料庫檢索主界面。請看下圖。


List 檢索結(jié)果列表顯示

Chart 檢索結(jié)果柱形圖顯示

Collocates 搭配,找出頻繁搭配使用的詞匯

Compare 比較,辨析同義詞

KWIC(keyword in context) 文中關(guān)鍵詞顯示

Find matching strings查找

Reset 重置

[POS] 詞性標注,點開之后就會出現(xiàn)如下頁面。

其實一開始在看到[POS]時,我也不知道什么意思,我就點開,然后出現(xiàn)詞性選擇諸多項,才知道POS = Part of Speech(詞性),不禁覺得自己文化低,想要回農(nóng)村的趕腳~

下面我們就看看如何使用COCA吧~

1. 頻次

比如我們搜索“reading”這個單詞,檢索結(jié)果列表list顯示,我們可以看到在語料庫中這個單詞出現(xiàn)的頻次FREQUENCY是86070次。


點擊顯示的”reading“,我們進入文本CONTEXT頁面,從左到右依次是序號、年份、文本類型(下面我會說到5大文本類型,這里是ACAD,是指academy學術(shù)期刊)、文本來源(來自某某學術(shù)機構(gòu)、媒體廣播等等)。后面是具體的文本,如果想查看完整文本,點擊文本來源,就自動跳轉(zhuǎn)到CONTEXT+頁面。

同時,我們檢索結(jié)果用柱狀圖chart顯示

注意左邊一欄的內(nèi)容,也就是section文本分類,從上至下依次為spoken媒體對話、fiction小說、magazine雜志、newspaper報紙、academic學術(shù)期刊,然后下面就是時間年限分類。

我先點開“spoken",大家看一下頁面,來源有 ABC、NBC、CBS、CNN等多家媒體電視廣播等。

然后我再點開"1990-1994"時間段

如果我們要比較兩組近義詞或近義詞組的使用頻次,除了可以分別檢索之外,還可以直接輸入”think/figure“,這樣更一目了然。

2. 搭配

也就是Collocates選項,如下圖所示。

上面一行是需要檢索的單詞或短語,下面一行是搭配。

(1)譬如我需要檢索的單詞是”gain“,需要搭配的單詞是”success“,一切默認,結(jié)果如下圖所示。

對了,你們注意到上面的綠色數(shù)字了嗎?43210 01234,這具體是什么含義呢?其實通過剛才檢索的結(jié)果你也能猜上一二,那就是搭配詞"success"出現(xiàn)在檢索詞”gain“左邊或右邊4個字節(jié)內(nèi)。如果我們只想讓搭配詞“success”出現(xiàn)在檢索詞右邊,并且限制在2個字節(jié)內(nèi),那么我們可以設(shè)置為:左0,右2,結(jié)果如下圖所示。

如果我們要在gain 與success 之間加一個成分呢,這時檢索詞后面的[POS]派上用場,如果我們想要在兩者之中添加一個形容詞,我們選擇adj.,看下圖所示。

注意:這里的gain與[adj.] 之間一定要有空格,否則會有錯誤顯示。其實你這樣檢索的就是gain+adj.+success的結(jié)果,同時我限制字節(jié)是左0右2。

(2)如果你不知道gain這個單詞和什么詞搭配比較好,譬如gain和哪個名詞n.搭配比較常見,那么可以這樣檢索。


結(jié)果顯示如下

我們會看到可以和gain 搭配的名詞頻次從高到低有access, control,weight,support等等,如果想查看某一搭配,直接點擊想要查看的搭配即可。

當然你也可以直接在list頁面這樣檢索:gain 空格 選擇[POS]中的名詞格式,如下圖,這樣檢索出來的結(jié)果和(2)是一樣的。

(3)如果我們要檢索某一詞不與某一詞搭配的情況,這時要用到減號“-”,也就是在搭配詞前加上“-”, 意思是檢索詞不與該搭配詞搭配的情況。譬如我們在list頁面輸入“gain-success”,所要檢索的結(jié)果便是檢索詞gain不與success搭配而與任何一個其他的詞搭配。

突然發(fā)現(xiàn)這個功能好強大,寫作文時可以派上用場了。如果你不清楚這樣的表達是否合適亦或是這樣搭配的使用情況如何以及如何搭配才更恰當,不妨試試這個功能。注意:如果像(1)這樣的已知搭配出現(xiàn)的頻次是0或者很少,我們就知道這樣的搭配也許native speaker 并不這樣說,也就是說是不地道的表達。

3. 近義詞及近義詞搭配

了解了以上功能之后,我們下面的介紹就相當簡單了,我就不一一截圖了。

如果我們想知道brilliant的近義詞,在search頁面,默認list顯示,輸入“[=brilliant]", 檢索即可。同樣如果我們想知道“brilliant idea"的近義搭配,除了brilliant之外,還有哪個brilliant的近義詞可以和idea搭配,這時我們可以到search頁面,選擇collocates選項,第一行輸入idea,第二行輸入[=brilliant], 左1,右0.

4. [POS] 限定詞性

前面我們說到,檢索一個單詞gain搭配的兩種方法,其中一種就是在list頁面,輸入 gain 然后空格 選擇[POS]中詞性,譬如名詞的話,即“gain [nn*]”,那就是檢索:gain和任意名詞的搭配情況 。

如果我們想知道gain作為名詞本身的使用情況呢?這時就可以在list頁面,在gain和名詞詞性之間加一個英文狀態(tài)的句號“.” 即“gain.[nn*]”,注意引號內(nèi)沒有空格,這就是檢索gain作為名詞本身在語料庫中的情況。

5. Lemma檢索

Lemma檢索指的是查找檢索詞的所有變化形式,檢索方式是在檢索詞外加“[]”。這種方式適合查找名詞單復數(shù)變化,動詞時態(tài)變化。比如be動詞檢索,我們可以這樣輸入“[be]”, 我們得到的結(jié)果就是“am,is,are,was,were,being,been”的情況。

6. 模糊檢索

這里要提到通配符“*” 和“?”。“*” 代表的是任意數(shù)量的字符,包括數(shù)量為0,也包括空格和標點。“?”代表的是任意一個字符。注意兩者的作用是一樣的,只是“?”檢索的更精確一些

比如我們要檢索任意以“ed”結(jié)尾的詞,只需要輸入“*ed”就行,如果要查找任意以ed結(jié)尾的形容詞,我們可以這樣檢索:“*ed[j*]”, 注意后面的詞性一定要點擊[POS]來選擇。

好了,介紹完了,以上就是我所知道的COCA語料庫的功能,如果你覺得有用,趕緊收藏。


最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務。

推薦閱讀更多精彩內(nèi)容

  • 文/ 文心說 不知道你有沒有過這樣的經(jīng)歷:好不容易背下一堆單詞,寫作時迫不及待地用出來,而發(fā)下來的批改卻被打上了幾...
    文心說閱讀 3,045評論 0 18
  • 今年冬天,沒有下雪。有時候我甚至忘記了那件事。春天來了,雪卻下的異常的大,望著窗外的雪,又想起來…… 但是,記憶已...
    小資w閱讀 218評論 0 0