Chapter 3

FSA(automaton)--有限狀態機,或者是FSM(machine)

正則表達式不僅僅用在文本的查找中, 也是一種用于描述有限狀態機的方法.

用有向圖來表示FSA,有nodes節點代表狀態,以及連接node的與有向線段.double circle是結束節點

使用有限狀態機去識別羊說話

FSA可以用于實現正則表達式,任何一個正則表達式也可以被實現為一個FSA.輸入string,返回accept or reject

FSA又可以進一步分為DFSA和Non-Deterministic FSA即(NFSA),指的是狀態機中含有一些不能確定的點,即不能根據輸入的string判斷當前在哪個狀態. DFSA可以轉化為NFSA.

羊說話的格式是:
baaa!
baaaa!
baaaaa!
baaaaaa!

Formal language

理解就是一組"規定字符串"的集合, 而組成這個字符串的字符集是我們自己定義的字母表.比如羊語言的只含有{a, b, !},另外我們需要定義一個模型, 這個模型是我們定義的一個特殊狀態機, 讓字母表中的字符任意排列組合成一個字符串并與這個模型(狀態機)進行匹配, 當狀態機返回的結果是accept時, 也就是說這個字符串是符合我們想要的. 那么就加入到Formal language集合中去.我們可以看到, Formal language中的內容是和模型密切相關的.

除此, Formal language 很有可能是無限個字符串的集合.

第三章

stemming & lemmatization

stemming:詞干解析/詞干提取 抽取詞的一般形式,大部分是采用縮減的方法,如cats > cat

lemmatization:詞性還原 抽取詞的詞干或詞根形式.如 drove > drive 比詞干提取要復雜

morpheme詞素,比單詞word的顆粒度更小,定義為承擔最小語義的語言單位,一個單詞可以理解為含有多個詞干和后綴組成.后綴又分為前綴 后綴 中綴,前后詞綴.

通過詞素構成單詞主要有四種方式:

Inflection Derivation Compounding Cliticization

Inflection : 含有inflectional的詞素,比如-s,就可以將單詞和-s結合起來將名詞的單數形式變為復數形式.變化后還是原來的class,這里的class應該就是詞性的分類,如名詞 ,動詞 形容詞.

Derivation:和Inflection的構成公式差不多,但通常變化后會改變原來的單詞詞性, 如
verb動詞computerize和后綴-ation變為computerization名詞.

Compounding: 簡單點, 將多個單詞合并為一個.如doghouse就是dog和house的合并.

Cliticization: 將一個word和一個clitic組合.clitic翻譯完附著詞素,很像單詞的詞綴,但詞綴只是針對一個單詞,而clitic可以附著到任何整句話和一個句子中.
如果我們使用一個不確定性FSA來識別字符串,可能在某一個有多種選擇(arcs)的點上面,我們可能選擇了一個錯誤的arc,這就導致本來應該是一個accept的字符串,我們給出了reject的結果.有三種解決辦法,Back-up, Look-ahead, Parallelism(不進行選擇,每一種選擇都試驗一遍)

Morphological parsing

Parsing means 輸入一個單詞,輸出這個單詞的一些語言結構.

FSA Morphological parsing

使用有限狀態機這一方法來實現形態解析.

  • 1.就是通過FSA構建用于解析的詞典(Lexicon),構建成果之后,就可以用于單詞識別.
  • 2.finite-state transducer FST 理解為是一種特殊FSA, FST 介紹
    FST 圖片
  • 3.FST每一步都有相應的輸入和輸出.
最后編輯于
?著作權歸作者所有,轉載或內容合作請聯系作者
平臺聲明:文章內容(如有圖片或視頻亦包括在內)由作者上傳并發布,文章內容僅代表作者本人觀點,簡書系信息發布平臺,僅提供信息存儲服務。

推薦閱讀更多精彩內容