小伙伴們,上一篇文章給大家介紹了如何訓練甄嬛體聊天機器人。更準確地說,它不能稱之為聊天機器人,應該是一個文本生成器。在上文www.lxweimin.com/p/752b06546277的基礎上,我做了小小的改進(其實是一個朋友幫忙^_^),讓模型預測出的結果不是一個詞,而是一句話。實驗結果如下:
訓練數據為1000時的結果截圖
圖中,“風波 我 的 那一天 , 是 個 非常 晴朗 的 日子 。 乾元? 十二年 八月 二十 , 。 站”這句話為輸入語句;“在 在 的 說來? 每 以后 它 驚住 想 的 淚 , 流露出 莊和德 莊和德 看不得 , 就是 想一想 聰明人”這句話為預測出的語句。
可以看到輸出不是一個詞,是一句話。大家一定會發現這個結果不能稱之為“話”,因為它并不通順,而且有些詞重復出現。但是,在實驗室的服務器上,將訓練數據增加到10000條時,輸出結果要比1000條訓練數據好得多,語句中的詞語不再重復,而且更加通順,但那個結果我沒有截圖,我也不想為了截個圖再花大量的時間去訓練、生成了。想要告訴大家的是,這個結果通過增加訓練數據是可以改善的。聰明的你也許不僅僅選擇增加訓練數據,甚至可以調整模型中的各種參數,達到一個更好的效果,期待大家的新思路。