個性化資源推送的方法(日常總結0920)

[1]楊曉江,李麗娟,田俊華,李藝.面向基礎教育的Web資源垂直服務體系研究[J].數字鄉愿,2006,(7):53-57.

一、搜索引擎更加專業化

互聯網的發展讓資源得到更廣泛的共享,與此同時資源不管在種類和數量上都呈爆炸式增長。人們迫切需要從眾多資源中找到自己需要的資源,但目前搜索引擎的檢索結果往往并不全部符合需求,這就需要用戶依據自身經驗進行二次檢索。搜索引擎就是利用關鍵字將計算機中存儲的數據與用戶需求進行匹配,搜索結果覆蓋范圍大,這也有可能使得資源針對性變弱。

通過使搜索引擎只服務于特定領域用戶,提高檢索效果。楊曉江提出Web資源垂直服務體系[1]就是為用戶提供特定領域的web資源服務。

基礎教育搜索引擎的工作流程如下: 首先, 網絡蜘蛛根據某種策略在互聯網上自動尋找基礎教育相關的資源, 下載并保存新發現的資源及其URL;然后, 經過資源預處理程序除去其中不相關的信息 ( 噪音) ,再交由文檔自動分類器對文檔進行過濾、 分類處理; 接著交由文檔標引程序建立倒排索引, 形成基礎教育搜索引擎索引數據庫, 這樣,當用戶向基礎教育搜索引擎提交查詢請求時,用戶檢索子系統就可以從基礎教育資源索引數據庫中檢索出相匹配的資源及其URL,用戶根據此URL就能訪問Web上的原始資源。 其中,,文檔自動分類器需要事先對人工提供的已分類樣本文檔進行機器學習,從中提取出基礎教育資源的各類別特征,形成基礎教育資源特征庫。 在此基礎上, 文檔自動分類器即可對網絡蜘蛛下載下來的資源進行判斷和自動分類。[1]

其中涉及到的關鍵技術有:

網絡蜘蛛:不斷從互聯網上爬取新資源,同時定期更新資源。

文檔預處理:從互聯網上獲取的資源格式各種各樣,每一個格式的資源都要有一個解析器程序,這樣才能忽略各種奇怪的符號,提取有用的信息。

中文分詞:將句子分解成一個個詞語,判斷詞性和命名實體(比如將“iphone 6”作為一個詞,而不是 “iphone” 一個, “6” 一個)。

文檔特征提取:目的是從文檔中提取出最能夠表達文檔內容和特性的關鍵信息, 從而在準確描述文檔的同時, 盡可能減少計算機的計算工作量。[1]

文檔自動分類:根據文檔特征,對數字化文檔資源進行分類。

文檔實時自動摘要:文檔自動摘要能對一篇網絡文檔自動提取其內容摘要, 摘要文本的長度可以根據需要調節。 摘要結果可以用于在羅列檢索結果時, 讓用戶迅速地瀏覽到該資源的內容提要。[1]

分布式信息檢索:“ 分布式” 包括索引數據的多節點分布和查詢任務執行的多節點分布兩個方面。 分布式檢索系統由一個中心服務器負責接受用戶的檢索請求、 分發檢索請求到具體的查詢任務執行子節點、 接收合并的查詢結果并返回給用戶。[1]

最后編輯于
?著作權歸作者所有,轉載或內容合作請聯系作者
平臺聲明:文章內容(如有圖片或視頻亦包括在內)由作者上傳并發布,文章內容僅代表作者本人觀點,簡書系信息發布平臺,僅提供信息存儲服務。

推薦閱讀更多精彩內容