現在做自媒體的通常都是一人多號、多平臺同步更新,其中一部分都是自有網站或博客的站長,小編就是其中之一。小編就利用當前最盛行的博客程序WordPress搭建起了自己的網站,因為剛開始做自媒體,內容還不夠多,所以用火車頭采集器采集了一些數據來充實自己網站。但是因為在采集過程中沒有驗證標題是否唯一,從而導致出現大量標題重復的文章。
為了解決這個問題,我需要從本地火車頭采集器數據和服務器WordPress數據中分別刪除重復的數據。火車頭采集器使用的是access數據庫,WordPress使用的是MySQL數據庫。
一、access數據庫刪除重復數據保留唯一記錄
1.打開火車頭本地數據文件SpiderResult.mdb,依次點擊菜單“創建”——“查詢設計”打開查詢設計窗口。
打開查詢設計器
2.打開查詢設計窗口會提示添加表,這里不添加所以點擊“關閉”,然后在設計窗口空白處點擊右鍵,選擇“SQL試圖(Q)”。
切換到SQL視圖
3.復制下面的代碼,點擊工具欄中的“運行”按鈕。
輸入代碼后運行
4.稍等片刻會提示“您正準備從指定表中刪除XXX行”,點擊“是”按鈕即可。
確認刪除數據行
access數據庫去重復代碼:
DELETE id
FROM content
WHERE id not in (select min(id) from content group by 標題);
二、MySQL數據庫刪除重復數據保留唯一記錄
1.登陸MySQL數據庫管理工具phpMyAdmin,在左側數據庫列表中選擇要操作的數據“wordpress”,點擊工具欄“SQL”按鈕打開sql編輯器,復制下面的代碼粘貼到編輯器,然后點擊“執行”按鈕,
輸入SQL語句后執行
2.幾秒鐘之后會提示“你的SQL語句已經成功運行”,每一行代碼執行后面會提示影響了多少行數據。
SQL語句執行成功
MySQL數據庫去重復代碼:
CREATE TABLE my_tmp AS SELECT MIN(ID) AS col1 FROM wp_posts GROUP BY post_title;
DELETE FROM wp_posts WHERE ID NOT IN (SELECT col1 FROM my_tmp);
DROP TABLE my_tmp;
注意:代碼中“wp_posts”可能因安裝程序時設置的前綴不同而不同,需要根據實際情況改為自己的表名稱。