小技巧1
數據入庫時,可能會有重復,如果從python上面無法解決這個問題,可以采取數據庫攝者主鍵的方式,例如 爬取的網址為a,b,c, 那么設置主鍵a b d,在數據庫中這樣的話就會保證數據項不會重復
具體實現過程如下
import pymysql.cursors
import pymysql.err
try: #處理當插入重復的url地址的時候 會報錯 然后繼續運行
cursor.execute(insert_sql, item_list)
connection.commit()
except pymysql.err.IntegrityError:
print('出現數據重復')
pass
cursor.close()
connection.close()
小技巧2
出現一條數據為列表的方式返回的 ,使用for循環的話不太美觀
那么
#注意xpath語句返回的是一個列表,這樣就可以把他們連接起來 ' '.join()
#其中strip()去處字符串中的換行符和空格使數據更加美觀,節省存儲內存
''.join(selector.xpath('/html/body/div[6]/div[1]/ul/li[8]/strong/a/text()')).strip()