Pandas

Documentation

寫入數據庫

import pandas as pd
from sqlalchemy import create_engine
import MySQLdb

# for pandas writing dataframe to sql
engine = create_engine('mysql+mysqldb://<user>:<password>@<url>:<port>/<database>', echo=False)

# 讀取 gzip 文件
fh = pd.read_csv("filename.txt.gz", compression="gzip", sep="\t", header=None)
# 刪除列名為14的列
fh = fh.drop([14], axis=1)
# 修改列名
fh.columns = ["name1","name2","name3"]
# 根據已有列 "name2" 增加新列 "name4"
fh["name4"] = fh.name2.str.split("-", expand=True)[0]
# 刪除重復行
fh = fh.drop_duplicates()
# 刪除重復行后 index 會變位不連續, reset 為連續index
fh = fh.reset_index(drop=True)

# 寫入數據庫
# if_exists: fain / replace / append
# chunksize: 默認一次寫入多少行到數據庫,默認一次性寫入,數據很大時會很慢
fh.to_sql(name="database_name", con=engine, if_exists='append', chunksize=1000)
最后編輯于
?著作權歸作者所有,轉載或內容合作請聯系作者
平臺聲明:文章內容(如有圖片或視頻亦包括在內)由作者上傳并發布,文章內容僅代表作者本人觀點,簡書系信息發布平臺,僅提供信息存儲服務。

推薦閱讀更多精彩內容