大家好,我是小劉歌。介紹一個使用Pandas合并多個表格的程序。廢話不多說,直接上代碼。
import pandas as pd
# 讀取每一個表
df1 = pd.read_csv("Agronomic.txt", sep="\t", header=0, index_col=0)
df2 = pd.read_csv("Callus.txt", sep="\t", header=0, index_col=0)
df3 = pd.read_csv("Germination.txt", sep="\t", header=0, index_col=0)
df4 = pd.read_csv("Kernel.txt", sep="\t", header=0, index_col=0)
df5 = pd.read_csv("SaltStress.txt", sep="\t", header=0, index_col=0)
df5.head()
# 按照索引列并集合并所有表格
df = pd.concat([df1, df2, df3, df4, df5], axis=1, join='outer')
df.head()
# 輸出文件
df.to_csv("PhenoAll.txt", sep="\t",na_rep="NA") # 缺失值使用NA表示
# 提取子集,文件包含一列想要提取的行名
list80 = pd.read_csv("DNA80List.txt", header=None).squeeze()
out = df[df.index.isin(list80.values.tolist())]
# 輸出文件
out.to_csv("Pheno80.txt", sep="\t", na_rep="NA")
使用 mamba install -n base -c conda-forge pandas
進行 pandas
的安裝。
mamba 的使用建議 google。
微信搜索「小劉哥」,歡迎關注。