Python學(xué)習(xí)筆記-3群18組-杜杜狼-2017.7.17

完成相關(guān)視頻章節(jié)學(xué)習(xí):

2. 數(shù)據(jù)分析概況

是什么:用適當(dāng)?shù)姆治龇椒ǎ瑢?duì)收集的數(shù)據(jù)進(jìn)行分析,總結(jié)規(guī)律,提取有價(jià)值的信息,形成有效結(jié)論的過程

企業(yè)中的作用:現(xiàn)狀分析(過去:日?qǐng)?bào),周報(bào),月報(bào)),原因分析(現(xiàn)在:現(xiàn)狀為什么會(huì)發(fā)生 專題),預(yù)測(cè)分析(未來:預(yù)測(cè)下一年的銷售量目標(biāo) ?制定季報(bào),年報(bào))

流程:明確目的和思路 -> 數(shù)據(jù)收集準(zhǔn)備 -> 數(shù)據(jù)處理 ->數(shù)據(jù)分析 -> 數(shù)據(jù)展現(xiàn) -> 報(bào)告撰寫

數(shù)據(jù)一般來源:企業(yè)內(nèi)部數(shù)據(jù)倉庫,公開的出版物,互聯(lián)網(wǎng),市場(chǎng)調(diào)查報(bào)告

基礎(chǔ)分析方法:對(duì)比分析,分組分析,結(jié)構(gòu)分析,分布分析,交叉分析,矩陣分析

高級(jí)分析方法:回歸分析,聚類分析,決策樹,神經(jīng)網(wǎng)絡(luò),因子分析,時(shí)間序列分析


3.Python概況

因自己非常熟悉,所以只看了視頻,未做筆記

Why Python: 高效,開發(fā)包齊全

數(shù)據(jù)處理:pandas

數(shù)據(jù)挖掘:sklearn

數(shù)據(jù)可視化:matplotlib


4. 安裝Anaconda


5. 使用Anaconda

6. 數(shù)據(jù)類型

變量命名規(guī)則:a-z, A-Z, digits, case sensitive,?

no _ , no digit at beginnnig

數(shù)據(jù)類型:

?1. Logical:True False 運(yùn)算規(guī)則:&, |, not

?2. Numeric?

取整 //

求余 %

乘方 **

浮點(diǎn)數(shù)越界問題 Decimal('4,2') + Decimal('2.1') 對(duì)浮點(diǎn)數(shù)進(jìn)行封裝

?3. Character

單引號(hào),雙引號(hào),或三引號(hào)把字符串包起來

轉(zhuǎn)義字符:\ or (r'xxxxxx')

表示換行: s = "abc \

efg" or 使用三引號(hào):換行符等均會(huì)保留


7. 數(shù)據(jù)結(jié)構(gòu)

數(shù)據(jù)結(jié)構(gòu)是指相互之間存在一種或多種數(shù)據(jù)關(guān)系的數(shù)據(jù)集合

Pandas:

Series: 存儲(chǔ)一行或一列的數(shù)據(jù),以及與之相關(guān)的index的集合

DataFrame: 用于存儲(chǔ)多行多列

默認(rèn)索引都是從0開始的

切片:>=第一個(gè)索引,<第二個(gè)索引


8. 向量化運(yùn)算

特殊的并行計(jì)算方式,同一時(shí)間進(jìn)行多次操作

Pandas的基本數(shù)據(jù)結(jié)構(gòu):序列和數(shù)據(jù)框

等差數(shù)列:numpy.arange(start, end, step)

numpy.power(r, 5)

lambda匿名函數(shù)

四則運(yùn)算:相同位置進(jìn)行函數(shù)計(jì)算,函數(shù)返回結(jié)果保留在相同位置

向量化運(yùn)算原則:1. 極可能避免for循環(huán);2.過早的優(yōu)化是魔鬼


9. 數(shù)據(jù)導(dǎo)入

數(shù)據(jù)存在形式:

1. 文件:pandas

CSV: 列與列之間用逗號(hào)分隔

read_csv(file, encoding),?

TXT:沒有列名,不需要分隔符,默認(rèn)第一行作為表頭

read_table(file, names=[列名1,列名2.。。], sep="", encoding="utf-8")

Excel:默認(rèn)文件第一行作為列名

read_excel(fileName, sheetName, names)

2.數(shù)據(jù)庫:MySQL, Access, SQL Server etc


10.數(shù)據(jù)導(dǎo)出

default:

to_csv(filePath, sep=",", index=TRUE, header=TRUE)

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

推薦閱讀更多精彩內(nèi)容