完成相關(guān)視頻章節(jié)學(xué)習(xí):
2. 數(shù)據(jù)分析概況
是什么:用適當(dāng)?shù)姆治龇椒ǎ瑢?duì)收集的數(shù)據(jù)進(jìn)行分析,總結(jié)規(guī)律,提取有價(jià)值的信息,形成有效結(jié)論的過程
企業(yè)中的作用:現(xiàn)狀分析(過去:日?qǐng)?bào),周報(bào),月報(bào)),原因分析(現(xiàn)在:現(xiàn)狀為什么會(huì)發(fā)生 專題),預(yù)測(cè)分析(未來:預(yù)測(cè)下一年的銷售量目標(biāo) ?制定季報(bào),年報(bào))
流程:明確目的和思路 -> 數(shù)據(jù)收集準(zhǔn)備 -> 數(shù)據(jù)處理 ->數(shù)據(jù)分析 -> 數(shù)據(jù)展現(xiàn) -> 報(bào)告撰寫
數(shù)據(jù)一般來源:企業(yè)內(nèi)部數(shù)據(jù)倉庫,公開的出版物,互聯(lián)網(wǎng),市場(chǎng)調(diào)查報(bào)告
基礎(chǔ)分析方法:對(duì)比分析,分組分析,結(jié)構(gòu)分析,分布分析,交叉分析,矩陣分析
高級(jí)分析方法:回歸分析,聚類分析,決策樹,神經(jīng)網(wǎng)絡(luò),因子分析,時(shí)間序列分析
3.Python概況
因自己非常熟悉,所以只看了視頻,未做筆記
Why Python: 高效,開發(fā)包齊全
數(shù)據(jù)處理:pandas
數(shù)據(jù)挖掘:sklearn
數(shù)據(jù)可視化:matplotlib
4. 安裝Anaconda
5. 使用Anaconda
6. 數(shù)據(jù)類型
變量命名規(guī)則:a-z, A-Z, digits, case sensitive,?
no _ , no digit at beginnnig
數(shù)據(jù)類型:
?1. Logical:True False 運(yùn)算規(guī)則:&, |, not
?2. Numeric?
取整 //
求余 %
乘方 **
浮點(diǎn)數(shù)越界問題 Decimal('4,2') + Decimal('2.1') 對(duì)浮點(diǎn)數(shù)進(jìn)行封裝
?3. Character
單引號(hào),雙引號(hào),或三引號(hào)把字符串包起來
轉(zhuǎn)義字符:\ or (r'xxxxxx')
表示換行: s = "abc \
efg" or 使用三引號(hào):換行符等均會(huì)保留
7. 數(shù)據(jù)結(jié)構(gòu)
數(shù)據(jù)結(jié)構(gòu)是指相互之間存在一種或多種數(shù)據(jù)關(guān)系的數(shù)據(jù)集合
Pandas:
Series: 存儲(chǔ)一行或一列的數(shù)據(jù),以及與之相關(guān)的index的集合
DataFrame: 用于存儲(chǔ)多行多列
默認(rèn)索引都是從0開始的
切片:>=第一個(gè)索引,<第二個(gè)索引
8. 向量化運(yùn)算
特殊的并行計(jì)算方式,同一時(shí)間進(jìn)行多次操作
Pandas的基本數(shù)據(jù)結(jié)構(gòu):序列和數(shù)據(jù)框
等差數(shù)列:numpy.arange(start, end, step)
numpy.power(r, 5)
lambda匿名函數(shù)
四則運(yùn)算:相同位置進(jìn)行函數(shù)計(jì)算,函數(shù)返回結(jié)果保留在相同位置
向量化運(yùn)算原則:1. 極可能避免for循環(huán);2.過早的優(yōu)化是魔鬼
9. 數(shù)據(jù)導(dǎo)入
數(shù)據(jù)存在形式:
1. 文件:pandas
CSV: 列與列之間用逗號(hào)分隔
read_csv(file, encoding),?
TXT:沒有列名,不需要分隔符,默認(rèn)第一行作為表頭
read_table(file, names=[列名1,列名2.。。], sep="", encoding="utf-8")
Excel:默認(rèn)文件第一行作為列名
read_excel(fileName, sheetName, names)
2.數(shù)據(jù)庫:MySQL, Access, SQL Server etc
10.數(shù)據(jù)導(dǎo)出
default:
to_csv(filePath, sep=",", index=TRUE, header=TRUE)