《算法》
搖擺序列
- 當(dāng)有連續(xù)遞增或遞減的子序列時,此時一定不是搖擺序列,只能從這個連續(xù)遞增或遞減的子序列中取某一個或多個值時,才能使得序列為搖擺序列,為此選擇遞增或遞減子序列中的哪個值便成為了目標。
- 貪心策略:選擇其中的什么數(shù)才能使搖擺序列最長?選擇遞增或遞減序列的首尾元素。
移除k個數(shù)字
貪心策略:移除數(shù)組中的哪個數(shù)字才能使得剩下的字符組成的數(shù)值最小?圖1. 貪心策略
《機器學(xué)習(xí)》
TF-IDF
-
TF-詞頻
圖2. 詞頻計算示例 -
IDF-逆文檔概率
圖3. 逆文檔概率計算示例 -
TF-IDF計算
圖4. TF-IDF計算示例
樸素貝葉斯算法
- 為什么說樸素
整個形式化過程,只做最簡單,最原始的假設(shè)。 -
條件概率公式
圖5. 條件概率公式
上式的含義:在B發(fā)生的條件下A發(fā)生的概率,其中P(AB)為聯(lián)合概率,即A和B同時發(fā)生的概率
- 全概率公式
若事件B1,B2,…構(gòu)成一個完備事件組且都有正概率,則對任意一個事件A有如下公式:
圖6. 全概率公式
-
貝葉斯公式
由圖5和圖6兩個公式可得,貝葉斯公式如下:
圖7. 貝葉斯公式
《機器學(xué)習(xí)相關(guān)庫的使用》
pandas庫的使用
- pandas讀取文件,將數(shù)據(jù)加載為DataFrame格式
pd.read_table()
pd.read_csv()
...... - DataFrame格式數(shù)據(jù)的常用操作
data.head() # 查看頭上的元素
data.列名或data["列名"] # 獲取Series,代表某一列的所有數(shù)據(jù)
data.shape # 查看data的行和列數(shù)
data["列1"] + data["列2"] # 合并兩個列,并且可以給data添加新的列
data["新列名"] = 數(shù)據(jù)
data.dtypes # 查看每一列的數(shù)據(jù)類型