
一. cart決策樹簡(jiǎn)述 我們知道決策樹算法有ID3、C4.5和cart三種,ID3和C4.5是基于信息增益和信息增益比率做特征選擇的,存在大量...
1. 目標(biāo) 由于Flask是一個(gè)輕量級(jí)的Web框架,自帶app.run()方法能夠提供http接口服務(wù),測(cè)試環(huán)境下測(cè)試非常方便,但是如果在生產(chǎn)環(huán)...
1. 問(wèn)題 在工作中,多次遇到了jar包沖突的情況,就以這個(gè)為例,整理下解決思路。 現(xiàn)有某Spark程序,從Elasticsearch中讀取數(shù)據(jù)...
1. 背景 1.1 問(wèn)題概述 有10萬(wàn)+條短文本,均是用戶反饋的問(wèn)題(每條文本長(zhǎng)度大概在200字左右),需要對(duì)這些文本進(jìn)行主題聚類,看下用戶反饋...
1. 需求 例如用戶給定一個(gè)包含與或關(guān)系的關(guān)鍵詞匹配規(guī)則: (G20&中國(guó)&(互聯(lián)網(wǎng)|人工智能|AI)&(騰訊|阿里|阿里巴巴|百度|京東)) ...
1. 首先SimHash的算法生成圖如下圖所示: 生成步驟如下: 對(duì)于每篇文章,選擇分詞作為該篇文章的特征,獲取去掉噪音的詞做為文檔特征,為每個(gè)...
1. TFIDF介紹 1.1 基本概念 TF(Term Frequency):代表詞頻,表示詞在某篇文章中出現(xiàn)的頻次,一般情況下詞頻越大,代表該...
1、分類 Collection接口 List,按照插入順序保存元素 Set,插入元素不能重復(fù)且無(wú)序 Queue,先進(jìn)先出 Map接口 鍵值對(duì)的一...