
線性二次型高斯(Linear Quadratic Gaussian (LQG)) 在現實世界中,我們通常不能獲取到所有的狀態st。比如一個自動駕...
上一節中我們介紹了一個特殊的MDP模型:線性二次型調節控制(LQR)。事實上很多問題都可以用LQR來解決,即使動態模型是非線性的。盡管LQR是一...
有限邊界的MDP 在前面兩章關于強化學習的介紹中,我們定義了馬爾可夫決策過程(MDP)以及價值迭代/策略迭代這兩種用于求解MDP的算法。特別地,...
到目前為止,我們一直都在討論有限狀態下的MDP問題,現在我們來看下當狀態數量是無限時如何求解MDP問題。 離散化 也許求解無限狀態下的MDP問題...
這一節開始我們介紹強化學習(reinforcement learning)。在監督學習中,對于一個給定的輸入x,我們可以明確知道輸出y。而在很多...
這一節的主題是獨立成分分析(Independent Components Analysis, ICA)。和PCA的降維思路不同,ICA主要解決的...
上一節我們介紹了因子分析,該模型通過一系列變換可以將高維數據用低維數據來表示。因子分析基于的是概率模型,并且需要用到EM算法進行參數估計。 這一...
上一節我們介紹了用EM算法求解混合高斯模型,但這個算法通常是在樣本數足夠多的情況下才成立,即滿足樣本數m遠遠大于特征數n。 如果n >> m,那...
這一節開始我們討論非監督學習(Unsupervised Learning)的算法。在監督學習算法中,訓練數據既包含特征也包含標簽,通常表示為{(...