torch.linspace(1, 16, 16).view(4, 4)mask = torch.gt(a, 8)a = torch.tensor([[0, 1, 2, 0]...

torch.linspace(1, 16, 16).view(4, 4)mask = torch.gt(a, 8)a = torch.tensor([[0, 1, 2, 0]...
基本原理 __init__.py文件的主要作用有: 標識包:告訴Python解釋器這個目錄應該被視為一個Python包。 初始化代碼:可以在這個文件中執行包級別的初始化代碼。...
一、如何顯示# * >等符號?1、加" \ "轉義:比如要寫__name__就需要寫成"\_\_name__"2、可以使用反引號" ` "包裹需要轉義的內容.反引號位于鍵盤左...
每個py腳本都有自己的名字,姑且起一個叫“code_ex1.py”, python會給每個腳本自動賦予一個全局變量,包括__name__,如果在自己的腳本里寫一行代碼,即pr...
一、參數共享含義 參數共享(Parameter Sharing)是模型壓縮與加速中的一種重要技術。通過參數共享,多個神經元或層可以共享相同的權重參數,而不是每個神經元或層都有...
參數量化(Parameter Quantization)是一種有效的模型壓縮技術,通過減少模型參數的位寬(例如從32位浮點數減少到8位整數)來減少模型的存儲空間和計算復雜度。...
一、低秩分解的含義 低秩分解本質是一種矩陣分解技術,旨在將一個矩陣分解為兩個或多個矩陣的乘積,從而將高維數據壓縮為低維表示,以減少參數量。在大模型中,權重矩陣通常非常大,尤其...
一、知識蒸餾的含義 知識蒸餾(Knowledge Distillation)是一種用于模型壓縮和遷移學習的技術,通過將一個復雜模型(稱為教師模型)的知識傳遞給一個較小的模型(...
一、網絡剪枝的步驟 神經網絡中的一些權重和神經元是可以被剪枝的,這是因為這些權重可能為零或者神經元的輸出大多數時候為零,表明這些權重或神經元是冗余的。網絡剪枝的過程主要分以下...
一、概述 需要做模型壓縮的原因在于我們有將模型部署在資源受限的設備上的需求,在這些設備上有受限的存儲空間和受限的計算能力。本文主要介紹7種常用方法。 二、總結 方法名稱簡要描...
一、目標概述 就是如何通過深度學習,訓練得到actor(執行者,機器人)或policy(策略)。我們把actor/policy記作,actor根據環境給出下一步的行動或行動概...
一、含義 強化學習就是通過讓機器和環境不斷交互,并獲得反饋來調整模型的方法。 二、示例 例1:Alpha GO 圍棋機器人機器(actor)和人依次落子,每次機器落子,都會給...
LLMs模型應用于特定NLP任務的流程可以分為2個階段: 一是無監督預訓練階段,在這一階段,通過生成式預訓練來得到語言模型,獲得包括詞匯、語法和語義在內的通用能力。 二是有監...
一、童年 閱讀這本書,宛如輕啟一扇回憶之窗,溫暖明媚的陽光傾瀉而下,我的思緒在鵝卵石路上歡快跳躍,一路引領我回到那遙遠而可愛的童年時光。斯庫特和杰姆這對兄妹,以及迪爾這個小活...
一、RLHF的概念 LLM生成的內容需對齊(Aligned)人類的價值觀念,如道德要求等等,已致有學者提出了“憲法 AI”(Constitutional AI)的概念。強化學...
SELF-INSTRUCT的介紹 作用:SELF-INSTRUCT,該方法可以僅使用最少的人工標注,生成大量的用于指令調優的數據。指令格式:一條指令數據集由instructi...
一、曲線函數及其導數 從參數方程形式引入“曲線的導數”更加容易。空間中的一個曲線可以表示成參數方程:若把上面的方程組寫成向量形式,就叫做一元向量值函數。是假設質點沿著曲線運動...
三重積分 定義 被稱做“體積元素”。 物理意義 若表示某物體在點的密度,是該物體所占據的空間區域,那么三重積分表示其質量。 計算 將三重積分化成三次積分來算,或者轉換成一個二...
二重積分 定義:,叫面積元素物理意義:二重定積分就是求曲面與X軸Y軸平面所圍成的體積(曲頂柱體的體積)。 另外一層物理意義是,求超薄平面片的質量。面密度是 ,面積是x和y在平...
一、多元函數的極限、連續性和可導性 當以任何方式趨近于,趨近于A,這就是它的極限,如果以不同方式逼近時得到不同的極限值,那它就不存在極限。 對于一元函數來說,可導必然連續。但...