具有線性復雜度的Transformer相對位置編碼

Relative Positional Encoding for Transformers with Linear Complexity

A Liutkus, O Cífka, S Wu, U ?im?ekli, Y Yang, G Richard

ICML2021 long talk

[Inria & Telecom Paris & Research Center for IT Innovation]

https://readpaper.com/paper/3163721282

https://readpaper.com/paper/3168215316

https://hub.fastgit.org/aliutkus/spe

Recent advances in Transformer models allow for unprecedented sequence lengths, due to linear space and time complexity. In the meantime, relative positional encoding (RPE) was proposed as beneficial for classical Transformers and consists in exploiting lags instead of absolute positions for inference. Still, RPE is not available for the recent linear-variants of the Transformer, because it requires the explicit computation of the attention matrix, which is precisely what is avoided by such methods. In this paper, we bridge this gap and present Stochastic Positional Encoding as a way to generate PE that can be used as a replacement to the classical additive (sinusoidal) PE and provably behaves like RPE. The main theoretical contribution is to make a connection between positional encoding and cross-covariance structures of correlated Gaussian processes. We illustrate the performance of our approach on the Long-Range Arena benchmark and on music generation.

https://weibo.com/1402400261/KghhtlkRm

摘要：由于線性空間和時間復雜性，Transformer模型的最新進展允許前所未有的序列長度。同時，相對位置編碼（RPE）被認為有利于經典Transformer，并且包括利用相對位置而不是絕對位置進行推理。盡管如此，RPE對于Transformer的最新線性變體仍然不可用，因為它需要注意矩陣的顯式計算，而這正是此類方法所避免的。在本文中，我們彌合了這一差距，并提出了隨機位置編碼作為生成PE的一種方法，該方法可替代經典的加法（正弦）PE，并可證明其行為類似于RPE。主要的理論貢獻是在相關高斯過程的位置編碼和互協方差結構之間建立聯系。我們將說明我們的方法在Long-Range Arena基準測試和音樂生成方面的性能。

1.引言

1.1. 線性復雜度Transformer

Transformer模型（Vaswani et al.，2017）是一種新型的神經網絡，在許多應用領域迅速成為最先進的，包括自然語言處理（He et al.，2020）、圖像處理（Dosovitskiy et al.，2020）、音頻處理（Huang et al.，2018；Pham et al.，2020）或生物信息學（AlQuraishi，2019）等等。

Transformer的核心、新穎部件是注意層。它從 $N$ 個輸入值 $v_n$ 計算 $M$ 個輸出值 $y_m$ ，所有輸入值 $v_n$ 都是任意維的向量。遵循經典的非參數回歸原則（Nadaraya，1964；Watson，1964），它包含一個簡單的加權和：

其中每個注意系數均為 $a_{mn}∈ R_+$ ——收集在M×N矩陣 $A$ 中——表示值 $v_n$ 在計算輸出 $y_m$ 中的重要性。

Transformer的主要貢獻之一是計算這些系數的原始方法。D維特征向量 $k_n$ 和 $q_m$ 附屬于輸入和輸出序列的所有項，分別稱為鍵和查詢。將它們收集在N×D和M×D矩陣 $K$ 和 $Q$ 中，我們得到softmax點積注意如下：

其中函數exp是按元素應用的。（2）中的右側是Tsai等人（2019）和Choromanski等人（2020）提出的推廣，其中 $K$ 是一個核函數。參數涉及如何從原始序列中獲得鍵 $k_n$ 、值 $v_n$ 和查詢 $q_m$ ，通常是通過時間分布的全連接層。（編者注：應該是指用于QKV變換的線性層）

原始的Transformer架構（Vaswani et al.，2017）明確計算注意矩陣 $A$ ，導致 $O(MN)$ 復雜性，從而不能擴展到很長的序列長度。雖然這在序列長度僅為幾百左右時不一定是個問題，就像在某些語言處理任務中一樣，但對于非常大的信號（如高分辨率圖像或音頻），這是禁止的。

針對這一擴展問題，最近研究了幾種允許長序列的方法：

?????注意聚類(Attention clustering)方案對元素進行分組，通過定期注意計算項目之間的依賴關系。這可以通過在序列中使用簡單的鄰近規則來實現，從而形成分塊策略（Dai等人，2019年），或者通過對鍵和值進行聚類（Roy等人，2020年）。簇間依賴關系要么被忽略，要么通過在內存中創造的固定長度上下文向量進行總結（Wu等人，2020）。

?????假設注意力矩陣稀疏。在這種情況下，只有少數 $a_{mn}$ 為非零（Child等人，2019年）。

?????假設 $A$ 具有特定（低秩）結構，并可分解為兩個較小矩陣的乘積。一個典型的例子是 Linformer（Wang等人，2020b），它僅限于固定長度的輸入。在這方面，另一個最近的研究方向是：

其中 $\phi :R^D \rightarrow R^R$ 是應用于每個鍵 $k_n$ 和查詢 $q_m$ 的非線性特征映射，并且， $R\ll min(M,N)$ （Shen等人，2020年；Katharopoulos等人，2020年）。

?????當公式（2）中的 $K$ 是正（半）定核時(positive (semi)defifinite kernel)，Performer（Choromanski et al.，2020）利用復現核Hilbert空間表明，即使 $A$ 不是低秩，也可以使用隨機 $\phi$ 平均地方便地實現公式（3）中的：

$K\succeq 0\Leftrightarrow A=E_{\phi } [\phi (Q){\phi (K)}^T ]$ ? ?? $(4)$

其中 $\phi$ 是從一個分布中提取的，該分布取決于 $K$ 。

一個簡單的例子是 $\phi _{W} (k_{n} )=max(0,Wk_{n} )$ ，其中，對于某些 $R\in N$ ，有 $W\in R^{R\times D}$ 。

每當使用像（3）或（4）這樣的高效方案時，就可以在不計算注意系數 $a_{mn}$ 的情況下獲得輸出，如（10）。（注釋1：最近的LambdaNet works（Bello，2020）使用了一種稍微相關的策略，它將鍵值信息封裝為所謂的lambda函數，以便在查詢時應用，因此也避免了計算完全注意矩陣。）

1.2. 位置編碼

在Transformer網絡中，輸出 $y_m$ 被計算為所有輸入值 $v_n$ 的線性組合，由注意系數 $a_{mn}$ 加權。在序列建模中，合理的假設是，除了這些位置的內容外，實際位置 $m$ 和 $n$ 也應在計算中發揮作用；否則，序列的任何排列都將導致相同的輸出。采取了兩種核心方法來納入位置信息：

?????原始Transformer（Vaswani等人，2017年）將該信息添加到網絡輸入中，即在第一個注意層之前。這可以等效地理解為對鍵、值和查詢的augmenting：

$k_n\leftarrow k_n + \overline{k} _n$ ， $v_n\leftarrow v_n + \overline{v} _n$ ， $q_n\leftarrow q_n + \overline{q} _n$ ? ?? $(5)$

其中 $\overline{k} _n \in R^D$ 表示間在位置 $n\in N$ 處的位置編碼（PE；Sukhbatar等人，2015）。查詢和值項同理。Vaswani等人提出了一種基于三角函數的確定性方案，該方案與可訓練嵌入一樣有效。

?????作為注意域中位置編碼的一個示例，Shaw等人（2018年）提出了相對位置編碼（RPE），其是基于在時間維度上的相對滯后 $m-n$ 要比絕對位置編碼（APE）更重要。其如下：

$P_d$ 現在充當基于查詢選擇的時間延遲的 $D$ 個不同編碼。這一變化被認為在許多應用領域帶來了重要的性能提升，并從那時起得到了廣泛的應用。

雖然在注意域中記錄位置編碼有利于提高性能（Shaw等人，2018；Dai等人，2019；Tsai等人，2019），但我們只知道需要計算 $A$ 或群集(clustered)注意方案的實現，這些方案將 $A$ 精細分解為更小的注意矩陣，并計算它們。這與（3）和（4）形成了鮮明的對比，后者從不計算注意力矩陣。

我們的貢獻可以總結如下：

?????我們建議將隨機位置編碼（Stochastic Positional Encoding ，SPE）作為鍵域中的一般PE方案，該方案強制實施在注意域中設計的特定注意模式。這使得我們可以使用RPE，而無需顯示計算注意力。據我們所知，這是第一個與 $O(N)$ Transformer（例如Choromanski et al.（2020）和Katharopoulos et al.（2020））兼容的RPE策略。

?????我們研究SPE對Long-Range Arena基準測試（Tay等人，2021年）和兩項音樂生成任務性能的影響。由于RPE目前僅限于短序列，我們相信這是第一次研究其在長期預測方面的優勢。我們的結果顯示了更好的驗證損失和外推能力。

?????我們在我們的配套網站2上提供了額外的資源，包括PyTorch和JAX/Flax的SPE的Python實現（https://cifkao.github.io/spe/）。

2.????隨機位置編碼

索引集和符號。

我們假設輸入/輸出序列的索引分布為 $n,m\in T$ ，其中 $T$ 是索引集。對于常規采樣的序列，有 $T=N$ 。當然也有其它的情況，例如非常規采樣的時間序列（ $T=R$ ）或圖像（ $T=N^2$ ）。

在任何情況下，考慮中的輸入/輸出位置的特定列表都被寫為： $N$ （花體字）和 $M$ （花體字），其大小分別為N和M（ $N=M$ 的情況稱為自注意）。因此，相應的鍵和值被索引為 $\left\{k_{n} \right\} _{n\in N}$ 和 $\left\{v_{n} \right\} _{n\in N}$ ，查詢為 $\left\{q_{m} \right\} _{m\in M}$ 。為了方便起見，我們為M×N注意矩陣 $A$ 的條目編寫了 $a_{mn}$ 。我們使用粗體大寫字母表示矩陣，粗體小寫字母表示向量（編者注：在在譯文中不顯示），并使用類似NumPy的表示法：如果 $X_k$ 是 $I×J$ 矩陣，則 $x_{k,i}$ 和 $x_{k,:,j}$ 分別代表其第 $i$ 行和第 $j$ 列。

假設。

在本文的剩余部分中，我們將尋求一個注意矩陣A，由以下公式給出：

其中 ${\left\{ P_fjxxv9i \right\}}_{d=1}^D$ 是位置核。定義 ${\bf P_zitngpc} \equiv [P_d (m, n ) ]_{mn}$ ，這可以用矩陣形式寫成：

這可以被理解為D維注意力模板 $\bf P_ch6blze$ 被查詢 $\bf q_{:,d}$ 和鍵 $\bf k_{:,d}$ 共同激活。原始RPE（7）可以看作是一種特殊情況，其中一些條目保持不變。

作為協方差的位置注意。

SPE的關鍵思想是將注意力核 $P_d (m, n )$ 視為協方差：

其中，Qd（m）和Kd（n）是兩個實隨機變體和零均值隨機變體，將在其協方差函數與Pd匹配的單一條件下進行選擇。語義上，它們應該分別理解為（隨機）編碼查詢的位置m和鍵的位置n。當與點積注意力相乘時，它們平均產生所需的注意力模板Pd（m，n）。中心直覺是，實際的位置編碼沒有他們的點積重要。

在下面的內容中，我們將在互協方差Pd（m，n）上施加特定的結構，這將反過來允許我們設計隨機過程Qd={Qd（m）}m∈M和Kd={Kd（n）}n∈使（11）成立。這種結構的核心優點是允許Pd被分解。現在假設我們構造{qd（m），Kd（n）} d的分布，我們可以從它們中取樣（我們將在第2.1節中看到），并考慮它們對于給定m和n的R獨立實現，它們聚集在m×r和n×r矩陣qd和Kd中：

對于大R，根據大數定律，我們得到：

這導致（9）中的A由以下公式給出：

這里，一個重要的觀察結果是，對于大R，由于獨立性，交叉項QdK>d0=d可以忽略不計，前提是過程的平均值被選擇為零。最后，選擇查詢和關鍵點如下：

我們從（15-17）中看到，我們回到了通常的乘法方案（2），其中A=exp（bQbK>/√R），其中查詢/鍵現在具有維度R，并且可以在（10）中用于直接獲得輸出，而無需計算A。

該過程在算法1中進行了總結：我們提供了一種方法（16-17）來實現鍵域中的PE，從而在注意域中實施所需的模型（8），由注意核Pd參數化。有趣的是，這是在不計算注意矩陣的情況下完成的，符合O（N）變換。我們接下來討論的剩余挑戰是生成Qd和Kd（13）。

2.1.繪制隨機位置編碼

考察（11），我們注意到我們的目標是從具有規定互協方差結構的D對中心隨機過程Qd，Kd D中抽取樣本。為此目的，使用高斯過程是合理的（Williams&Rasmussen，2006），對于已知的平均值和協方差，高斯過程具有最大熵。這種分布在聯合克里金法文獻（Matheron，1963；Genton&Kleiber，2015）中的地球物理學中經常遇到，科學家通常會處理相關隨機場。我們設置的特殊曲折是：我們有一個生成問題，如Voˇrechovsk'y（2008年）；然而，與它們的設置相反，我們對每個輸出的邊際協方差函數并不直接感興趣，只要期望的互協方差結構成立。

SPE最直接的應用出現在我們選擇Pd（m，n）=Pd（m）時? n），即靜止位置核，在Shaw et al.（2018）中作為選擇相對注意而被創造，并歸結為對互協方差矩陣Pd強制執行Toeplitz結構≡ [Pd（m]? n） ]m，n介于Qd和Kd之間。

我們提出了兩種SPE變體來處理這個重要的特殊情況，如圖2所示。第一個變體產生周期協方差函數。當注意力不應隨著大的相對位置而消失時，這可能是有益的，如交通預測（Xue&Salim，2020年）或如我們所示，在音樂生成中。第二變體生成消失協方差函數；一個最近被證明是有用的概念（Wang等人，2021年），并且在我們的一些實驗中顯著地產生較小的驗證損失。

變體一。

相對和周期性注意（sineSPE）。在我們的第一種方法中，我們考慮Pd是周期性的情況，得到方便的治療。我們假設：

K在哪里∈ N是正弦分量和fd的數量∈ [01]K，θd∈ [?ππ]K和λd∈ RK分別收集其K頻率、相位和權重。通過使用矩陣表示法，我們可以將（18）改寫為：

where–v≡ vbp/2cp∈ R2K表示向量v的兩次上采樣版本∈ RK，b·c表示樓層操作，對于索引集I，?（I，a，b）是一個大小為| I |×2K的矩陣，帶有條目（基于0的索引）：

可以證明，如果θd=0和M=N，我們回到正定義Toeplitz矩陣的（唯一的）Vandermonde分解3（Yang等人，2016），這在我們的上下文中歸結為假設?τ、 Pd（0）≥ Pd（τ）。由于這并不總是可取的，我們保留了更一般的（19）。此時，我們可以輕松構建Qd和Kd。我們用單位方差的獨立同分布（i.i.d.）高斯項繪制2K×R矩陣Zd，并定義：

很容易檢查這種構造是否導致（13）。它的參數是{fd，θd，∧d}d，通常可以通過隨機梯度下降（SGD）進行訓練。

變體二。相對（消失）注意與定期抽樣（convSPE）。

由于其周期結構，變體I生成的協方差函數是非方差函數。然而，我們的框架足夠靈活，允許協方差結構消失，這可能更理想，取決于應用（Wang et al.，2021）。

與變體I相反，在變體I中，我們對Pd施加了特定的結構，我們現在將采用間接方法，其中Pd將根據我們的算法構造隱式定義。在這種情況下，我們假設信號是定期采樣的（例如文本、圖像、音頻），我們將利用高斯隨機矩陣的結構和卷積運算的基本特性。

為了便于記譜，我們假設自注意，即M=N。讓{ΦQd，ΦKd}d表示一組過濾器，這些過濾器最終將從訓練數據中學習。這些濾波器的大小和尺寸可根據輸入數據選擇（即，可以是向量、矩陣、張量）。然后，我們提出以下程序，通過卷積產生Toeplitz Pd：

?我們首先繪制具有i.i.d.標準高斯輸入的M×R隨機矩陣Zd。對于多維信號，Zd收集R個隨機向量、矩陣、立方體等。

?通過將Zd與各自的過濾器ΦQd和ΦKd卷積，獲得所需的Qd和Kd：

哪里?表示具有適當尺寸的卷積（例如1D、2D或3D）。如附錄所示，使用卷積和有限濾波器可確保協方差消失。由于Zd項的獨立性，對于較大的R，乘積ZdZ>d/R將趨向于單位矩陣。考慮到（22）中的卷積運算可以等價地表示為由各個濾波器構造的三角Toeplitz矩陣的乘法，可以證明，如R→ ∞, 1R QdK>d趨向于兩個三角Toeplitz矩陣的乘積。因此，通過使用三角Toeplitz矩陣的性質（參見Kucerovsky et al.2016，定理2.4），我們得出如下結論：→ ∞, 我們的構造產生了所需的Toeplitz矩陣Pd。該方法由濾波器{ΦQd，ΦKd}d參數化，該濾波器將通過SGD從訓練數據中學習。

注意模式的多樣性P（m）? n）可直接獲得的結果取決于核大小，這是信號處理的經典結果（Vetterli et al.，2014）。在VGGNet中級聯幾個卷積（Simonyan&Zisserman，2014）可能是一種增強卷積SPE變體表達能力的便捷方法。

從更一般的角度來看，（22）中的兩個操作可以理解為通過過濾白噪聲來產生PE，這是我們為PE引入的核心思想。可以使用其他經典信號處理技術，例如使用無限脈沖響應濾波器。這些考慮接近于（Engel等人，2020年）中提出的想法。

總之，兩種擬議結構（20-21）和（22）之間的核心區別在于RPE的行為超過了最大相對位置，通過（20-21）的頻率fd和（22）的濾波器尺寸隱含地定義。當正弦結構導致周期性RPE時，濾波結構導致RPE消失，這在中稱為單調（Wang et al.，2021）。根據應用情況，兩者都可能是所需的選項。

2.2.門控SPE

盡管我們提出的RPE和泛化（9）是處理位置信息的新穎而有效的策略，但考慮到不考慮位置因素的注意力系數也可能是有益的，只需通過hqm，kni。作為一種通用的選通機制，我們建議通過選通參數δd來權衡位置注意和非位置注意∈ [0 1]:

該選通方案可以通過以下方式簡單地通過增加上述生成的Qd和Kd來實現：

d在哪里∈ （24）和（25）中的RR相同，具有i.i.d.標準高斯項。在實踐中，我們可以在網絡上共享一些SPE參數，尤其是跨層共享，以大大減少計算時間和內存使用。在我們的實現中，共享意味著在實現PE到（16-17）之前，為每個磁頭生成一個單獨的Q和K實例，在該實例上應用分層選通。如圖2所示。

3.實驗

3.1. Long-Range Arena

實驗裝置。

我們在Long-Range Arena（LRA；Tay等人，2021年）中評估了所提出的方法，該Long-Range Arena是高效Transformer的基準，包括序列分類任務，重點是遠程依賴性。我們使用此基準測試中的以下任務：?ListOps：解析和評估分層表達式。一個較長的變體（Nangia&Bowman，2018）；

?文本：IMDB語料庫上的電影評論情緒分析（Maas等人，2011年）；

?檢索：關于NLP（AAN）語料庫的文章相似性分類（Radev等人，2013年）；

?圖像：CIFAR10數據集上的對象識別（Krizhevsky，2009），表示為像素序列。由于序列長度較大，因此任務具有挑戰性，通過選擇字符/像素級表示故意增加序列長度。有關這些任務的概述，請參見附錄。我們不包括Pathfinder（合成圖像分類任務），因為我們無法重現Tay等人在這項任務中的結果，即使是通過與作者的通信。

我們在兩種有效的Transformer模型上評估SPE（選通變體）：softmax執行器（Choromanski et al.，2020）和線性Transformer（Katharopoulos et al.，2020），使用ReLU特征映射，即在（3）中選擇φ（·）=max（0，·）元素。4應該注意的是，ReLU特征映射并不近似于softmax核，SPE的設計目標（見假設8）。盡管如此，在實踐中可以將SPE與任何特征映射一起使用，這使得我們可以將線性TransformerReu作為一個有趣的測試來概括替代核。我們采用Tay等人的配置，僅更改PE和批量大小/學習率，以允許在有限的硬件上進行具有類似結果的訓練。所有其他超參數保持與原始LRA相同。值得注意的是，圖像模型與其他模型不同，它們采用單層網絡，僅使用第一個位置進行預測，極大地限制了它們從相對位置信息中獲益的能力。

由于我們觀察到不同運行之間的一些變化，我們對每個模型進行了3次訓練和評估（卷積SPE的執行者除外，其計算成本更高），并報告結果的平均值和標準偏差。

基準測試結果如表1所示。基線線性Transformer（APE）實現的精度與Tay等人報告的精度相似或超過，這是對我們實驗裝置的明確驗證。

討論ListOps的結果總體較差，準確率約為17%。這符合Tay等人（2021年）的觀點，他認為“基于核的模型[例如，執行者、線性Transformer]在層次結構數據上可能沒有那么有效”，留下了改進的余地。我們還假設這主要是由于該任務的訓練數據存在一些已知問題，不幸的是，在撰寫本文時這些問題尚未得到解決。5

關于SPE的性能，我們首先注意到sineSPE變體在三項任務上產生了最佳結果，這是一項巨大的成就，并驗證了我們的方法，特別是考慮到該評估基準的難度。雖然它在列表操作和文本方面僅略優于APE，但值得一提的是，sineSPE與線性TransformerReLU的結合使精度提高了～與Tay等人（2021年）獲得的最佳結果相比，檢索率為3%。

關于convSPE，其在LRA中的表現不如后面第3.2節中報告的音樂生成實驗那么顯著。這一減輕的結果似乎與Wang等人（2021年）的討論相矛盾，后者將注意力的消失視為PE的一個理想屬性。相反，我們根據經驗觀察到，我們的非消失正弦版本sineSPE在這些特定任務中表現得更好。

最后，考慮到這些模型利用相對位置的能力有限，APE在圖像上的優越結果并不意外。相反，SPE在這項任務上相對良好的性能實際上是顯著的，特別是考慮到這項任務的基線系統使用可學習的APE。

正如我們將在稍后的音樂生成實驗中看到的那樣，我們提出的SPE在某些任務中顯然產生了顯著的改進。在LRA中，我們注意到它并沒有明顯和系統地提高性能。這引起了有趣的考慮：

（i）蒙特卡羅估計的方差可能有問題。我們對Performer中的隨機特征圖的優雅公式充滿熱情，這是一個強烈的靈感。盡管如此，我們必須承認他們的計算依賴于蒙特卡羅估計（15）。我們懷疑估計量的方差可能在大維度的最終性能中發揮作用，這為探索方差縮減估計方法而不是簡單的蒙特卡羅方法開辟了方向。

（ii）LRA任務可能不會受益于強（R）PE計劃。LRA旨在比較Transformer架構，填補該領域的空白，并作為事實上的標準，證明我們的選擇是合理的。然而，盡管PE在許多情況下都很重要，但不知道在LRA任務中是否如此。我們認為有空間進行這樣的專門比較，這將安排在我們未來的工作中，可能導致新的長期任務，其中PE至關重要。

3.2.流行鋼琴音樂一代

在我們的音樂生成實驗（本小節和第3.3節）中，音樂被表示為符號序列（標記），Performer（Choromanski等人，2020）被用作自回歸語言模型，該模型預測了給定過去上下文的下一個標記的概率分布。在測試時，通過對下一個標記進行迭代采樣來生成一個新的序列，這在文本生成中很常見。

實驗裝置。

我們在一個由1747首流行鋼琴曲目組成的數據集上訓練Performer進行音樂生成，每層24層8個頭，使用最新提出的改進MIDI衍生格式進行編碼（REMI；Huang&Yang，2020）。這些序列由韻律符號組成：小節、次拍和節奏，它們代表音樂的計時；和音符標記：和弦、音高、持續時間和音量，用于描述音樂內容（更多詳細信息，請參見附錄）。我們拿出5%的歌曲作為驗證集。

我們訓練序列長度N=2048的模型，對應于～一分鐘的音樂。我們的模型之間唯一的區別是PE策略。我們考慮基線猿，以及SPE：正弦或卷積，有或沒有門控，導致5種不同的模型。

結果和討論。

對于定性評估，我們首先在圖1中顯示了每個PE模型的一種注意模式：APE和（門控）sineSPE/convSPE，作為所選（層、頭部）20多個從頭開始的epoch的平均值。更多類似圖見附錄。有趣的是，我們注意到，對于早期層次，猿的注意力并沒有超出訓練序列的長度。SPE變體中未發現這種行為，它們始終注意所有位置。建議模型的另一個顯著特征（僅在附錄中顯示）是，第2.2節中所述的選通在視覺上完全禁用某些層/頭的PE，在這種情況下，注意力是全局的。

由于文獻表明RPE提高了泛化性能（Shaw等人，2018年；Zhou等人，2019年；Rosendahl等人，2019年），我們在圖3中顯示了通過教師強制（Williams&Zipser，1989年）計算的驗證交叉熵，作為目標標記位置的函數。這些值將表明，對于驗證集中的軌跡，模型在給定前面標記的特定位置預測標記的效果如何。我們注意到，所有SPE變體，尤其是convSPE，在超過2048的令牌位置上的表現都比APE好得多。這表明SPE繼承了RPE的這一著名優勢（Huang et al.，2018），同時適用于更長的序列。

最近，Wang等人（2021年）定義了PE評估指標，表明平移不變性和單調性是理想的屬性。前者規定兩個任意τ-偏移位置嵌入的距離應相同，而后者規定相鄰位置應分配比遠處更近的位置嵌入。按照他們相同的單詞探測方法，我們在圖4中報告了這些指標。正如所料，SPE變體在翻譯不變性方面大大優于APE。然而，在我們的音樂應用程序中，單調性似乎不是一個非常相關的標準，在比較圖3和圖4中的分數時可以看出這一點。音樂建模似乎可以從非消失的注意力模式中獲益。在任何情況下，SPE分數在各個位置上都非常穩定，與APE相反，APE在訓練時間之外會迅速下降。

3.3.溝槽延伸

在這個實驗中，我們評估了groove延續任務的執行者。在每個示例都有統一風格（“groove”）的數據集上進行訓練后，我們用一個短提示（2小節音樂片段）初始化模型，并讓它生成一個延續。然后，我們觀察生成的延續是否與提示的樣式匹配。

實驗裝置。

模型（24層Performer，8個注意頭）在伴奏數據集上進行訓練，該數據集包括2761種不同音樂風格的5522個樣本，采用C?fka等人（2020）采用的基于標記的格式進行編碼，詳情見附錄。在本實驗中，所有基于SPE的模型都使用選通。不同于以前的實驗，它利用長的訓練序列，我們考慮訓練序列長度n＝512，對應于2至10巴。在測試時，用訓練期間未出現的樣式的2個條提示模型，并對新標記進行采樣，以完成長度為1024（即訓練長度的兩倍）的序列。

我們使用兩種音樂風格相似性度量——C?fka等人（2019；2020）提出的時間音高和開始持續時間——來量化生成的延續與提示的相似性。當聽生成的音樂時，我們會在感知上注意到質量隨時間的變化。出于這個原因，我們將每個生成的樣本分成四個持續時間相同的連續塊，并對它們進行獨立評估。結果如圖5所示。

討論

我們清楚地看到，SPE在這兩個指標上都大大優于APE。雖然在序列開始時，APE顯然能夠生成接近所需風格的樣式，但這種相似性隨著時間的推移會大大降低。sineSPE和convSPE在這方面都更穩定，證實了第3.2節的結果，即SPE在訓練序列長度之外的推斷更好。這與我們的非正式感知評估相吻合

該實驗表明，利用局部鄰域是處理長序列的一種穩健方法。這可能與遠程Transformer的使用相矛盾，但我們強調此處使用了選通，使一些頭部能夠獨立于位置利用長期注意力。盡管由于Tay等人（2021年）的原因，此處未將其包括在內，但與局部注意力計劃（如Dai等人，2019年；Hofster等人，2020年）的進一步比較可能會很有趣，這表明它們明顯較低，至少在LRA環境中是如此。

4.相關工作

本文注意PE（Sukhbatar et al.，2015），將其作為嵌入每個令牌位置的一種方式，作為其功能的一部分。這一想法是許多后續突破性研究的核心內容（Gehring等人，2017年；Vaswani等人，2017年），也是許多調查的實際主題。

基于Vaswani等人（2017年）的正弦信號的絕對位置編碼（APE）是Transformer類結構中最廣泛使用的編碼。然而，（5）中的PE q（n）和k（n）也可以像在BERT中一樣進行訓練（Devlin等人，2019；Liu等人，2019）。雖然原始Transformer僅包括輸入層的PE，但可能包括所有層（Dehghani等人，2019年；Lan等人，2020年）。

相對位置編碼（RPE；Shaw等人，2018）是利用相對位置的一種方法。它具有O（N2D）空間復雜性，在Huang等人（2018年）中將其降低為O（N2）；他等人（2020年）。Raffel等人（2020年）建議考慮對數距離。介紹了RPE的幾種變體（Huang等人，2020年；Wang等人，2021年）。他們都在注意域中應用習得的RPE。RPE也考慮使用固定嵌入函數（Pham等人，2020年），Kim等人（2020年）使用掩蔽RPE來促進局部注意。

鍵域與注意域。

在關鍵領域進行PE引入了位置內容交叉術語，在Ke等人（2020年）中，這些術語被認為是嘈雜且不有益的，并被無限制的注意力所取代，即在注意力領域進行PE。這在He等人（2020年）中也被稱為分散注意力，在Tsai等人（2019年）中已經通過可分離的內容-位置-注意力核提出。所有這些研究都需要A的顯式計算和存儲。

對于結構化輸入，考慮了非整數位置。針對APE（Shiv&Quirk，2019；Xiao et al.，2019；Ma et al.，2019）和RPE（Omote et al.，2019），提出了基于樹的PE。Bose等人（2019）發現了任意多邊形內機器人的位置編碼。

PE的動力學模型。

Bahdanaau等人（2016年）引入了對機器翻譯的注意，Ke等人（2020年）回顧性地將機器翻譯理解為使用遞歸神經網絡（RNN）進行PE。Chen等人（2018）認為編碼器RNN的隱藏狀態包含足夠的位置信息，可以跳過顯式PE。Neishi&Yoshinaga（2019）基于這一觀點，但首次明確描述了這一想法。他們的貢獻是用RNN代替（5）中的添加劑PE。同樣，Liu等人（2020年）使用（神經）常微分方程生成PE。

卷積上下文。

我們的convSPE變體涉及卷積隨機噪聲。首先，這可能與Mohamed等人（2019年）有關，他們使用卷積神經網絡進行查詢和鍵計算。其次，Xu等人（2020年）最近強調了卷積和平穩過程之間的聯系。

乘法PE。

不同層次的內容-位置交互在（Tsai等人，2019年）中正式化。針對RPE（Huang等人，2020年）和APE（Dai等人，2019年）提出了乘法策略。后者在Tsai等人（2019年）中得到推廣。所有這些都需要注意矩陣的顯式計算。Wang等人（2020a）提出了一個方案，該方案接近我們的正弦變體，但沒有隨機部分，這是從（14）到（15）的關鍵。

一些作者強調了APE和RPE的局限性。在Wang&Chen（2020）中，表現最好的模型利用了絕對位置和相對位置。在Irie et al.（2019）和Tsai et al.（2019）中，發現在基于Transformer的架構的因果解碼器部分中完全去除APE會導致可比/更好的性能。在將PE合并到原始輸入信號中（并因此通過值項傳播）或僅在查詢和鍵上重新使用PE（如我們所做的）之間，哪一個最好也不清楚。蔡等人（2019年）支持我們的選擇。

5.結論

我們提出了一種新的基于隨機噪聲濾波的隨機位置編碼（SPE）。正如我們所展示的，該程序概括了相對PE，是實施任何規定的（但經過訓練的）互協方差結構的原則性手段，我們證明了這應該是點積注意的中心問題。在我們的實驗中，我們表明，與經典（正弦）PE相比，SPE在大型Transformer模型（Choromanski et al.，2020；Katharopoulos et al.，2020）的性能方面帶來了有趣的增益。這是意料之中的，因為RPE（Shaw等人，2018年）通常被認為是有益的。然而，到目前為止，還沒有將其用于長序列的方法，這是本文的核心貢獻。我們研究的自然未來方向是（i）信號相關PE，將輸入序列作為SPE的額外輸入，（ii）利用相對和絕對位置的非平穩PE，（iii）將我們的方法擴展到任意注意核，例如，通過（4）中的（隨機）映射隱式定義。事實上，這里介紹的SPE理論上只適用于點積注意核，但我們在表1中給出的結果表明，這是一個概括，提出了一個有趣的研究問題。

介紹

本文件包含由于篇幅限制而無法納入本文件的其他信息。它的結構如下。在附錄A中，我們提供了一些進一步的理論發展。在附錄B中，我們詳細介紹了Long-Range Arena上的實驗裝置。在附錄C中，我們詳細介紹了我們的音樂生成實驗。最后，我們在附錄D中提供了其他結果。

我們的源代碼位于：

https://github.com/aliutkus/spe/

另見配套網站：

https://cifkao.github.io/spe/

A.理論

A.1。卷積SPE導致注意力消失

在主要文獻中，我們聲稱卷積變體導致注意力消失。我們很快就在這里證明了這一說法。為了便于記譜，證明是在1D的情況下給出的，但很容易擴展到更高的維度。核心思想如圖6所示。卷積SPE產量：

其中Zd是高斯白噪聲過程，即e[Zd（m，r）Zd（m0，r）]=δmm0。為了便于記法（所有實現都是獨立的），省略對r的依賴，我們可以計算位置注意：

其中，只有（p，τ）值使得n?p=m?τ保持不變，所有其他交叉項E[Zd（m）Zd（m0=m）]由于Zd的白度而消失。過濾器被視為[0:P]之外的0值。可以看出，只要| m? n |>P，我們得到Pd（m，n）=0，因為φKd（P+（m? n））=0。

A.2。復雜性

在本節中，我們將詳細介紹所提出的SPE方法帶來的額外復雜性。

?正弦SPE首先需要計算調制矩陣? 對于每個特征尺寸d=1。D、具有O（2NK）復雜度。然后，該矩陣必須與形狀為2K×R的噪聲矩陣Zd相乘，從而導致總體復雜度為O（DRNK2）。由于K在我們的實驗中通常非常小，所以SineSPE在時間和空間復雜性方面都可以被視為非常輕。

?卷積SPE涉及為每個d和r繪制長度為N的新噪聲信號zd，：，r，并使用長度為P的濾波器φQd和φKd對其進行卷積。在1D的情況下，這導致總體時間復雜度為O（DRNP），可以用O（DRN log N）代替

當在頻域中操作卷積時，這對于長濾波器是有利的。在更高的維度中，例如2D，這在原始域中變成O（DRN1N2P1P2），在頻域中變成O（DRN1N2 log N1 log N2），其中（N1，N2）和（P1，P2）分別是噪聲和濾波器的形狀。

?選通的瓶頸是隨機噪聲d的產生，其復雜性為O（DR）。

請注意，這種復雜性當然必須乘以所考慮的頭部數量，在我們的實驗中最多為8個。

可以看出，正弦和卷積變體的復雜性相似，這取決于濾波器的長度P和正弦的數量K。不過，其他方面也在起作用。首先，卷積型需要生成大小為N的噪聲，而正弦型需要更小的2K大噪聲矩陣。第二，在我們的實驗中，只需要極少量的正弦波，而卷積版本需要更長的上下文，因此我們在實踐中通常有2kp。最后，盡管這在不久的將來可能會改變，但像PyTorch這樣的深度學習框架不容易在頻域中集成卷積。

樣本噪聲共享。

實際上，不需要為每個示例重新繪制SPE。減少該方法內存和計算占用的最直接的技巧是在每個小批量中的所有示例之間共享Q和K，就像我們在所有實驗中所做的那樣。除了使用大批量訓練的網絡外，當SPE用作drop時，這可以顯著節省內存。

B.實驗裝置：Long-Range Arena

表2給出了Long-Range Arena（Tay等人，2021年）任務的概述。在本文中，我們不包括Pathfinder（合成圖像分類任務）或其更難的變體Pathfinder-X，因為我們無法重現Tay等人在該任務中的結果。Tay等人對所有數據集進行了詳細描述，并可從官方LRA存儲庫獲得。7

在所有LRA實驗中，我們都采用了帶R的選通SPE∈ {32, 64}. 對于正弦（周期性）SPE，我們始終使用K=10；對于卷積SPE，我們始終使用長度為128的濾波器。對于卷積SPE，我們在所有層上共享Q和K（但在注意頭上不共享）；對于正弦SPE，Q和K對于每個層和頭部都是唯一的；在這兩種情況下，都采用了層特定的選通。基線實驗采用了與Tay等人相同的絕對位置編碼（圖像的可學習APE和剩余任務的正弦APE）。在采用SPE的模型中，APE被刪除。

主要文件中給出的模型參數數量如表3所示。我們可以看到，基于SPE的模型的參數最多比基線多3.1%。在圖像列中，基于SPE的模型的數量大約減少了50%，這是因為該任務的基線采用了可學習的APE。

我們使用來自官方LRA存儲庫的代碼，包括作者的Transformer實現，根據需要進行修改以合并SPE。我們保持LRA作者提供的相同訓練配置，但減少批量大小（圖像從256到96，其余從32到8）和學習速率，以適應16GB的GPU內存。我們修改過的代碼和配置文件可以在源代碼存儲庫中找到。

B.1。資源利用

LRA模型的典型訓練時間如表4所示。請注意，由于在某些運行中比在其他運行中更頻繁地進行評估（這可能會很耗時），因此不同模型或任務之間的時間可能不具有可比性。

總訓練時間為1405小時（總共189次），其中273小時（61次）用于嘗試使用Performer softmax、Linear Transformer ReLU和vanilla Transformer再現Tay等人（2021年）的結果。其中一些初步實驗分布在1–3個特斯拉V100 GPU上，每個GPU內存為32 GB。最終的模型都是在一個具有16GB內存的特斯拉V100或P100GPU上訓練的。

[if !supportLists]C.?[endif]實驗設置：音樂生成

我們的音樂Performer使用pytorch fast transformers包實現，8根據需要進行修改，以納入SPE。我們的代碼庫中提供了修改后的代碼和配置文件。

所有模型都有24層，模型尺寸為512，8個注意頭和2048個前饋單元，相當于～8000萬個可訓練參數。在使用SPE的模型中，Q和K在所有層之間共享（但不在注意頭之間）；層特定選通用于使用選通SPE訓練的模型。

模型使用Adam優化器進行訓練。我們通過線性預熱，然后是余弦衰減來安排學習速率。可以在提供的配置文件中找到hyperparameters的完整詳細信息。

C.1。流行鋼琴音樂一代

訓練數據。

我們使用的流行鋼琴MIDI數據源于Xiao et al.（2021）中提供的數據集，該數據集在GitHub上開源。9該數據集包含1747首不同日本、韓國和西方流行歌曲的純鋼琴表演，總持續時間為～100小時。所有歌曲都是4/4時間簽名，即每小節四拍（測量）。我們留下5%（87首歌曲）作為驗證集。

根據蕭等人（2021年）的說法，鋼琴表演最初是以MP3（音頻）格式從互聯網上收集的。Xiao等人進一步采用了Onsets and Frames鋼琴轉錄（Hawthorne等人，2018）、madmom節拍跟蹤工具（B¨ock等人，2016）和基于chorder規則的和弦檢測10，將音頻轉錄成MIDI格式，并包含節奏、節拍和和弦信息。

數據表示。

這里采用的表示法與Huang&Yang（2020）改進的MIDI派生（REMI）編碼基本相同，只是使用了一組擴展的和弦標記（如下所述）。REMI將一首鋼琴曲編碼為一個由兩種類型（韻律和音符）的標記組成的序列。韻律符號為：

?酒吧：標志著音樂酒吧的開始。

?子節拍：標記酒吧內的音樂計時。一個小節被分成16個子節拍，相當于4個節拍。這種符號計時為序列模型建模音樂提供了一個明確的時間網格。

?節奏：確定演奏樂曲的速度（以每分鐘的節拍或bpm為單位），每小節不同。節奏標記的范圍為[32224]bpm，量化的步長為3 bpm。

注釋標記為：

?音高：標記播放的音符。88個音高對應鋼琴上的每個鍵。

?持續時間：表示播放的音符的長度，范圍為1/2到16次拍，以1/2次拍為單位。

?音量（或速度）：表示音符的音量。總共考慮了24個音量級別。

?和弦：在伴奏和弦上標記更改。每個和弦都由其根音符和音質來描述，例如C-Maj7、e-min。數據集中總共有133個不同的和弦標記。

請注意，演奏的單個音符由一個連續的三重音符（音高、持續時間、音量）表示。上述標記構成了一個大小不同的詞匯表～340用于我們的REMI編碼。平均來說，我們需要一個包含5300個標記的序列來表示一首歌。

訓練和推理。

在每個訓練階段，我們從每個樣本中隨機裁剪出長度為2048的片段，并將整個片段的音高偏移?隨機6到6個半音（音樂中稱為轉置）作為數據增強。我們使用批量大小=4，并將APE的學習率設置為0.0001，所有SPE模型的學習率設置為0.0002。對于sineSPE，我們選擇sines的數量K=5；對于convSPE，對于選通和非選通變體，卷積濾波器大小分別設置為128和512。

每個模型的詳細資源使用情況如表5所示。

在推斷過程中，我們采用核取樣（Holtzman et al.，2019），p=0.9，softmax溫度t=1.2。沒有對生成序列的語法正確性進行后處理。

表6列出了在此任務中訓練的模型的驗證損失。在這個指標上，我們的convSPE變體在經過訓練的位置內和外推上都表現最佳。

C.2。溝槽延伸

訓練數據。

Groove2Groove MIDI數據集11由盒帶軟件（BIAB）生成的伴奏組成。12我們僅使用Groove2Groove MIDI數據集的訓練部分，并執行自定義訓練/驗證/測試分割，以便每個部分包含一組獨特的BIAB樣式（訓練為2761，驗證和測試為50）. 存儲庫中包含下載、預處理和拆分數據集所需的代碼。

我們將每個伴奏轉換為三重奏，包括貝司、鼓和另一個隨機選擇的伴奏曲目（如鋼琴、吉他）。然后，我們通過在開始時跳過測量值、丟棄一些儀器和轉置（音高偏移）來執行隨機數據增強?5到+5個半音）。所有隨機化都在每個時期重新進行。

數據表示。

我們使用了類似于C?fka等人（2020）提出的表示法，但適用于多軌道（多儀器）設置。具體地說，我們將一段音樂編碼為以下類型的事件標記序列，每個事件標記具有兩個整數參數：

?音符（音軌、音高）：以給定音高（0–127）開始一個新音符。

?音符結束（音軌、音高）：在給定音高（0–127）結束音符。

?時間偏移（節拍，偏移）：將當前時間提前給定的節拍數，然后設置節拍內的偏移量，以從開始（0–11）開始的節拍數表示。最大可能換檔為（2，0）。

曲目編號范圍為1到3，其中1始終為低音，2始終為鼓。然后，該模型的詞匯表由794個標記組成（3×128個注釋、3×128個注釋、24個時間偏移和2個序列開始/結束標記）。

與第C.1節中描述的表示法的主要區別在于更緊湊的計時編碼，沒有音樂動態的表示法（為簡單起見），以及對多首曲目的支持（最初不是由C?fka等人提出的，2020年，但此處由Donahue等人提出，2019年）。訓練和推理。

在訓練期間，如上所述對每個示例進行預處理和編碼，并將得到的令牌序列截斷為512的長度。我們對每個模型進行總共24個階段的訓練。

在測試時，我們以0.6的最高軟溫度取樣。為了確保生成的序列能夠正確解碼，我們不允許使用會導致無效序列（即虛假注釋、向后時間偏移）的采樣令牌。

各種訓練細節。

超參數調諧主要在初步實驗中進行(～100次）；這些主要是在數據集的其他變體上進行的，并且具有不同的序列長度（從256到20K）；這包括由于在訓練期間或訓練后發現錯誤而丟棄的實驗。學習率介于0.0001和0.0008之間，批量大小介于1和24之間。對于SPE，我們考慮了門控和非門控變體，它們在內存中的實現數量盡可能多（介于16和64之間）。模型選擇基于驗證損失和非正式感知評估。對于長度為512的最后一組模型，只進行了最小程度的進一步學習率調整，這似乎對它不太敏感，我們選擇將初始學習率保持在0.0004，這在所有情況下都表現良好。

主文檔中包括的模型——APE、sineSPE和convSPE——都使用10個批量，分別在大約3小時、5小時和6小時內完成訓練，使用9.7 GB、14.4 GB和14.8 GB的GPU內存。包括所有初步實驗在內的總訓練時間為852小時。

評價指標。

我們使用C?fka等人（2019；2020）提出的客觀指標來衡量生成的延續和從中提取提示的文件之間的風格相似性。給定兩段音樂，每個指標以稱為風格配置文件的直方圖收集這兩段音樂的音樂事件統計信息，然后計算它們之間的余弦相似性。

此處使用的兩個指標，即開始持續時間和時間間隔，在構建樣式配置文件時使用的事件類型上有所不同：

?開始持續時間剖面定義為2D柱狀圖，將音符開始位置與音符持續時間關聯起來。更準確地說，對于一段音樂中的所有音符，它記錄了形式的元組

（開始（a）模塊4，結束（a）? 開始（a））∈ [0, 4) × [0, 2),

其中start（a）和end（a）是指a的開始時間和偏移時間（以拍為單位）。表達式start（a）mod 4表示音符開始相對于當前條的位置，因為數據集中的所有示例都在一個4拍表中。這些元組收集在24×12柱狀圖中（24表示開始時間，12表示持續時間）。

?時間-音高曲線也以2D柱狀圖的形式獲得，這一次捕獲音符之間的時間差和音高差（間隔）。它認為元組具有以下形式

其中a，b是一對音符，而音高（·）表示一個音符的音高作為其MIDI音符編號（來自C的半音數量）?1）。直方圖有24×41個單元（24個用于0到4拍之間的時間間隔，41個單元用于0到4拍之間的間隔）?20和20個半音）。

在這兩種情況下，二維直方圖在計算余弦相似性之前被展平為向量。

D.其他結果

D.1。注意力可視化：音樂生成

在本節中，我們將展示流行鋼琴音樂生成模型產生的注意力模式。

學習位置模板。

我們在執行者的所有層上共享SPE模塊，但不在注意頭上共享，從而產生512個已學習的位置核Pd（每個頭的頭數×關鍵尺寸）。在圖7中，我們為sineSPE和convSPE顯示了16個隨機挑選的結果模板Pd，并使用選通進行了訓練。這兩個變體的詳細信息如下：

?sineSPE：我們設置sines的數量K=5。

?convSPE：我們使用大小為128的過濾器。

根據定義，所有可視化都用方程Pd=QdK>d繪制，我們永遠不需要對線性Transformer進行顯式計算。從圖7中，我們可以觀察到sineSPE學習利用廣泛的頻率范圍，并且convSPE在與濾波器相對應的小查詢鍵偏移內有效大小如預期。

全神貫注。

雖然在線性Transformer中沒有計算完全注意矩陣A，但我們仍然可以通過將查詢和鍵乘以A=exp（QK>/√D）（對于APE，其中D是每個頭部的關鍵尺寸），或A=exp（bQbK>/√R）（對于SPE）；然后對as規范化應用行softmax操作。

在這里，我們展示了第1、3、12、20和24（最后一個）中的（softmax ed）注意矩陣圖8-12顯示了所有五個模型在流行鋼琴音樂生成方面的層次。這些層次是從每個模型的一個隨機從無到有的音樂生成中計算出來的。為了檢驗模型的外推能力，我們讓它們生成一個長度為3072的序列，而訓練序列長度僅為2048。注意矩陣為l由于因果掩蔽，每個像素的顏色通過圖中的min{1，amn 0.4/0.020.4}進行調整，以獲得更好的可視化效果，其中amn∈ [0,1]是軟最大ed注意分數。

圖8揭示了APE的一個主要缺點：標記的注意力超出位置2048（訓練序列長度）似乎將注意力集中在早期的2 048左右，而不是注意全局或局部。這種行為在我們的任何SPE模型中都沒有發現。這可能解釋了APE對長序列的泛化能力差的原因，這是由于位置2 048后驗證損失的顯著增加（參見主要論文中的圖3和此處的表6）。

接下來，比較圖9和圖10，很明顯，門控SPE使模型可以自由關閉某些頭部的PE以獲得全局注意力（見圖9），而非門控sineSPE（圖10）的注意力基本上保持周期性，這可能并不總是可取的。convSPE也可以這樣說（圖11和圖12）門控的CurpSe能比中間層更遠地看中間層。

D.2.注意力可視化：CIFAR10

圖13顯示了從LRA CIFAR10任務中訓練的模型中提取的注意圖。注意，這些是單層網絡，分類是通過在像素值序列中預先添加一個特殊的CLS標記，并使用第一個位置的輸出作為前饋分類器的輸入來完成的。因此，只有在這個位置的注意圖單個位置（我們在這里顯示的位置）很重要。（因此，該模型實際上不使用自注意，而是使用單個查詢和多個鍵的注意。這消除了相對位置和絕對位置之間的區別，這可能解釋了為什么可訓練APE在這項任務上比SPE表現更好。）

D.3.所需PE性能的評估

我們使用相同的單詞探測和Wang等人（2021年）介紹的相關度量來比較APE和SPE的翻譯不變性和單調性。這項工作中提到的其他屬性，即對稱性和方向平衡，在這里不進行評估，因為在我們的例子中注意力是單向的。模特們還接受了流行鋼琴音樂的訓練。

根據第一層中每個頭部的注意矩陣計算指標，在所有可能的相同標記序列（即，由重復的相同標記組成的序列；有～其中340個用于我們的REMI詞匯表）。為了消除應用帶因果掩蔽的行softmax對平移不變性屬性的影響，我們計算了非規范化注意矩陣的度量，即A=exp（QK>/√D）對于APE，A=exp（bQbK>/√R）對于SPE。我們考慮了查詢位置和查詢鍵偏移量的各種組合，以檢查當我們外推到更長的序列時，PE屬性是否保持一致，以及研究它們在局部和長期注意廣度中的行為。

我們在表7中報告了每個模型中表現最好（即得分最低）的負責人的得分。從表中，我們可以注意到，在外推的情況下，APE的PE特性通常會急劇惡化。相反，未分級SPE模型的分數，即我們在每一層強制合并位置信息的模型，在整個位置上保持顯著一致。這里的評估為SPE的外推能力提供了額外的證據。

D.4。實現數量R的影響

在主要文檔中，我們討論了當R增長到無窮大時，SPE如何漸近地導致期望的互協方差結構。在本節中，我們實證研究了該參數在實踐中對績效的影響。首先要強調的是，每個訓練批次都會產生一組新的噪聲Zd實現，這樣網絡就可以平均看到正確的注意模式。

然而，我們可能想知道實現的數量R是如何影響訓練和測試性能的。人們確實可以注意到，在訓練和推理過程中，R的設置可能完全不同，因為它對模型的實際參數/結構的形狀沒有影響。因此，我們進行了一項消融研究，在該研究中，我們在訓練時使用不同的Rtrain值，得到一個經過訓練的模型，然后使用可能不同的Rtest值評估其性能。結果如圖14所示。

我們可以注意到，對于相同的Rtrain，使用Rtest=Rtrain（以粗體突出顯示）獲得的結果始終接近最佳結果，相反，選擇Rtest=Rtrain通常會導致較差的結果。換句話說，使用相同的R進行訓練和測試似乎有利于始終保持良好的績效。

另一個值得注意的事實是，更高的R似乎并不意味著更好的性能，即使Rtest=Rtrain。相反，convSPE在R=4時達到了目前為止的最高精度。這個意想不到的結果似乎與它意味著更嘈雜的注意力模式這一事實相矛盾。需要進一步的研究來解釋這一現象，但我們推測，注意模式中的額外噪聲會增加訓練模型的魯棒性，從而有助于推廣。

最后編輯于：2021.11.26 17:16:49

?著作權歸作者所有,轉載或內容合作請聯系作者
平臺聲明：文章內容（如有圖片或視頻亦包括在內）由作者上傳并發布，文章內容僅代表作者本人觀點，簡書系信息發布平臺，僅提供信息存儲服務。

人面猴
序言：七十年代末，一起剝皮案震驚了整個濱河市，隨后出現的幾起案子，更是在濱河造成了極大的恐慌，老刑警劉巖，帶你破解...
沈念sama閱讀 228,443評論 6贊 532
死咒
序言：濱河連續發生了三起死亡事件，死亡現場離奇詭異，居然都是意外死亡，警方通過查閱死者的電腦和手機，發現死者居然都...
沈念sama閱讀 98,530評論 3贊 416
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進店門，熙熙樓的掌柜王于貴愁眉苦臉地迎上來，“玉大人，你說我怎么就攤上這事。” “怎么了？”我有些...
開封第一講書人閱讀 176,407評論 0贊 375
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵，是天一觀的道長。經常有香客問我，道長，這世上最難降的妖魔是什么？我笑而不...
開封第一講書人閱讀 62,981評論 1贊 312
?港島之戀（遺憾婚禮）
正文為了忘掉前任，我火速辦了婚禮，結果婚禮上，老公的妹妹穿的比我還像新娘。我一直安慰自己，他們只是感情好，可當我...
茶點故事閱讀 71,759評論 6贊 410
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布。她就那樣靜靜地躺著，像睡著了一般。火紅的嫁衣襯著肌膚如雪。梳的紋絲不亂的頭發上，一...
開封第一講書人閱讀 55,204評論 1贊 324
城市分裂傳說
那天，我揣著相機與錄音，去河邊找鬼。笑死，一個胖子當著我的面吹牛，可吹牛的內容都是我干的。我是一名探鬼主播，決...
沈念sama閱讀 43,263評論 3贊 441
雙鴛鴦連環套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼，長吁一口氣：“原來是場噩夢啊……” “哼！你這毒婦竟也來了？” 一聲冷哼從身側響起，我...
開封第一講書人閱讀 42,415評論 0贊 288
萬榮殺人案實錄
序言：老撾萬榮一對情侶失蹤，失蹤者是張志新（化名）和其女友劉穎，沒想到半個月后，有當地人在樹林里發現了一具尸體，經...
沈念sama閱讀 48,955評論 1贊 336
?護林員之死
正文獨居荒郊野嶺守林人離奇死亡，尸身上長有42處帶血的膿包…… 初始之章·張勛以下內容為張勛視角年9月15日...
茶點故事閱讀 40,782評論 3贊 354
?白月光啟示錄
正文我和宋清朗相戀三年，在試婚紗的時候發現自己被綠了。大學時的朋友給我發了我未婚夫和他白月光在一起吃飯的照片。...
茶點故事閱讀 42,983評論 1贊 369
活死人
序言：一個原本活蹦亂跳的男人離奇死亡，死狀恐怖，靈堂內的尸體忽然破棺而出，到底是詐尸還是另有隱情，我是刑警寧澤，帶...
沈念sama閱讀 38,528評論 5贊 359
?日本核電站爆炸內幕
正文年R本政府宣布，位于F島的核電站，受9級特大地震影響，放射性物質發生泄漏。R本人自食惡果不足惜，卻給世界環境...
茶點故事閱讀 44,222評論 3贊 347
男人毒藥：我在死后第九天來索命
文/蒙蒙一、第九天我趴在偏房一處隱蔽的房頂上張望。院中可真熱鬧，春花似錦、人聲如沸。這莊子的主人今日做“春日...
開封第一講書人閱讀 34,650評論 0贊 26
一樁弒父案，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽。三九已至，卻和暖如春，著一層夾襖步出監牢的瞬間，已是汗流浹背。一陣腳步聲響...
開封第一講書人閱讀 35,892評論 1贊 286
情欲美人皮
我被黑心中介騙來泰國打工，沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留，地道東北人。一個月前我還...
沈念sama閱讀 51,675評論 3贊 392
代替公主和親
正文我出身青樓，卻偏偏與公主長得像，于是被迫代替她去往敵國和親。傳聞我的和親對象是個殘疾皇子，可洞房花燭夜當晚...
茶點故事閱讀 47,967評論 2贊 374

三个男躁一个女,国精产品一区一手机的秘密,麦子交换系列最经典十句话,欧美国产综合欧美视频

具有線性復雜度的Transformer相對位置編碼

具有線性復雜度的Transformer相對位置編碼

推薦閱讀更多精彩內容

三个男躁一个女,国精产品一区一手机的秘密,麦子交换系列最经典十句话,欧美 国产 综合 欧美 视频

具有線性復雜度的Transformer相對位置編碼

推薦閱讀更多精彩內容

三个男躁一个女,国精产品一区一手机的秘密,麦子交换系列最经典十句话,欧美国产综合欧美视频