??Java虛擬機,即Java Virtual Machine, 簡稱JVM。JVM提供商包括Sum、BEA、IBM等。1999年,Sun公司發布了由C/C++實現的HotSpot Java 虛擬機。2006年,在JavaOne大會上開源了其先關核心技術,啟動OpenJDK項目,逐步形成了活躍的OpenJDK社區。2010年,Sun公司被Oracle公司收購。Oracle的HotSpot JVM實現,是目前OpenJDK使用的主流JVM ,它采用解釋和編譯混合執行的模式,其JIT技術采用分層編譯,極大的提高了Java的執行速度。BEA的JRockit在2008年被并入HotSpot;IBM的J9也在2017年開源,形成了現在的OpenJ9社區。
?? 隨著互聯網的蓬勃發展及AI時代的到來,Java在這些計算領域占據著越來越重要的地位。目前主流的高科技公司都有獨立的JVM團隊基于OpenJDK開發自己定制版本。如阿里(AlibabaJDK 簡稱AJDK)、谷歌、亞馬遜(Corretto)等等。
字節碼
?? 0和1是計算機僅能識別的信號,經過0和1不同的組合產生了數字之上的操作。另外,通過不同的組合亦產生了各種字符。同樣可以不同的組合產生不同的機器指令。在不同的時代,不同的廠商,機器指令組成的結合是不同的。但畢竟CPU是底層基礎硬件,指令集通常以擴展兼容的方式向前不斷演進。而機器碼是離CPU指令最近的編碼,是CPU可以直接解讀的指令,因此機器碼肯定是與底層硬件系統耦合的。
??如果某個程序因為不同的硬件平臺需要編寫多套代碼,這是十分讓人崩潰的。Java的使命就是一次編譯,到處執行。在不同的操作系統,不同的硬件平臺上,均可以不用修改代碼即可順暢的執行,如何實現跨平臺? 計算機工程領域的任何問題都可以增加一個中間層來解決。因此中間碼應用而生,即字節碼(Bytecode).Java所有的指令有200個左右,一個字節(8位)可以存儲256種不同的指令信息,一個這樣的字節碼就稱為字節碼(Bytecode)。在代碼的執行過程中,JVM將字節碼解釋執行,屏蔽對底層操作系統的依賴;JVM也可以將字節碼編譯執行,如果是熱點代碼,會通過JIT動態的編譯為機器碼,提高執行效率。如下圖所示,十六進制表示的的二進制流通常是一個操作指令。起始的4個字節非常特殊,及綠色框的cafe babe(十六進制)是Gosling定義的一個魔法數,意思的Cafe Baby, 其十進制為3405691582。 它的作用:標志該文件是一個Java類文件,如果沒有識別到該標志,說明該文件不是Java類文件或者文件已經損壞,無法進行加載。而紅色框代碼著版本號,0x37 十進制為55,是JDK11的內部版本號。
??純數字的字節碼閱讀起來向天書一樣難,當初匯編語言為了改進機器語言,使用助記符來代碼數字指令。JVM在字節碼上也設計了一套操作碼助記符,使用特殊單詞來標記這些數字。如ICONST_0代表00000001,即十六進制數為0x03;ALOAD_0代表00101010,即 0x2a; POP 代 表 01010111,即0x57。ICONST和ALOAD 的首字母表示具體的數據類型,如A代表引用類型變量,I代表int類型相關操作,其他類型均是其類型的首字母,例如 FLOAD_0、LLOAD_0 FCONST_0等。字節碼主要指令如下。
1. 加載或存儲指令
在某個棧幀中,通過指令操作數據在虛擬機棧的局部變量表與操作棧之間來回傳輸,常見指令如下:
- 將局部變量加載到操作棧中。如 LOAD(將 int 型的局部變量壓入棧和ALOAD ( 將對象引用的局部變量壓入棧)等。
- 從操作棧頂存儲到局部變量表。如 ISTORE、ASTORE等。
- 將常加載到操作棧頂,這是極為高頻使用的指令。如ICONST、BIPUSH、SIPUSH、LDC 等。
- ICONST加載的是-1~5的數(ICONST與 BIPUSH 的加載界限)。
- BIPUSH,即 Byte Immediate PUSH,加載 -128 ~ 127 之間的數。
- SIPUSH,即 Short Immediate PUSH,加載 -32768 ~ 32767 之間的數。
- LDC,即 Load Constant,在-2147483648 ~ 2147483647 或者是字符串時JVM 采用LDC 指令壓入棧中。
//BIPUSH-2,在-1至5之外的數字使用BIPUSH指令加載
int a = -2;
//ICONST_M1 // -1,直接使用 ICONST 加的最小值
int b = -1;
//ICONST_0
int c = 0;
//SIPUSH 20000
int e = 20000;
//LDC 40000
int f = 40000;
2. 運算指令
對兩個操作棧幀上的值進行運算,并把結果寫入操作棧頂,如IADD、IMUL等
3. 類型轉換指令
顯式轉換兩種不同的數值類型。如I2L、D2F 等。
4. 對象創建與訪問指令
根據類進行對象的創建、初始化、方法調用相關指令,常見指令如下
- 創建對象指令。如NEW、NEWARRAY等。
- 訪問屬性指令。如GETFIELD、PUTFIELD、GETSTATIC 等
- 檢查實例類型指令。如INSTANCEOF、CHECKCAST 等。
5. 操作棧管理指令
JVM 提供了直接控制操作棧的指令,常見指令如下
- 出棧操作。如POP 即一個元素,POP2 即兩個元素
- 復制棧頂元素并壓入棧。如 DUP。
6. 方法調用與返回指令
常見指令如下:
- INVOKEVIRTUAL 指令:調用對象的實例方法。
- INVOKESPECIAL 指令:調用實例初始化方法、私有方法、父類方法等
- INVOKESTATIC 指令:調用類靜態方法。
- RETURN 指令: 返回VOID 類型
7. 方法調用與返回指令
JVM使用方法結構中的ACC_SYNCHRONIZED標志同步方法,指令集中有MONITORENTER和MONITOREXIT支持 synchronized 語義。
除字節碼指令外,還包含一些額外信息。例如,LINENUMBER存儲了字節碼與源碼行號的對應關系,方便調試的時候正確地定位到代碼的所在行;LOCALVARIABLE存儲當前方法中使用到的局部變量表。
我們編寫好的.java 文件是源代碼文件,并不能交給機器直接執行,需要將其編譯成為字節碼甚至是機器碼文件。那么靜態編譯器如何把源碼轉化成字節碼呢?如下圖
詞法解析是通過空格分隔出單詞、操作符、控制符等信息,將其形成token信息流,傳遞給語法解析器:在語法解析時,把詞法解析得到的token信息流按照Java語法規則組裝成一棵語法樹,如上圖虛線框所示,在語義分析階段,需要檢查關鍵字的使用是否合理、類型是否匹配、作用域是否正確等;當語義分析完成之后,即可生成字節碼字節碼必須通過類加載過程加載到JVM環境后,才可以執行。執行有三種模第一,解釋執行;第二,JIT 編譯執行,第三,JIT 編譯與解釋混合執行(主流J默認執行模式)。混合執行模式的優勢在于解釋器在啟動時先解釋執行,省去編譯時間隨著時間推進,JVM 通過熱點代碼統計分析,識別高頻的方法調用、循環體、公共模塊等,基于強大的JIT 動態編譯技術,將熱點代碼轉換成機器碼,直接交給 CPU執行。JIT的作用是將Java 字節碼動態地編譯成可以直接發送給處理器指令執行的機器碼。簡要流程如下圖所示。