Mach-O與連接器的一個(gè)作用
Mach-o到底是什么?
Mach-O(Mach Object)是macOS、iOS、iPadOS存儲(chǔ)序和庫(kù)的文件格式。對(duì)應(yīng)系統(tǒng)通過(guò)引用二進(jìn)制接口(application binary interface,所寫(xiě)為ABI)來(lái)運(yùn)行該格式的文件。
Mach-O格式用來(lái)替代BSD系統(tǒng)的a.out格式。Mach-O文件格式保存了在編譯過(guò)程的連接過(guò)重產(chǎn)生的機(jī)器代碼和數(shù)據(jù),從而為靜態(tài)連接和動(dòng)態(tài)連接的代碼提供了單一文件格式。
Mach-O 是iOS系統(tǒng)不同運(yùn)行時(shí)期,可執(zhí)行文件類(lèi)型的統(tǒng)稱(chēng)。它是一種用于,可執(zhí)行文件、目標(biāo)代碼、動(dòng)態(tài)庫(kù)、內(nèi)核轉(zhuǎn)儲(chǔ)的文件格式。
Mach -O 的三種類(lèi)型:Executable 、Dylib 、bundle
- 思考一個(gè)問(wèn)題當(dāng)我們項(xiàng)目點(diǎn)擊運(yùn)行那一刻發(fā)生了什么系統(tǒng)到底做了什么?
首先它去加載 ipa包,然后去找到 ipa包里的一個(gè)可執(zhí)行文件黑不溜秋的。
其可執(zhí)行文件的調(diào)用過(guò)程:
- 1.調(diào)用
fork
函數(shù),創(chuàng)建一個(gè)process
- 2.調(diào)用
execve
或其衍生函數(shù),在該進(jìn)程上加載,執(zhí)行我們的Mach-O
文件
當(dāng)我們調(diào)用時(shí)execve
(程序加載器),內(nèi)核實(shí)際上在執(zhí)行: - 1.將文件加載到內(nèi)存
- 2.開(kāi)始分析
Mach-O
中的mach_header
,以確認(rèn)它是有效的Mach-O
文件
對(duì)于上面的我們先不了解過(guò)深我們先看它到底是怎樣一種格式我們理解
通過(guò)下面命令
objdump --macho --private-headers / 黑不溜秋的地址
可以看到里面他有 mach header
有多個(gè) load command
有多個(gè)section
,那他們之間的關(guān)系是怎樣的呢?我們先看下面每個(gè)字段的含義。
Mach header :指定文件的目標(biāo)體系結(jié)構(gòu),自我描述信息
- magic: ,系統(tǒng)加載器通過(guò)該字段快速,判斷當(dāng)前文件
- cputype: 標(biāo)識(shí)cpu架構(gòu),比如ARM, X86,i386等等,該字段確保系統(tǒng)可以將合適的二進(jìn)制文件在當(dāng)前架構(gòu)下運(yùn)行。
- cpusubtype: 具體的cpu類(lèi)型,區(qū)分不同版本的處理器,如arm64,armv7
- filetype: 說(shuō)明該mach-o文件類(lèi)型(可執(zhí)行文件,庫(kù)文件,核心轉(zhuǎn)儲(chǔ)文件,內(nèi)核擴(kuò)展,DYSM文件,動(dòng)態(tài)庫(kù))。
- ncmds: loadCommands數(shù)量,每個(gè)LoadCommands代表了一種Segment的加載方式 .
- sizeofcmmds:所有Load commands的總字節(jié)大小
- flags:標(biāo)識(shí)二進(jìn)制文件支持的功能,主要與系統(tǒng)的加載、連接有關(guān)
- reserved:保留的字段。
Load commands: 在虛擬內(nèi)存中指定文件的邏輯結(jié)構(gòu)和文件的布局。類(lèi)似書(shū)的目錄
- load commands 跟在
mach_header
之后。所有命令的總大小由mach_header中sizeofcmmds字段給出。 - load command必須有前兩個(gè)字段 cmd 和 cmdsize. cmd字段以該命令類(lèi)型的常量填充。每個(gè)命令類(lèi)型都有專(zhuān)門(mén)追對(duì)它的結(jié)構(gòu)。cmdsize字段是特定加載命令結(jié)構(gòu)的字節(jié)大小加跟隨它的任何一部分,這是加載命令(即節(jié)結(jié)構(gòu)、字符串等)的須是4字節(jié)的倍數(shù),對(duì)于64位架構(gòu)必須是8字節(jié)的倍數(shù)(這些永遠(yuǎn)是任何加載命令的最大對(duì)齊)。填充的字節(jié)必須為0.
- 目標(biāo)文件中的所有表也必須遵循這些規(guī)則,以便文件可以進(jìn)行內(nèi)容映射。否則,這些表的指針在某些機(jī)器上無(wú)法正常工作或根本無(wú)法真長(zhǎng)工作。所有padding歸零對(duì)象
Raw segment data: 包含在加載命令中定義的段的原始數(shù)據(jù)。主要包含代碼、數(shù)據(jù)、符號(hào)表等
因?yàn)閙ach -O里面全部都是二進(jìn)制的,我們就可以理解為 配置文件+二進(jìn)制代碼,比如說(shuō) 為什么我們程序的啟動(dòng)都是main?就是因?yàn)閙ach- O指定了它的入口函數(shù) 在dyld解析的時(shí)候會(huì)根據(jù)這個(gè)字段來(lái)找到入口函數(shù)
通過(guò)下面命令 找到 LC_MAIN
objdump --macho --private-headers / 黑不溜秋的地址 | ag 'LC_MAIN' -A 3
總結(jié)
- 比如通過(guò)黃色區(qū)域 _TEXT load Command 就可以找到其_TEXT代碼具體的執(zhí)行二進(jìn)制的位置。
- 通過(guò) _DATA Load Command 就可以 找到 _DATA 具體的執(zhí)行位置
- load Command 就向一本書(shū)的目錄. 可以通過(guò)目錄 來(lái)定位 具體的章節(jié)
此圖更能形象的描述出 Mach-O 的結(jié)構(gòu),整個(gè) Mach-O 均為二進(jìn)制文件,它就向一本書(shū),Mach header 就像 書(shū)的前言 自描述著,load commands 就像書(shū)的目錄 Data 就向是目錄 具體的內(nèi)容。
編譯鏈接過(guò)程
對(duì)于上面的描述有些生硬,我來(lái)實(shí)操一下
看如上代碼只編譯一個(gè)mian.m 然后我們通過(guò)命令去查看編譯出來(lái)的可執(zhí)行文件代碼 段
objdump --macho -d /黑不溜秋的地址。
- 可以看到NSLog變成了一條指令 callq 這個(gè)地址
那在編譯的時(shí)候?qū)嶋H干了點(diǎn)什么事情呢?
編譯
- 再編譯過(guò)程把能變成匯編的盡量變成匯編變成機(jī)器碼
- 不能變成匯編的給其進(jìn)行一個(gè)歸類(lèi)。
比如上面的NSLog 可以callq一個(gè)地址,向其他的變量就要進(jìn)行歸類(lèi) 比如說(shuō) 數(shù)據(jù),那應(yīng)該放在數(shù)據(jù)段,其他的放在其他地方,比如變成目標(biāo)文件的時(shí)候像NSlog在其他的mach-O 中,需要鏈接的時(shí)候才能確定一些東西那怎么辦?所以就是,將不能變成機(jī)器碼的符號(hào)進(jìn)行一個(gè)歸類(lèi)
下面我們看一下當(dāng)前的重定位符號(hào)表 我們先將 main.m 用clang編譯器成 中間代碼.o
$ clang -x objective-c \
> -target x86_64-apple-macos10.15 \
> -fobjc-arc \
> -isysroot /Applications/Xcode.app/Contents/Developer/Platforms/MacOSX.platform/Developer/SDKs/MacOSX10.15.sdk \
> -c main.m -o main.o
- -x objective-c :指定編譯語(yǔ)言
- -target x86_64-apple-macos10.15 :指定編譯架構(gòu)
- -fobjc-arc : 指定編譯 是arc
- -isysroot 比如<Foundation/Foundation.h> 系統(tǒng)sdk在哪
- 輸出。
編譯出中間代碼.o之后 我們?cè)趤?lái)看一下 當(dāng)前.o 的重定位符號(hào)表
objdump --macho --reloc .o地址
$ objdump --macho --reloc /Users/lh/Desktop/LHObject/symbol/symbol/main.o
/Users/lh/Desktop/LHObject/symbol/symbol/main.o:
Relocation information (__TEXT,__text) 4 entries
address pcrel length extern type scattered symbolnum/value
00000033 True long True BRANCH False _NSLog
00000029 True long True SIGNED False _static_init_value
0000001f True long True SIGNED4 False _static_uninit_value
0000000b True long False SIGNED False 5 (__DATA,__cfstring)
Relocation information (__DATA,__cfstring) 2 entries
address pcrel length extern type scattered symbolnum/value
00000010 False quad False UNSIGND False 4 (__TEXT,__cstring)
00000000 False quad True UNSIGND False ___CFConstantStringClassReference
Relocation information (__LD,__compact_unwind) 1 entries
address pcrel length extern type scattered symbolnum/value
00000000 False quad False UNSIGND False 1 (__TEXT,__text)
對(duì)應(yīng)上面的我們看一下都代表什么意思
- 從這里我們就能明白,重定位符號(hào)表里 的保存的是當(dāng)前文件你用到的符號(hào),使用了的在這里,沒(méi)有使用的不在這里。
總結(jié):
程序編譯過(guò)程 就是將.m 變成.o 的過(guò)程。里面做了通過(guò)詞法分析語(yǔ)法分析展開(kāi)宏啊清除注釋啊,能變成機(jī)器碼的盡量變成機(jī)器碼。不能變成對(duì)符號(hào)進(jìn)行歸類(lèi),對(duì)于當(dāng)前.m文件用到的符號(hào),放在重定向符號(hào)表里。
鏈接:
當(dāng)程序被編譯成一個(gè)個(gè)中間代碼.o, 接下來(lái)就需要進(jìn)行一個(gè)鏈接過(guò)程,處理編譯情況。 把多個(gè)目標(biāo)文件合并到一起,之后 也就意味著,重定位符號(hào)表,包括 其他符號(hào),就被合并到一張表中,最后生成我們的可執(zhí)行文件 exec
Symbol Table
- symbol Table:用來(lái)保存符號(hào)
- StringTable: 用來(lái)保存符號(hào)的名稱(chēng)
- indrect Symbol Table:間接符號(hào)表,保存使用外部符號(hào),更準(zhǔn)確一點(diǎn)就是使用的外部動(dòng)態(tài)庫(kù)的符號(hào),是symbolTable的子集(例如: NSLog)
看到這里在回顧一下上面mach -O
- 一樣通過(guò)load Command 來(lái)找到 符號(hào)表的一個(gè)具體的位置。
總結(jié):
- 鏈接過(guò)程就是在處理目標(biāo)文件符號(hào)的過(guò)程。