自己動手編寫一個Linux調試器系列之3 寄存器和內存 by lantie@15PB
在上一篇文章中,我們向調試器添加了簡單的地址斷點。這一次,我們將添加讀取寄存器和內存的功能,有了這個功能我們就可以觀察寄存器狀態和利用程序計數器(CIP)改變程序的執行流程了。
系列索引
- 準備工作
- 斷點的設置
- 寄存器和內存
- ELF文件和調試信息
- 源碼和信號
- 源碼級單步
- 源碼級斷點
- 堆棧解除
- 處理變量
- 高級主題
設計和保存寄存器的結構
在我們編寫讀取寄存器代碼之前,首先需要確定調試器支持什么平臺,我們選擇x86_64(即64位)。除了通用寄存器和專用寄存器之外,x86_64還提供了浮點寄存器和向量寄存器。為了簡單起見,我將省略后兩者,但如果你愿意,可以選擇支持它們。x86_64還允許你訪問的一些64位寄存器作為32位、16位、8位寄存器訪問,但在這里我只支持64位。由于這樣的簡化,對于每個寄存器,我們只需要保存其名稱,其DWARF寄存器編號和從ptrace
返回的結構里的位置即可。我定義了一個枚舉來引用寄存器,然后我編寫了一個全局局存起描述符數組,其中元素的順序與ptrace
返回的寄存器結構中的順序相同。
enum class reg {
rax, rbx, rcx, rdx,
rdi, rsi, rbp, rsp,
r8, r9, r10, r11,
r12, r13, r14, r15,
rip, rflags, cs,
orig_rax, fs_base,
gs_base,
fs, gs, ss, ds, es
};
constexpr std::size_t n_registers = 27;
struct reg_descriptor {
reg r;
int dwarf_r;
std::string name;
};
const std::array<reg_descriptor, n_registers> g_register_descriptors {{
{ reg::r15, 15, "r15" },
{ reg::r14, 14, "r14" },
{ reg::r13, 13, "r13" },
{ reg::r12, 12, "r12" },
{ reg::rbp, 6, "rbp" },
{ reg::rbx, 3, "rbx" },
{ reg::r11, 11, "r11" },
{ reg::r10, 10, "r10" },
{ reg::r9, 9, "r9" },
{ reg::r8, 8, "r8" },
{ reg::rax, 0, "rax" },
{ reg::rcx, 2, "rcx" },
{ reg::rdx, 1, "rdx" },
{ reg::rsi, 4, "rsi" },
{ reg::rdi, 5, "rdi" },
{ reg::orig_rax, -1, "orig_rax" },
{ reg::rip, -1, "rip" },
{ reg::cs, 51, "cs" },
{ reg::rflags, 49, "eflags" },
{ reg::rsp, 7, "rsp" },
{ reg::ss, 52, "ss" },
{ reg::fs_base, 58, "fs_base" },
{ reg::gs_base, 59, "gs_base" },
{ reg::ds, 53, "ds" },
{ reg::es, 50, "es" },
{ reg::fs, 54, "fs" },
{ reg::gs, 55, "gs" },
}};
如果你想自己查看寄存器的數據結構可以在/usr/include/sys/user.h中找到,DWARF寄存器編號取自System V x86_64 ABI。
現在我們可以編寫一連串的函數來與寄存器進行交互。我們希望能讀取寄存器、修改寄存器,從DWARF寄存器編號中檢索一個值,并按名稱查找寄存器,反之亦然。我們從get_register_value
開始:
uint64_t get_register_value(pid_t pid, reg r) {
user_regs_struct regs;
ptrace(PTRACE_GETREGS, pid, nullptr, ®s);
//...
}
又一次,ptrace
讓我們輕松訪問到了想要的數據。我們只是構造一個user_regs_struct
的實例,并將PTRACE_GETREGS
參數傳入了ptrace
就可以完成。
現在我們要根據請求的寄存器來讀取regs
。我們可以寫一個大的switch語句,但是由于我們按照與user_regs_struct
相同的順序排列了我們的g_register_descriptors
表,所以我們可以檢索寄存器描述符的索引,并將user_regs_struct
作為 uint64_t
類型的數組訪問。[注解1]
auto it = std::find_if(begin(g_register_descriptors), end(g_register_descriptors),
[r](auto&& rd) { return rd.r == r; });
return *(reinterpret_cast<uint64_t*>(®s) + (it - begin(g_register_descriptors)));
由于user_regs_struct
是一個標準的布局類型(線性結構),所以轉為 uint64_t
是安全的,但我認為指針計算在技術上是比較難看的。由于目前編譯器還沒有警告,再加上我也比較懶,所以就先這樣做,但是如果您想保持最大的正確性,那么就編寫一個大的switch語句吧。
set_register_value
是一樣的,我們只需要獲取位置,并在其位置上寫入寄存器的值:
void set_register_value(pid_t pid, reg r, uint64_t value) {
user_regs_struct regs;
ptrace(PTRACE_GETREGS, pid, nullptr, ®s);
auto it = std::find_if(begin(g_register_descriptors), end(g_register_descriptors),
[r](auto&& rd) { return rd.r == r; });
*(reinterpret_cast<uint64_t*>(®s) + (it - begin(g_register_descriptors))) = value;
ptrace(PTRACE_SETREGS, pid, nullptr, ®s);
}
接下來是通過DWARF寄存器號查找。 這一次我會檢查一個錯誤條件,以防萬一我們得到一些奇怪的DWARF信息:
uint64_t get_register_value_from_dwarf_register (pid_t pid, unsigned regnum) {
auto it = std::find_if(begin(g_register_descriptors), end(g_register_descriptors),
[regnum](auto&& rd) { return rd.dwarf_r == regnum; });
if (it == end(g_register_descriptors)) {
throw std::out_of_range{"Unknown dwarf register"};
}
return get_register_value(pid, it->r);
}
到這幾乎完成,現在還有對注冊的寄存器名稱的查找:
std::string get_register_name(reg r) {
auto it = std::find_if(begin(g_register_descriptors), end(g_register_descriptors),
[r](auto&& rd) { return rd.r == r; });
return it->name;
}
reg get_register_from_name(const std::string& name) {
auto it = std::find_if(begin(g_register_descriptors), end(g_register_descriptors),
[name](auto&& rd) { return rd.name == name; });
return it->r;
}
最后,我們將添加一個簡單的函數來轉儲所有寄存器的內容:
void debugger::dump_registers() {
for (const auto& rd : g_register_descriptors) {
std::cout << rd.name << " 0x"
<< std::setfill('0') << std::setw(16) << std::hex << get_register_value(m_pid, rd.r) << std::endl;
}
}
如你所見,iostreams有一個非常簡潔的接口,可以很好地輸出十六進制數據。
如果你喜歡的話,可以自由地對I/O輸出做格式控制。[注解2]
這給了我們足夠的支持來在調試器的其余部分輕松地處理寄存器,因此我們現在可以將它添加到我們的UI中。
添加讀取寄存器命令
我們需要在這里做的就是向handle_command
函數添加一個新命令。使用以下代碼,用戶將能夠鍵入register read rax
,register write rax 0x42
,等等。
else if (is_prefix(command, "register")) {
if (is_prefix(args[1], "dump")) {
dump_registers();
}
else if (is_prefix(args[1], "read")) {
std::cout << get_register_value(m_pid, get_register_from_name(args[2])) << std::endl;
}
else if (is_prefix(args[1], "write")) {
std::string val {args[3], 2}; //assume 0xVAL
set_register_value(m_pid, get_register_from_name(args[2]), std::stol(val, 0, 16));
}
}
更好的封裝代碼
在設置斷點時,我們已經從內存中讀取和寫入內存,因此只需添加一些函數來隱藏ptrace
調用即可。
uint64_t debugger::read_memory(uint64_t address) {
return ptrace(PTRACE_PEEKDATA, m_pid, address, nullptr);
}
void debugger::write_memory(uint64_t address, uint64_t value) {
ptrace(PTRACE_POKEDATA, m_pid, address, value);
}
你可能想要一次添加對讀取和寫入的支持,通過每次你想讀另一個單詞時遞增地址即可。您還可以使用process_vm_readv
和process_vm_writev
或/ proc/<pid>/mem
而不是ptrace
。
現在我們將為UI添加命令:
else if(is_prefix(command, "memory")) {
std::string addr {args[2], 2}; //assume 0xADDRESS
if (is_prefix(args[1], "read")) {
std::cout << std::hex << read_memory(std::stol(addr, 0, 16)) << std::endl;
}
if (is_prefix(args[1], "write")) {
std::string val {args[3], 2}; //assume 0xVAL
write_memory(std::stol(addr, 0, 16), std::stol(val, 0, 16));
}
}
修補continue_execution函數
在測試我們的更改之前,我們現在可以執行一個更合理的版本的continue_execution
。 由于我們可以得到程序計數器(CIP),所以可以檢查我們的斷點映射,看看我們是否處于斷點。 如果是這樣,我們可以在繼續之前禁用斷點并重新切斷它。
首先,為了清晰簡潔,我們將添加幾個幫助函數:
uint64_t debugger::get_pc() {
return get_register_value(m_pid, reg::rip);
}
void debugger::set_pc(uint64_t pc) {
set_register_value(m_pid, reg::rip, pc);
}
然后我們可以寫一個函數來跳過一個斷點:
void debugger::step_over_breakpoint() {
// - 1 because execution will go past the breakpoint
auto possible_breakpoint_location = get_pc() - 1;
if (m_breakpoints.count(possible_breakpoint_location)) {
auto& bp = m_breakpoints[possible_breakpoint_location];
if (bp.is_enabled()) {
auto previous_instruction_address = possible_breakpoint_location;
set_pc(previous_instruction_address);
bp.disable();
ptrace(PTRACE_SINGLESTEP, m_pid, nullptr, nullptr);
wait_for_signal();
bp.enable();
}
}
}
首先,我們檢查是否為當前PC的值設置了一個斷點。 如果有的話,我們先把執行返回到斷點之前,禁用它,重新執行原來的指令,然后再重新啟用斷點。
wait_for_signal
將封裝我們通常的waitpid
模式:
void debugger::wait_for_signal() {
int wait_status;
auto options = 0;
waitpid(m_pid, &wait_status, options);
}
最后我們重寫如下的continue_execution
:
void debugger::continue_execution() {
step_over_breakpoint();
ptrace(PTRACE_CONT, m_pid, nullptr, nullptr);
wait_for_signal();
}
測試一下
現在我們可以讀取和修改寄存器,可以使用我們的hello world程序進行調試測試。 作為第一個測試,請嘗試再次在調用指令上設置斷點,并從中繼續。 你應該看到Hello world
被打印出來。 有趣的部分在輸出調用之后設置一個斷點,繼續運行程序,然后將調用參數設置代碼的地址寫入程序計數器(rip
)并繼續。 由于這個程序計數器的修改,你應該再次看到Hello world
被打印了。 為了防止你不確定斷點的位置,以下是我最后一篇文章的objdump
輸出:
0000000000400936 <main>:
400936: 55 push rbp
400937: 48 89 e5 mov rbp,rsp
40093a: be 35 0a 40 00 mov esi,0x400a35
40093f: bf 60 10 60 00 mov edi,0x601060
400944: e8 d7 fe ff ff call 400820 <_ZStlsISt11char_traitsIcEERSt13basic_ostreamIcT_ES5_PKc@plt>
400949: b8 00 00 00 00 mov eax,0x0
40094e: 5d pop rbp
40094f: c3 ret
你將要將程序計數器移回0x40093a
,以便正確設置esi和edi寄存器。
在下一篇文章中,我們將首先介紹DWARF信息,并在調試器中添加各種單步。 之后,我們編寫的工具將擁有調試器的主要功能,我們可以通過單步代碼,設置斷點,修改數據等等使用工具。 和往常一樣,如果您有任何疑問,請在下方發表評論!
你可以在這里找到這篇文章的代碼。
注解1:你也可以重新排序寄存器表,并將其轉換為基礎類型以用作索引,但是我以現在的方式編寫了,懶得了改變它了。
注解2:哈哈哈哈哈哈哈哈
說明
原文來自:https://blog.tartanllama.xyz/writing-a-linux-debugger-registers/
翻譯來自:lantie@15PB 專注于信息安全教育 http://www.15pb.com.cn