Linux什么是进程地址空间?进程地址空间有什么用?
Linux: 进程地址空间究竟是什么?
- 一、内存究竟是什么?分为哪些?
- 二、内存是真实物理空间?
- 三、进程地址空间(虚拟地址)
- 3.1 为何同一个变量地址相同,保存的数据却不同?
- 四、为什么需要地址地址空间和页表的存在?
- 4.1 真实内存无序便有序
- 4.2 进行内存安全检查
- 4.3 进程管理和内存管理藕接
- 五、其他细节问题
- 5.1 操作系统如何获取进程页表相关信息
- 5.2 操作系统如何确定内存中是否分配空间、是否存在内容?
一、内存究竟是什么?分为哪些?
在C/C++中,我们常将内存分为:代码区、常量区、全局区(静态区)、堆、栈等等。相关内存区域划分如下:(X86, 32位平台)
如何验证C/C++中各区域的相对位置呢?
我们可以在每个区域中选择一个地址来验证C/C++中各区域的相对位置!!具体如下:
【源代码】:
#include <stdio.h>
#include <stdlib.h>
#include <unistd.h>
int un_global_val;
int Init_global_val = 100;
int main(int argc, char *argv[], char * env[])
{
printf("code addr: %p\n", main); //代码区
const char *str = "hello Linux";//字符常量区
printf("read only char add: %p\n", str);
printf("Init global value add: %p\n", &Init_global_val);//全局初始区
printf("uninit global value add: %p\n", &un_global_val);//全局未初始区
char* heap1 = (char*)malloc(100);
char* heap2 = (char*)malloc(100);
char* heap3 = (char*)malloc(100);
char* heap4 = (char*)malloc(100);
//堆及地址增长方向
printf("heap1 add: %p\n", heap1);
printf("heap2 add: %p\n", heap2);
printf("heap3 add: %p\n", heap3);
printf("heap4 add: %p\n", heap4);
//堆及地址增长方向
printf("stack1 add: %p\n", &heap1);
printf("stack2 add: %p\n", &heap2);
printf("stack3 add: %p\n", &heap3);
printf("stack4 add: %p\n", &heap4);
int i = 0;//命令行参数
for(; argv[i]; i++)
{
printf("argv[%d]: %p\n",i, argv[i]);
}
i = 0;//环境变量
for(; i < 2; i++)
{
printf("env[%d]: %p\n",i, env[i]);
}
return 0;
}
【运行结果】:
二、内存是真实物理空间?
在C/C++中,我们经常提及上述内存。但程序员口中的内存是真实物理空间吗?
下面我们在来看看这样一段代码:用fork创建一个子进程,并打印父进程和子进程对于的pid、ppid、全局变量值、全局变量地址。当子进程执行2次后,子进程修改全局变量。
【源代码】:
#include <stdio.h>
#include <stdlib.h>
#include <unistd.h>
int global_val = 100;
int main()
{
pid_t id = fork();
if(id == 0)
{
//child
int cnt = 3;
while(1)
{
printf("child Pid:%d Ppid:%d g_val:%d &g_val:%p\n", getpid(), getppid(), global_val, &global_val);
if(--cnt == 0)
{
global_val = 200;
printf("child change g_val 100 -> 200\n");
}
sleep(1);
}
}
else if(id > 0)
{
//pather
while(1)
{
printf("father Pid:%d Ppid:%d g_val:%d &g_val:%p\n", getpid(), getppid(), global_val, &global_val);
sleep(1);
}
}
return 0;
}
【运行结果】:
- 我们发现fork()创建的子进程对全局变量进行修改后,毋庸置疑父进程和子进程的值不同。但奇怪的是,父/子进程中,全局变量的地址竟然是一样的,未发生改变!!
- 一块地址空间的值是唯一的。但上述现象中出现同一块变量却存在不同的值,说明父子进程中显示的地址不是真实的物理地址。在LInux中,我们将这种地址称之为虚拟地址。
- 在C/C++中,我们看到的地址都是虚拟地址(进程地址空间)。真实地址都是由操作系统进行控制分配的,用户一概不知道!!
三、进程地址空间(虚拟地址)
3.1 为何同一个变量地址相同,保存的数据却不同?
原因在于在Linux中,操作系统会为每一个进程维护一个PCB、进程地址空间(也被称为虚拟地址空间)和页表。其中页表通过映射,将虚拟地址和真实物理地址进行藕接。操作系统可以通过页表,找到虚拟地址所对应的真实物理地址,进而找到相应的数据!!
当fork()创建子进程时,操作系统以父进程为模板将大部分属性拷贝给子进程,而页表就是其中之一。在数据未发生任何改变之前,父进程和子进程中页表的映射关系是相同的,指向同一块物理地址。但当父进程或子进程试图对数据进行修改时,为了保证父进程和子进程之间的独立性,操作系统会为该进程申请创建新的空间,然后将页表中的映射关系进行修改,指向新申请的物理空间。换而言之,数据不修改时指向同一块物理地址;数据修改后,各自私有一份!
但在此过程中,操作系统仅仅是将页表中的映射关系进行修改。我们所看到的地址(虚拟地址)和变量并未发生改变。这也就意味着当父进程和子进程运行时,父进程和子进程的PCB、进程地址空间、和页表都是相互独立的,各自私有一份。尽管虚拟地址相同,但页表中的映射关系已经发生改变,此时我们获取虚拟地址对应的数据时,操作系统通过页表映射到不同的物理地址,从而获取到不同的值!(Linux中,进程PCB中存在一个struct mm_struct
的结构体指向虚拟地址空间)
【具体如下】:(以栈上定义的变量gal为例)
- 创建子进程时,未发生数据修改。此时操作系统会以父进程为模板将大部分数据拷贝给子进程,并且共用代码。其中父进程页表中的数据直接拷贝给子进程页表。此时子进程中的虚拟地址通过页表的映射关系,和父进程指向同一块物理空间!
- 当子进程中的数据发生修改时,为了保证父进程和子进程的独立性,操作系统会为子进程的真实物理空间重新开辟一块空间,用于存储修改后的值。之后将子进程的页表中的映射关系进行调整,指向新空间。
四、为什么需要地址地址空间和页表的存在?
为什么不直接指向真实物理地址,而是通过进程地址空间和页表来间接寻址呢?其真实原因主要有以下几点:
4.1 真实内存无序便有序
在真实物理空间中,数据从磁盘加载到物理空间。但数据加载到什么位置呢?
其实数据可以加载到物理空间的任意位置。由于进程地址空间和页表的存在,进程不需要关系这个问题。操作系统会将该进程的数据通过页表映射起来,让进程以统一的方式看待内存。通过地址空间和页表将乱序的内存数据变为有序,分门别类的规划好!!同时当进程中的数据出现阻塞挂起等情况是,操作系统仅需修改页表中的映射相关属性即可,大大减少操作系统的内存和进程的管理成本!!!
4.2 进行内存安全检查
在页表中,还存在访问权限的字段。具体如下:
在该字段中,保存着当前数据时仅度、可读可写等权限。如果页表保存也数据的访问权限时r
(比如代码区的数据),当用户对该数据试图进行修改时,页表中的访问权限会拦截禁止该行为。从而实现对进程访问内存的安全检查!!
【示例】:
下面有这样一段代码:
#include <stdio.h>
int main()
{
char* str = "hello Linux\n";
*str = "fef";
return 0;
}
这段代码显然是无法成功运行的。原因在于char* str = "hello Linux\n"
中,str是字符常量,操作系统将页表中str的相应访问权限字段设置为只读。当用户*str = "fef";
试图对str中的数据进行修改时,操作系统识别到该数据不可被修改,直接被操作系统拦截。
4.3 进程管理和内存管理藕接
在进程被调度过程中,为代码和数据开辟内存、加载数据到内存,修改建立页表和物理地址的映射关系等等操作属于内存管理的范畴;而进程执行代码、进程被调度属于进程管理的范畴。
在整个过程中,内存管理不知道进程管理究竟在做什么、而进程管理同样不关心底层数据加载、内存分配的问题。由于进程地址空间和页表的存在,操作系统会将各自的需求传递给对方。从而实现进程管理和内存管理之间的接藕!!
五、其他细节问题
5.1 操作系统如何获取进程页表相关信息
在Linux中,进程的PCB保存了一个struct mm_struct
结构体指针指向进程虚拟空间。但页表呢?
其实当CPU调度进程时,CPU上存在一个名为CR3寄存器。该寄存器保存了当前调度进程页表的地址。当进程调度结束时,操作系统会将CR3寄存器中的内存保存到进程PCB的上下文中。
5.2 操作系统如何确定内存中是否分配空间、是否存在内容?
在系统中,存在这样几种情况。
- 各位在打游戏时,有些游戏非常大,多则上百G(比如原神)。但在32为平台下,内存只有4GB。内存显然不足,当我们发现游戏还是可以正常运行的。原因在于操作系统并不是一次性将所有数据全部加载到内存中,而是在进程执行过程中,临时将所需要的数据加载到内存。
- 当操作系统中进程处于阻塞状态时,恰好此时操作系统内存资源严重不足。此时操作系统会将阻塞进程转化为挂起状态。将阻塞进程的相关数据置换到磁盘的Swap分区。当该进程被调度时,在重新加载到内存。这一点毛病没有。但问题在于操作系统如何知道内存中是否为这些数据分配空间、分配的空间中是否有内容呢?
原因在于:在进程页表中,存在一个字段(用0、1的方式)用于判断操作系统是否为该代码或数据分配内存空间、分配的空间中是否存在内容。(比如10表示以分配空间但没有内容,操作系统在识别到该信息后会先将相关数据加载到指定区域,在向后执行!!)
上一篇: 水稻 GO 和 KEGG 分析 - 首先,我们在分析水稻数据时,一般会选择 MSU 和 RAPDB 这两个数据库的基因组和 gtf 文件,这里只介绍 MSU 的 ID,RAPDB 也是一样。
推荐阅读
-
Linux什么是进程地址空间?进程地址空间有什么用?
-
windows下进程间通信的(13种方法)-摘 要 本文讨论了进程间通信与应用程序间通信的含义及相应的实现技术,并对这些技术的原理、特性等进行了深入的分析和比较。 ---- 关键词 信号 管道 消息队列 共享存储段 信号灯 远程过程调用 Socket套接字 MQSeries 1 引言 ---- 进程间通信的主要目的是实现同一计算机系统内部的相互协作的进程之间的数据共享与信息交换,由于这些进程处于同一软件和硬件环境下,利用操作系统提供的的编程接口,用户可以方便地在程序中实现这种通信;应用程序间通信的主要目的是实现不同计算机系统中的相互协作的应用程序之间的数据共享与信息交换,由于应用程序分别运行在不同计算机系统中,它们之间要通过网络之间的协议才能实现数据共享与信息交换。进程间通信和应用程序间通信及相应的实现技术有许多相同之处,也各有自己的特色。即使是同一类型的通信也有多种的实现方法,以适应不同情况的需要。 ---- 为了充分认识和掌握这两种通信及相应的实现技术,本文将就以下几个方面对这两种通信进行深入的讨论:问题的由来、解决问题的策略和方法、每种方法的工作原理和实现、每种实现方法的特点和适用的范围等。 2 进程间的通信及其实现技术 ---- 用户提交给计算机的任务最终都是通过一个个的进程来完成的。在一组并发进程中的任何两个进程之间,如果都不存在公共变量,则称该组进程为不相交的。在不相交的进程组中,每个进程都独立于其它进程,它的运行环境与顺序程序一样,而且它的运行环境也不为别的进程所改变。运行的结果是确定的,不会发生与时间相关的错误。 ---- 但是,在实际中,并发进程的各个进程之间并不是完全互相独立的,它们之间往往存在着相互制约的关系。进程之间的相互制约关系表现为两种方式: ---- (1) 间接相互制约:共享CPU ---- (2) 直接相互制约:竞争和协作 ---- 竞争——进程对共享资源的竞争。为保证进程互斥地访问共享资源,各进程必须互斥地进入各自的临界段。 ---- 协作——进程之间交换数据。为完成一个共同任务而同时运行的一组进程称为同组进程,它们之间必须交换数据,以达到协作完成任务的目的,交换数据可以通知对方可以做某事或者委托对方做某事。 ---- 共享CPU问题由操作系统的进程调度来实现,进程间的竞争和协作由进程间的通信来完成。进程间的通信一般由操作系统提供编程接口,由程序员在程序中实现。UNIX在这个方面可以说最具特色,它提供了一整套进程间的数据共享与信息交换的处理方法——进程通信机制(IPC)。因此,我们就以UNIX为例来分析进程间通信的各种实现技术。 ---- 在UNIX中,文件(File)、信号(Signal)、无名管道(Unnamed Pipes)、有名管道(FIFOs)是传统IPC功能;新的IPC功能包括消息队列(Message queues)、共享存储段(Shared memory segment)和信号灯(Semapores)。 ---- (1) 信号 ---- 信号机制是UNIX为进程中断处理而设置的。它只是一组预定义的值,因此不能用于信息交换,仅用于进程中断控制。例如在发生浮点错、非法内存访问、执行无效指令、某些按键(如ctrl-c、del等)等都会产生一个信号,操作系统就会调用有关的系统调用或用户定义的处理过程来处理。 ---- 信号处理的系统调用是signal,调用形式是: ---- signal(signalno,action) ---- 其中,signalno是规定信号编号的值,action指明当特定的信号发生时所执行的动作。 ---- (2) 无名管道和有名管道 ---- 无名管道实际上是内存中的一个临时存储区,它由系统安全控制,并且独立于创建它的进程的内存区。管道对数据采用先进先出方式管理,并严格按顺序操作,例如不能对管道进行搜索,管道中的信息只能读一次。 ---- 无名管道只能用于两个相互协作的进程之间的通信,并且访问无名管道的进程必须有共同的祖先。 ---- 系统提供了许多标准管道库函数,如: pipe——打开一个可以读写的管道; close——关闭相应的管道; read——从管道中读取字符; write——向管道中写入字符; ---- 有名管道的操作和无名管道类似,不同的地方在于使用有名管道的进程不需要具有共同的祖先,其它进程,只要知道该管道的名字,就可以访问它。管道非常适合进程之间快速交换信息。 ---- (3) 消息队列(MQ) ---- 消息队列是内存中独立于生成它的进程的一段存储区,一旦创建消息队列,任何进程,只要具有正确的的访问权限,都可以访问消息队列,消息队列非常适合于在进程间交换短信息。 ---- 消息队列的每条消息由类型编号来分类,这样接收进程可以选择读取特定的消息类型——这一点与管道不同。消息队列在创建后将一直存在,直到使用msgctl系统调用或iqcrm -q命令删除它为止。 ---- 系统提供了许多有关创建、使用和管理消息队列的系统调用,如: ---- int msgget(key,flag)——创建一个具有flag权限的MQ及其相应的结构,并返回一个唯一的正整数msqid(MQ的标识符); ---- int msgsnd(msqid,msgp,msgsz,msgtyp,flag)——向队列中发送信息; ---- int msgrcv(msqid,cmd,buf)——从队列中接收信息; ---- int msgctl(msqid,cmd,buf)——对MQ的控制操作; ---- (4) 共享存储段(SM) ---- 共享存储段是主存的一部分,它由一个或多个独立的进程共享。各进程的数据段与共享存储段相关联,对每个进程来说,共享存储段有不同的虚拟地址。系统提供的有关SM的系统调用有: ---- int shmget(key,size,flag)——创建大小为size的SM段,其相应的数据结构名为key,并返回共享内存区的标识符shmid; ---- char shmat(shmid,address,flag)——将当前进程数据段的地址赋给shmget所返回的名为shmid的SM段; ---- int shmdr(address)——从进程地址空间删除SM段; ---- int shmctl (shmid,cmd,buf)——对SM的控制操作; ---- SM的大小只受主存限制,SM段的访问及进程间的信息交换可以通过同步读写来完成。同步通常由信号灯来实现。SM非常适合进程之间大量数据的共享。 ---- (5) 信号灯 ---- 在UNIX中,信号灯是一组进程共享的数据结构,当几个进程竞争同一资源时(文件、共享内存或消息队列等),它们的操作便由信号灯来同步,以防止互相干扰。 ---- 信号灯保证了某一时刻只有一个进程访问某一临界资源,所有请求该资源的其它进程都将被挂起,一旦该资源得到释放,系统才允许其它进程访问该资源。信号灯通常配对使用,以便实现资源的加锁和解锁。 ---- 进程间通信的实现技术的特点是:操作系统提供实现机制和编程接口,由用户在程序中实现,保证进程间可以进行快速的信息交换和大量数据的共享。但是,上述方式主要适合在同一台计算机系统内部的进程之间的通信。 3 应用程序间的通信及其实现技术 ---- 同进程之间的相互制约一样,不同的应用程序之间也存在竞争和协作的关系。UNIX操作系统也提供一些可用于应用程序之间实现数据共享与信息交换的编程接口,程序员可以通过自己编程来实现。如远程过程调用和基于TCP/IP协议的套接字(Socket)编程。但是,相对普通程序员来说,它们涉及的技术比较深,编程也比较复杂,实现起来困难较大。 ---- 于是,一种新的技术应运而生——通过将有关通信的细节完全掩盖在某个独立软件内部,即底层的通讯工作和相应的维护管理工作由该软件内部来实现,用户只需要将通信任务提交给该软件去完成,而不必理会它的具体工作过程——这就是所谓的中间件技术。 ---- 我们在这里分别讨论这三种常用的应用程序间通信的实现技术——远程过程调用、会话编程技术和MQSeries消息队列技术。其中远程过程调用和会话编程属于比较低级的方式,程序员参与的程度较深,而MQSeries消息队列则属于比较高级的方式,即中间件方式,程序员参与的程度较浅。 ---- 4.1 远程过程调用(RPC)