在 《[漫画解说内存映射] 》一文中介绍过 虚拟内存
与 物理内存
映射的原理与过程,虚拟内存与物理内存进行映射的过程被称为 内存映射
。内存映射是硬件(内存管理单元)级别的功能,必须按照硬件的规范设置好内存映射的关系,进程才能正常运行。
但内存映射并不能区分内存的用途,比如我们想知道虚拟内存区间 0 ~ 2MB 是用作存储数据还是存储指令,这就很难从内存映射中获取到相关信息。所以,Linux 根据功能上的差异,来对虚拟内存空间进行管理。
今天,我们来介绍一下 Linux 对虚拟内存空间管理的细节。
之前我们说过,在 32 位的操作系统中,每个进程都拥有 4GB 的虚拟内存空间。Linux 根据功能上的差异,把整个虚拟内存空间划分为多个不同区间,称为 段
。
我们先来看看 Linux 进程虚拟内存空间的布局图,如图 1 所示:
上图展示了 Linux 进程的虚拟内存空间布局情况,我们只关注 用户空间
的布局。
从上图可以看出,进程的用户空间大小为 3GB。Linux 按照功能上的差异,把一个进程的用户空间划分为多个段,下面介绍一下各个段的作用:
代码段
:用于存放程序中可执行代码的段。数据段
:用于存放已经初始化的全局变量或静态变量的段。如在 C 语言中,使用语句 int global = 10;
定义的全局变量。未初始化数据段
:用于存放未初始化的全局变量或静态变量的段。如在 C 语言中,使用语句 int global;
定义的全局变量。堆
:用于存放使用 malloc
函数申请的内存。mmap区
:用于存放使用 mmap
函数映射的内存区。栈
:用于存放函数局部变量和函数参数。从上面的介绍可知,Linux 按照功能上的差异,把虚拟内存空间划分为多个 段
。那么在内核中,是通过什么结构来管理这些段的呢?
答案就是:vm_area_struct。
内核通过 vm_area_struct
结构(虚拟内存区)来管理各个 段
,其定义如下:
1struct vm_area_struct {
2 struct mm_struct *vm_mm; /* The address space we belong to. */
3 unsigned long vm_start; /* Our start address within vm_mm. */
4 unsigned long vm_end; /* The first byte after our end address within vm_mm. */
5
6 /* linked list of VM areas per task, sorted by address */
7 struct vm_area_struct *vm_next;
8
9 pgprot_t vm_page_prot; /* Access permissions of this VMA. */
10 unsigned long vm_flags; /* Flags, see mm.h. */
11 struct rb_node vm_rb;
12 ...
13 /* Function pointers to deal with this struct. */
14 const struct vm_operations_struct *vm_ops;
15 ...
16};
下面介绍一下各个字段的作用:
vm_mm
:指向进程的内存管理对象,每个进程都有一个类型为 mm_struct
的内存管理对象,用于管理进程的虚拟内存空间和内存映射等。vm_start
:虚拟内存区的起始虚拟内存地址。vm_end
:虚拟内存区的结束虚拟内存地址。vm_next
:Linux 会通过链表把进程的所有虚拟内存区连接起来,这个字段用于指向下一个虚拟内存区。vm_page_prot
:主要用于保存当前虚拟内存区所映射的物理内存页的读写权限。vm_flags
:标识当前虚拟内存区的功能特性。vm_rb
:某些场景中需要通过虚拟内存地址查找对应的虚拟内存区,为了加速查找过程,内核以虚拟内存地址作为key,把进程所有的虚拟内存区保存到一棵红黑树中,而这个字段就是红黑树的节点结构。vm_ops
:每个虚拟内存区都可以自定义一套操作接口,通过操作接口,能够让虚拟内存区实现一些特定的功能,比如:把虚拟内存区映射到文件。而 vm_ops
字段就是虚拟内存区的操作接口集,一般在创建虚拟内存区时指定。我们通过图 2 来展示内核是怎么通过 vm_area_struct
结构来管理进程中的所有 段
:
从上图可以看出,内核通过一个链表和一棵红黑树来管理进程中所有的 段
。mm_struct
结构的 mmap
字段就是链表的头节点,而 mm_rb
字段就是红黑树的根节点。
前面我们介绍了 Linux 会把虚拟内存地址划分为多个 段
,并且使用 vm_area_struct
结构来管理这些段。那么,这些虚拟内存区是怎么建立起来的呢?
在介绍进程虚拟内存区建立的过程前,我们先来简单介绍一下 ELF文件格式
。
ELF 全称 Executable and Linkable Format,即可执行可链接文件格式。在 Linux 系统中,就是使用这种文件格式来存储一个可执行的应用程序。让我们来看一下 ELF 文件格式由哪些结构组成:
一般一个 ELF 文件由以下三部分组成:
ELF 文件的结构大概如图3所示:
当内核加载一个应用程序时,就是通过读取 ELF 文件的信息,然后把文件中所有的段加载到虚拟内存的段中。ELF 文件通过 程序头表
来描述应用程序中所有的段,表中的每一个项都描述一个段的信息。我们先来看看 程序头表
项的结构定义:
1typedef struct elf64_phdr {
2 Elf64_Word p_type; // 段的类型
3 Elf64_Word p_flags; // 可读写标志
4 Elf64_Off p_offset; // 段在ELF文件中的偏移量
5 Elf64_Addr p_vaddr; // 段的虚拟内存地址
6 Elf64_Addr p_paddr; // 段的物理内存地址
7 Elf64_Xword p_filesz; // 段占用文件的大小
8 Elf64_Xword p_memsz; // 段占用内存的大小
9 Elf64_Xword p_align; // 内存对齐
10} Elf64_Phdr;
所以,程序加载器可以通过 ELF 头中获取到程序头表的偏移量,然后通过程序头表的偏移量读取到程序头表的数据,再通过程序头表来获取到所有段的信息。
我们可以通过 readelf -S file
命令来查看 ELF 文件的段(节)信息,如下图所示:
上面列出了 代码段
、数据段
、未初始化数据段
和 注释段
的信息。
要加载一个程序,需要调用 execve
系统调用来完成。我们来看看 execve
系统调用的调用栈:
1sys_execve
2└→ do_execve
3 └→ do_execveat_common
4 └→ __do_execve_file
5 └→ exec_binprm
6 └→ search_binary_handler
7 └→ load_elf_binary
从上面的调用者可以看出,execve
系统调用最终会调用 load_elf_binary
函数来加载程序的 ELF 文件。
由于 load_elf_binary
函数的实现比较复杂,所以我们分段来解说:
(1)读取并检查ELF头
1static int load_elf_binary(struct linux_binprm *bprm, struct pt_regs *regs)
2{
3 ...
4 struct {
5 struct elfhdr elf_ex;
6 struct elfhdr interp_elf_ex;
7 } *loc;
8
9 loc = kmalloc(sizeof(*loc), GFP_KERNEL);
10 if (!loc) {
11 retval = -ENOMEM;
12 goto out_ret;
13 }
14
15 // 1. 获取ELF头
16 loc->elf_ex = *((struct elfhdr *)bprm->buf);
17
18 retval = -ENOEXEC;
19 // 2. 检查ELF签名是否正确
20 if (memcmp(loc->elf_ex.e_ident, ELFMAG, SELFMAG) != 0)
21 goto out;
22
23 // 3. 是否是可执行文件或者动态库
24 if (loc->elf_ex.e_type != ET_EXEC && loc->elf_ex.e_type != ET_DYN)
25 goto out;
26
27 // 4. 检查系统架构是否正确
28 if (!elf_check_arch(&loc->elf_ex))
29 goto out;
30 ...
上面这段代码主要是读取应用程序的 ELF 头,然后检查 ELF 头信息是否合法。
(2)读取程序头表
1 size = loc->elf_ex.e_phnum * sizeof(struct elf_phdr); // 程序头表的大小
2 retval = -ENOMEM;
3
4 elf_phdata = kmalloc(size, GFP_KERNEL); // 申请一块内存来保存程序头表
5 if (!elf_phdata)
6 goto out;
7
8// 从ELF文件中读取程序头表的数据, 并且保存到 elf_phdata 变量中
9 retval = kernel_read(bprm->file, loc->elf_ex.e_phoff, (char *)elf_phdata, size);
10 if (retval != size) {
11 if (retval >= 0)
12 retval = -EIO;
13 goto out_free_ph;
14 }
15 ...
上面的代码主要完成以下几个工作:
kmalloc
函数申请一块内存来保存程序头表。kernel_read
函数从 ELF 文件中读取程序头表的数据,保存到 elf_phdata
变量中,程序头表的偏移量可以通过 ELF 头的 e_phoff
字段获取。(3)加载段到虚拟内存
1 // 遍历程序头表所有的段
2 for (i = 0, elf_ppnt = elf_phdata; i < loc->elf_ex.e_phnum; i++, elf_ppnt++) {
3 int elf_prot = 0, elf_flags;
4 unsigned long k, vaddr;
5
6 if (elf_ppnt->p_type != PT_LOAD) // 判断段是否需要加载
7 continue;
8 ...
9 // 段的可读写权限
10 if (elf_ppnt->p_flags & PF_R)
11 elf_prot |= PROT_READ;
12 if (elf_ppnt->p_flags & PF_W)
13 elf_prot |= PROT_WRITE;
14 if (elf_ppnt->p_flags & PF_X)
15 elf_prot |= PROT_EXEC;
16
17 elf_flags = MAP_PRIVATE | MAP_DENYWRITE | MAP_EXECUTABLE;
18
19 vaddr = elf_ppnt->p_vaddr; // 获取段的虚拟内存地址
20 ...
21 // 把段加载到虚拟内存
22 error = elf_map(bprm->file, load_bias + vaddr, elf_ppnt, elf_prot, elf_flags, 0);
23 ...
24 }
上面这段代码主要完成的工作是:
elf_map
函数把段加载到虚拟内存。所以,把段加载到虚拟内存主要通过 elf_map
函数完成。我们来看看 elf_map
函数的调用栈:
1elf_map
2└→ do_mmap
3 └→ do_mmap_pgoff
4 └→ mmap_region
从上面的调用者可以看出,elf_map
函数最终会调用 mmap_region
来完成加载段到虚拟内存。我们分析一下 mmap_region
函数的实现:
1unsigned long
2mmap_region(struct file *file, unsigned long addr, unsigned long len,
3 unsigned long flags, unsigned int vm_flags, unsigned long pgoff)
4{
5 struct mm_struct *mm = current->mm;
6 struct vm_area_struct *vma, *prev;
7 ...
8 // 申请一个 vm_area_struct 结构
9 vma = kmem_cache_zalloc(vm_area_cachep, GFP_KERNEL);
10 if (!vma) {
11 error = -ENOMEM;
12 goto unacct_error;
13 }
14
15 // 设置 vm_area_struct 结构各个字段的值
16 vma->vm_mm = mm;
17 vma->vm_start = addr; // 段的开始虚拟内存地址
18 vma->vm_end = addr + len; // 段的结束虚拟内存地址
19 vma->vm_flags = vm_flags; // 段的功能特性
20 vma->vm_page_prot = vm_get_page_prot(vm_flags);
21 vma->vm_pgoff = pgoff;
22
23 ...
24 // 把 vm_area_struct 结构连接到虚拟内存区链表和红黑树中
25 vma_link(mm, vma, prev, rb_link, rb_parent);
26 ...
27
28 return addr;
29}
上面代码对 mmap_region
函数进行了精简,精简后的工作主要有:
kmem_cache_zalloc
函数申请一个 vm_area_struct
(虚拟内存区)结构。vm_area_struct
结构各个字段的值。vma_link
函数把 vm_area_struct
结构连接到虚拟内存区链表和红黑树中。通过上面的过程,内核就把应用程序的所有段加载到虚拟内存中。
本文主要介绍了 Linux 内核是怎么加载应用程序,并且在虚拟内存中建立各个段的布局。本文主要关注的是虚拟内存布局的建立过程,但加载应用程序的很多细节都忽略了(如怎么设置进程入口),有兴趣可以自行查阅相关的资料和书籍。
本文由哈喽比特于3年以前收录,如有侵权请联系我们。
文章来源:https://mp.weixin.qq.com/s/dZtwPGKzpjVad2mVR6WNwA
京东创始人刘强东和其妻子章泽天最近成为了互联网舆论关注的焦点。有关他们“移民美国”和在美国购买豪宅的传言在互联网上广泛传播。然而,京东官方通过微博发言人发布的消息澄清了这些传言,称这些言论纯属虚假信息和蓄意捏造。
日前,据博主“@超能数码君老周”爆料,国内三大运营商中国移动、中国电信和中国联通预计将集体采购百万台规模的华为Mate60系列手机。
据报道,荷兰半导体设备公司ASML正看到美国对华遏制政策的负面影响。阿斯麦(ASML)CEO彼得·温宁克在一档电视节目中分享了他对中国大陆问题以及该公司面临的出口管制和保护主义的看法。彼得曾在多个场合表达了他对出口管制以及中荷经济关系的担忧。
今年早些时候,抖音悄然上线了一款名为“青桃”的 App,Slogan 为“看见你的热爱”,根据应用介绍可知,“青桃”是一个属于年轻人的兴趣知识视频平台,由抖音官方出品的中长视频关联版本,整体风格有些类似B站。
日前,威马汽车首席数据官梅松林转发了一份“世界各国地区拥车率排行榜”,同时,他发文表示:中国汽车普及率低于非洲国家尼日利亚,每百户家庭仅17户有车。意大利世界排名第一,每十户中九户有车。
近日,一项新的研究发现,维生素 C 和 E 等抗氧化剂会激活一种机制,刺激癌症肿瘤中新血管的生长,帮助它们生长和扩散。
据媒体援引消息人士报道,苹果公司正在测试使用3D打印技术来生产其智能手表的钢质底盘。消息传出后,3D系统一度大涨超10%,不过截至周三收盘,该股涨幅回落至2%以内。
9月2日,坐拥千万粉丝的网红主播“秀才”账号被封禁,在社交媒体平台上引发热议。平台相关负责人表示,“秀才”账号违反平台相关规定,已封禁。据知情人士透露,秀才近期被举报存在违法行为,这可能是他被封禁的部分原因。据悉,“秀才”年龄39岁,是安徽省亳州市蒙城县人,抖音网红,粉丝数量超1200万。他曾被称为“中老年...
9月3日消息,亚马逊的一些股东,包括持有该公司股票的一家养老基金,日前对亚马逊、其创始人贝索斯和其董事会提起诉讼,指控他们在为 Project Kuiper 卫星星座项目购买发射服务时“违反了信义义务”。
据消息,为推广自家应用,苹果现推出了一个名为“Apps by Apple”的网站,展示了苹果为旗下产品(如 iPhone、iPad、Apple Watch、Mac 和 Apple TV)开发的各种应用程序。
特斯拉本周在美国大幅下调Model S和X售价,引发了该公司一些最坚定支持者的不满。知名特斯拉多头、未来基金(Future Fund)管理合伙人加里·布莱克发帖称,降价是一种“短期麻醉剂”,会让潜在客户等待进一步降价。
据外媒9月2日报道,荷兰半导体设备制造商阿斯麦称,尽管荷兰政府颁布的半导体设备出口管制新规9月正式生效,但该公司已获得在2023年底以前向中国运送受限制芯片制造机器的许可。
近日,根据美国证券交易委员会的文件显示,苹果卫星服务提供商 Globalstar 近期向马斯克旗下的 SpaceX 支付 6400 万美元(约 4.65 亿元人民币)。用于在 2023-2025 年期间,发射卫星,进一步扩展苹果 iPhone 系列的 SOS 卫星服务。
据报道,马斯克旗下社交平台𝕏(推特)日前调整了隐私政策,允许 𝕏 使用用户发布的信息来训练其人工智能(AI)模型。新的隐私政策将于 9 月 29 日生效。新政策规定,𝕏可能会使用所收集到的平台信息和公开可用的信息,来帮助训练 𝕏 的机器学习或人工智能模型。
9月2日,荣耀CEO赵明在采访中谈及华为手机回归时表示,替老同事们高兴,觉得手机行业,由于华为的回归,让竞争充满了更多的可能性和更多的魅力,对行业来说也是件好事。
《自然》30日发表的一篇论文报道了一个名为Swift的人工智能(AI)系统,该系统驾驶无人机的能力可在真实世界中一对一冠军赛里战胜人类对手。
近日,非营利组织纽约真菌学会(NYMS)发出警告,表示亚马逊为代表的电商平台上,充斥着各种AI生成的蘑菇觅食科普书籍,其中存在诸多错误。
社交媒体平台𝕏(原推特)新隐私政策提到:“在您同意的情况下,我们可能出于安全、安保和身份识别目的收集和使用您的生物识别信息。”
2023年德国柏林消费电子展上,各大企业都带来了最新的理念和产品,而高端化、本土化的中国产品正在不断吸引欧洲等国际市场的目光。
罗永浩日前在直播中吐槽苹果即将推出的 iPhone 新品,具体内容为:“以我对我‘子公司’的了解,我认为 iPhone 15 跟 iPhone 14 不会有什么区别的,除了序(列)号变了,这个‘不要脸’的东西,这个‘臭厨子’。