Linux elf文件的加载过程分析

前言

在linux shell命令行启动一个程序时，实际上新启动的进程是作为shell进程的子进程存在的。shell进程会先fork出一个子进程，此时子进程是父进程的一个拷贝，所以其代码段和数据段都来自于父进程，但是子进程是要执行新的程序的，所以会调用execv函数，载入新的程序，此过程中，子进程的代码段，数据段等都会替换成新的进程的。
本文主要是对elf文件的加载过程做一个简要的分析。

linux只支持ELF格式的可以行程序吗？

这个答案肯定是否定的！linux支持的可执行程序格式是通过register_binfmt注册的。elf格式的可执行程序加载器通过register_binfmt(&elf_format);注册。

ELF格式的可执行文件包括哪些内容？

了解ELF格式的可执行文件的加载过程，首先要先知道ELF可执行文件的格式。
ELF文件有一个ELF header，ELF header指明program header和section header的在文件中的位置以及大小；section header指明各个段在文件中的位置以及属性，这些段包括我们熟悉的代码段，数据段，只读数据段等等；program header指明各个segment在文件中的位置和属性，segment是一个或多个section的集合。我写了一个极简的程序，编译成ELF可执行程序，并通过readelf -l命令查看program header信息，如下：

Elf file type is EXEC (Executable file)
Entry point 0x400430
There are 9 program headers, starting at offset 64

Program Headers:
  Type           Offset             VirtAddr           PhysAddr
                 FileSiz            MemSiz              Flags  Align
  PHDR           0x0000000000000040 0x0000000000400040 0x0000000000400040
                 0x00000000000001f8 0x00000000000001f8  R E    8
  INTERP         0x0000000000000238 0x0000000000400238 0x0000000000400238
                 0x000000000000001c 0x000000000000001c  R      1
      [Requesting program interpreter: /lib64/ld-linux-x86-64.so.2]
  LOAD           0x0000000000000000 0x0000000000400000 0x0000000000400000
                 0x0000000000000754 0x0000000000000754  R E    200000
  LOAD           0x0000000000000e10 0x0000000000600e10 0x0000000000600e10
                 0x000000000000022c 0x0000000000000230  RW     200000
  DYNAMIC        0x0000000000000e28 0x0000000000600e28 0x0000000000600e28
                 0x00000000000001d0 0x00000000000001d0  RW     8
  NOTE           0x0000000000000254 0x0000000000400254 0x0000000000400254
                 0x0000000000000044 0x0000000000000044  R      4
  GNU_EH_FRAME   0x0000000000000628 0x0000000000400628 0x0000000000400628
                 0x0000000000000034 0x0000000000000034  R      4
  GNU_STACK      0x0000000000000000 0x0000000000000000 0x0000000000000000
                 0x0000000000000000 0x0000000000000000  RW     10
  GNU_RELRO      0x0000000000000e10 0x0000000000600e10 0x0000000000600e10
                 0x00000000000001f0 0x00000000000001f0  R      1

 Section to Segment mapping:
  Segment Sections...
   00     
   01     .interp 
   02     .interp .note.ABI-tag .note.gnu.build-id .gnu.hash .dynsym .dynstr .gnu.version .gnu.version_r .rela.dyn .rela.plt .init .plt .plt.got .text .fini .rodata .eh_frame_hdr .eh_frame 
   03     .init_array .fini_array .jcr .dynamic .got .got.plt .data .bss 
   04     .dynamic 
   05     .note.ABI-tag .note.gnu.build-id 
   06     .eh_frame_hdr 
   07     
   08     .init_array .fini_array .jcr .dynamic .got

我们可以很清晰的看出，有9个program header，也就是有9个segment。这里我们解释下其中三个segment：
01-INTERP：这是解释器segment，它只包括一个section：.interp
02-LOAD：该segment包括很多section，其中包括很重要的代码段.text和只读数据段.rodata，这个segment是要被加载的，类型为LOAD也指明了这一点，从flags字段可以看出，这个segment是可以读可以执行的，由于该segment不可写，所以不存在可执行区域被恶意篡改的情况。
03-LOAD：很明显这个segment也是要加载的，它包括比较重要的数据段.data和.bss段，从flags字段可以看出，这个segment是可以读可以写的。

ELF文件加载的主要过程？

将属性为PT_LOAD的segment加载到内存。
调用elf_map接口，将ELF文件响应的属性为PT_LOAD的segment映射到一段内存。
更新该进程mm内存地址空间
mm记录了该进程的代码段，数据段，BSS段，堆段，mmap段以及栈。
将参数放在栈上
写用户程序的时候，是可以向main函数传参的，此外main函数还有个参数可以获取当前进程的环境变量，这些信息都是预先放在栈上的，函数create_elf_tables就是做这件事的。
除旧换新
清楚旧的执行环境，设置新的执行环境。这里涉及到进程管理相关的内容，暂不讨论。
确定入口地址
如果编译的时候是静态链接，是不需要解释器的，所以入口地址就是该ELF文件头部定义的入口地址。
如果编译的时候是动态链接，则需要解释器，所以入口地址是解释器的入口地址，一旦该进程返回用户空间，并得到调度，就会运行解释器，由解释器动态链接动态库。

	if (elf_interpreter) {
		unsigned long interp_map_addr = 0;

		elf_entry = load_elf_interp(&loc->interp_elf_ex,
					    interpreter,
					    &interp_map_addr,
					    load_bias, interp_elf_phdata);
		if (!IS_ERR((void *)elf_entry)) {
			/*
			 * load_elf_interp() returns relocation
			 * adjustment
			 */
			interp_load_addr = elf_entry;
			elf_entry += loc->interp_elf_ex.e_entry;
		}
		if (BAD_ADDR(elf_entry)) {
			retval = IS_ERR((void *)elf_entry) ?
					(int)elf_entry : -EINVAL;
			goto out_free_dentry;
		}
		reloc_func_desc = interp_load_addr;

		allow_write_access(interpreter);
		fput(interpreter);
		kfree(elf_interpreter);
	} else {
		elf_entry = loc->elf_ex.e_entry;
		if (BAD_ADDR(elf_entry)) {
			retval = -EINVAL;
			goto out_free_dentry;
		}
	}

版权声明：本文来源CSDN，感谢博主原创文章，遵循 CC 4.0 by-sa 版权协议，转载请附上原文出处链接和本声明。
原文链接：https://blog.csdn.net/liuhangtiant/article/details/99065491
站方申明：本站部分内容来自社区用户分享，若涉及侵权，请联系站方删除。

发表于 2020-06-28 00:43:55

阅读 ( 1350 )