Linux elf文件的加载过程分析 - Go语言中文社区

Linux elf文件的加载过程分析


前言


在linux shell命令行启动一个程序时,实际上新启动的进程是作为shell进程的子进程存在的。shell进程会先fork出一个子进程,此时子进程是父进程的一个拷贝,所以其代码段和数据段都来自于父进程,但是子进程是要执行新的程序的,所以会调用execv函数,载入新的程序,此过程中,子进程的代码段,数据段等都会替换成新的进程的。
本文主要是对elf文件的加载过程做一个简要的分析。

linux只支持ELF格式的可以行程序吗?


这个答案肯定是否定的!linux支持的可执行程序格式是通过register_binfmt注册的。elf格式的可执行程序加载器通过register_binfmt(&elf_format);注册。

ELF格式的可执行文件包括哪些内容?


了解ELF格式的可执行文件的加载过程,首先要先知道ELF可执行文件的格式。
ELF文件有一个ELF header,ELF header指明program header和section header的在文件中的位置以及大小;section header指明各个段在文件中的位置以及属性,这些段包括我们熟悉的代码段,数据段,只读数据段等等;program header指明各个segment在文件中的位置和属性,segment是一个或多个section的集合。我写了一个极简的程序,编译成ELF可执行程序,并通过readelf -l命令查看program header信息,如下:

Elf file type is EXEC (Executable file)
Entry point 0x400430
There are 9 program headers, starting at offset 64

Program Headers:
  Type           Offset             VirtAddr           PhysAddr
                 FileSiz            MemSiz              Flags  Align
  PHDR           0x0000000000000040 0x0000000000400040 0x0000000000400040
                 0x00000000000001f8 0x00000000000001f8  R E    8
  INTERP         0x0000000000000238 0x0000000000400238 0x0000000000400238
                 0x000000000000001c 0x000000000000001c  R      1
      [Requesting program interpreter: /lib64/ld-linux-x86-64.so.2]
  LOAD           0x0000000000000000 0x0000000000400000 0x0000000000400000
                 0x0000000000000754 0x0000000000000754  R E    200000
  LOAD           0x0000000000000e10 0x0000000000600e10 0x0000000000600e10
                 0x000000000000022c 0x0000000000000230  RW     200000
  DYNAMIC        0x0000000000000e28 0x0000000000600e28 0x0000000000600e28
                 0x00000000000001d0 0x00000000000001d0  RW     8
  NOTE           0x0000000000000254 0x0000000000400254 0x0000000000400254
                 0x0000000000000044 0x0000000000000044  R      4
  GNU_EH_FRAME   0x0000000000000628 0x0000000000400628 0x0000000000400628
                 0x0000000000000034 0x0000000000000034  R      4
  GNU_STACK      0x0000000000000000 0x0000000000000000 0x0000000000000000
                 0x0000000000000000 0x0000000000000000  RW     10
  GNU_RELRO      0x0000000000000e10 0x0000000000600e10 0x0000000000600e10
                 0x00000000000001f0 0x00000000000001f0  R      1

 Section to Segment mapping:
  Segment Sections...
   00     
   01     .interp 
   02     .interp .note.ABI-tag .note.gnu.build-id .gnu.hash .dynsym .dynstr .gnu.version .gnu.version_r .rela.dyn .rela.plt .init .plt .plt.got .text .fini .rodata .eh_frame_hdr .eh_frame 
   03     .init_array .fini_array .jcr .dynamic .got .got.plt .data .bss 
   04     .dynamic 
   05     .note.ABI-tag .note.gnu.build-id 
   06     .eh_frame_hdr 
   07     
   08     .init_array .fini_array .jcr .dynamic .got 

我们可以很清晰的看出,有9个program header,也就是有9个segment。这里我们解释下其中三个segment:
01-INTERP:这是解释器segment,它只包括一个section:.interp
02-LOAD:该segment包括很多section,其中包括很重要的代码段.text和只读数据段.rodata,这个segment是要被加载的,类型为LOAD也指明了这一点,从flags字段可以看出,这个segment是可以读可以执行的,由于该segment不可写,所以不存在可执行区域被恶意篡改的情况。
03-LOAD:很明显这个segment也是要加载的,它包括比较重要的数据段.data和.bss段,从flags字段可以看出,这个segment是可以读可以写的。

ELF文件加载的主要过程?


  1. 将属性为PT_LOAD的segment加载到内存。
    调用elf_map接口,将ELF文件响应的属性为PT_LOAD的segment映射到一段内存。

  2. 更新该进程mm内存地址空间
    在这里插入图片描述mm记录了该进程的代码段,数据段,BSS段,堆段,mmap段以及栈。

  3. 将参数放在栈上
    写用户程序的时候,是可以向main函数传参的,此外main函数还有个参数可以获取当前进程的环境变量,这些信息都是预先放在栈上的,函数create_elf_tables就是做这件事的。

  4. 除旧换新
    清楚旧的执行环境,设置新的执行环境。这里涉及到进程管理相关的内容,暂不讨论。

  5. 确定入口地址
    如果编译的时候是静态链接,是不需要解释器的,所以入口地址就是该ELF文件头部定义的入口地址。
    如果编译的时候是动态链接,则需要解释器,所以入口地址是解释器的入口地址,一旦该进程返回用户空间,并得到调度,就会运行解释器,由解释器动态链接动态库。

	if (elf_interpreter) {
		unsigned long interp_map_addr = 0;

		elf_entry = load_elf_interp(&loc->interp_elf_ex,
					    interpreter,
					    &interp_map_addr,
					    load_bias, interp_elf_phdata);
		if (!IS_ERR((void *)elf_entry)) {
			/*
			 * load_elf_interp() returns relocation
			 * adjustment
			 */
			interp_load_addr = elf_entry;
			elf_entry += loc->interp_elf_ex.e_entry;
		}
		if (BAD_ADDR(elf_entry)) {
			retval = IS_ERR((void *)elf_entry) ?
					(int)elf_entry : -EINVAL;
			goto out_free_dentry;
		}
		reloc_func_desc = interp_load_addr;

		allow_write_access(interpreter);
		fput(interpreter);
		kfree(elf_interpreter);
	} else {
		elf_entry = loc->elf_ex.e_entry;
		if (BAD_ADDR(elf_entry)) {
			retval = -EINVAL;
			goto out_free_dentry;
		}
	}
版权声明:本文来源CSDN,感谢博主原创文章,遵循 CC 4.0 by-sa 版权协议,转载请附上原文出处链接和本声明。
原文链接:https://blog.csdn.net/liuhangtiant/article/details/99065491
站方申明:本站部分内容来自社区用户分享,若涉及侵权,请联系站方删除。

0 条评论

请先 登录 后评论

官方社群

GO教程

猜你喜欢