社区微信群开通啦,扫一扫抢先加入社区官方微信群
社区微信群
在linux shell命令行启动一个程序时,实际上新启动的进程是作为shell进程的子进程存在的。shell进程会先fork出一个子进程,此时子进程是父进程的一个拷贝,所以其代码段和数据段都来自于父进程,但是子进程是要执行新的程序的,所以会调用execv函数,载入新的程序,此过程中,子进程的代码段,数据段等都会替换成新的进程的。
本文主要是对elf文件的加载过程做一个简要的分析。
这个答案肯定是否定的!linux支持的可执行程序格式是通过register_binfmt注册的。elf格式的可执行程序加载器通过register_binfmt(&elf_format);注册。
了解ELF格式的可执行文件的加载过程,首先要先知道ELF可执行文件的格式。
ELF文件有一个ELF header,ELF header指明program header和section header的在文件中的位置以及大小;section header指明各个段在文件中的位置以及属性,这些段包括我们熟悉的代码段,数据段,只读数据段等等;program header指明各个segment在文件中的位置和属性,segment是一个或多个section的集合。我写了一个极简的程序,编译成ELF可执行程序,并通过readelf -l命令查看program header信息,如下:
Elf file type is EXEC (Executable file)
Entry point 0x400430
There are 9 program headers, starting at offset 64
Program Headers:
Type Offset VirtAddr PhysAddr
FileSiz MemSiz Flags Align
PHDR 0x0000000000000040 0x0000000000400040 0x0000000000400040
0x00000000000001f8 0x00000000000001f8 R E 8
INTERP 0x0000000000000238 0x0000000000400238 0x0000000000400238
0x000000000000001c 0x000000000000001c R 1
[Requesting program interpreter: /lib64/ld-linux-x86-64.so.2]
LOAD 0x0000000000000000 0x0000000000400000 0x0000000000400000
0x0000000000000754 0x0000000000000754 R E 200000
LOAD 0x0000000000000e10 0x0000000000600e10 0x0000000000600e10
0x000000000000022c 0x0000000000000230 RW 200000
DYNAMIC 0x0000000000000e28 0x0000000000600e28 0x0000000000600e28
0x00000000000001d0 0x00000000000001d0 RW 8
NOTE 0x0000000000000254 0x0000000000400254 0x0000000000400254
0x0000000000000044 0x0000000000000044 R 4
GNU_EH_FRAME 0x0000000000000628 0x0000000000400628 0x0000000000400628
0x0000000000000034 0x0000000000000034 R 4
GNU_STACK 0x0000000000000000 0x0000000000000000 0x0000000000000000
0x0000000000000000 0x0000000000000000 RW 10
GNU_RELRO 0x0000000000000e10 0x0000000000600e10 0x0000000000600e10
0x00000000000001f0 0x00000000000001f0 R 1
Section to Segment mapping:
Segment Sections...
00
01 .interp
02 .interp .note.ABI-tag .note.gnu.build-id .gnu.hash .dynsym .dynstr .gnu.version .gnu.version_r .rela.dyn .rela.plt .init .plt .plt.got .text .fini .rodata .eh_frame_hdr .eh_frame
03 .init_array .fini_array .jcr .dynamic .got .got.plt .data .bss
04 .dynamic
05 .note.ABI-tag .note.gnu.build-id
06 .eh_frame_hdr
07
08 .init_array .fini_array .jcr .dynamic .got
我们可以很清晰的看出,有9个program header,也就是有9个segment。这里我们解释下其中三个segment:
01-INTERP:这是解释器segment,它只包括一个section:.interp
02-LOAD:该segment包括很多section,其中包括很重要的代码段.text和只读数据段.rodata,这个segment是要被加载的,类型为LOAD也指明了这一点,从flags字段可以看出,这个segment是可以读可以执行的,由于该segment不可写,所以不存在可执行区域被恶意篡改的情况。
03-LOAD:很明显这个segment也是要加载的,它包括比较重要的数据段.data和.bss段,从flags字段可以看出,这个segment是可以读可以写的。
将属性为PT_LOAD的segment加载到内存。
调用elf_map接口,将ELF文件响应的属性为PT_LOAD的segment映射到一段内存。
更新该进程mm内存地址空间
mm记录了该进程的代码段,数据段,BSS段,堆段,mmap段以及栈。
将参数放在栈上
写用户程序的时候,是可以向main函数传参的,此外main函数还有个参数可以获取当前进程的环境变量,这些信息都是预先放在栈上的,函数create_elf_tables就是做这件事的。
除旧换新
清楚旧的执行环境,设置新的执行环境。这里涉及到进程管理相关的内容,暂不讨论。
确定入口地址
如果编译的时候是静态链接,是不需要解释器的,所以入口地址就是该ELF文件头部定义的入口地址。
如果编译的时候是动态链接,则需要解释器,所以入口地址是解释器的入口地址,一旦该进程返回用户空间,并得到调度,就会运行解释器,由解释器动态链接动态库。
if (elf_interpreter) {
unsigned long interp_map_addr = 0;
elf_entry = load_elf_interp(&loc->interp_elf_ex,
interpreter,
&interp_map_addr,
load_bias, interp_elf_phdata);
if (!IS_ERR((void *)elf_entry)) {
/*
* load_elf_interp() returns relocation
* adjustment
*/
interp_load_addr = elf_entry;
elf_entry += loc->interp_elf_ex.e_entry;
}
if (BAD_ADDR(elf_entry)) {
retval = IS_ERR((void *)elf_entry) ?
(int)elf_entry : -EINVAL;
goto out_free_dentry;
}
reloc_func_desc = interp_load_addr;
allow_write_access(interpreter);
fput(interpreter);
kfree(elf_interpreter);
} else {
elf_entry = loc->elf_ex.e_entry;
if (BAD_ADDR(elf_entry)) {
retval = -EINVAL;
goto out_free_dentry;
}
}
如果觉得我的文章对您有用,请随意打赏。你的支持将鼓励我继续创作!