Go语言汇编优化-蒙卓 - Go语言中文社区

Go语言汇编优化-蒙卓


目录

  • 基础知识

  • 汇编语法

  • Demo

  • 基本程序

  • debug


讲汇编优化,不得不说一句高德纳的名言——过早的优化就是万恶之源。如果你们没有被逼到绝路,或者要榨干CPU的性能,千万不要尝试以下演讲的内容。

640?wx_fmt=png

    我给 Go 的 1.11 提交了这几个项目,第一个是 Hashmap 优化,就是你们常用的 map 操作里面最费时的哈希值计算优化。VDSO,虚拟动态对接的 syscall,主要是优化系统时间调用。Md5、Chacha20就不说了。还有一个 Duffcopy,这是给编译器展开优化用的,它在 arm64平台优化得不是很好,所以我也做了优化。除了 Chacha20还没有完成外,其他的都已经在 Go master 上可以用到了。可能有些人会觉得为什么都是 arm64 平台的优化?其实就是 Go 官方团队维护了 X86-64,已经优化得很好,我就不要搀和了,就挑了一个比较新的平台,arm64。

640?wx_fmt=png

   国内 arm 公司的大牛肖玮带领他的团队也在做 Go 相关的优化,比如 sha256,提升的效率有 16倍。国外的也有,Cloudflare,做CDN的公司,他们有一个密码学大牛弗拉德做了一些优化,也在 Go 的1.11里面合进去了,优化的效率是多少呢?

640?wx_fmt=png

这是他们的CTO转发的推,CTO问他上周优化了一些什么东西呢?他说他优化了一些Go的库,RSA 性能有20倍,AES-GCM有15倍,P256有18倍。看了这些大牛优化以后有这么好的性能提升,是不是很心动啊?这次演讲就是教大家入门汇编优化,怎么做十几倍的加速。


1. 基础知识

   所以怎么跑得那么快?就要知道干什么。 总结下来有三点,减少读写,并行操作,硬件加速。


1.1 减少读写

640?wx_fmt=png

  上图是谷歌的 Jeff Dean 分享的《程序员应该知道的延迟》,这个延迟是什么延迟呢?比如数据从CPU L1里面挖出来的速度,在2012年的时候是0.5ns,CPU L2里面是7ns;储存,也就是我们常说的内存里面拉出来是100ns。大家有没有发现每多一层就是10倍的性能下降,所以你要尽量少用内存的操作,多用寄存器。还有,CPU访问内存的时候有一个小窍门,把这个对齐再访问,CPU会执行得更快一些。这些都是基本知识,大家可以百度、Google 一下,不展开。


1.2 并行操作

业内叫做并行操作SIMD,就是单一指令多个数据进行操作。比如一般的加法操作,一次性只能加一个数,但是你要是用上一些向量指令集,就可以一次性操作8个、16个、32个,意味着相同的时间内能操作数据就更多,也就更快,这是很自然的事情。


1.3 硬件加速

算法再好,最多10倍,然而硬件指令是16倍朝上,比如肖伟和弗拉德他们做的优化基本上是借助硬件指令,非常简单粗暴。像马云说的,武功再高,也怕菜刀。


1.4 程序内存分布

  • 构造与其他程序一致

  • TEXT=可执行代码

  • DATA=堆+全局变量

  • frame=函数参数+临时数据

  • stack=Go调度器/信号处理

640?wx_fmt=png

    Go 的内存分布要大致了解,因为汇编是直接对内存进行的操作,所以你需要对内存的位置,哪个位置存什么东西有所了解。其实 Go 怎么使用内存和其他程序是差不多的。最下面的TEXT是存放可知性代码,DATA 是堆和全局变量。唯一不一样的地方是 Go 没有完全使用系统栈,而是拆成 frame 栈帧,栈帧保证程序存的参数和临时数据。那原来系统的栈拿去干嘛了?Go 的调度器和信号处理都是在系统栈上,不在栈帧上。


2. 汇编语法

汇编语法特点

  • 准抽象汇编语言

  • AT&T风格(左到右)

  • 指令 参数×N 目标(N=0...3)

    虽然看起来汇编语法是好复杂,其实是非常简单粗暴的,没有 C++、Java 等一堆术语。对内存直接操作,就是这么简单。实际上Go的汇编语法和Plan9这个操作系统渊源很深,Plan9 操作系统大家可能没有听说过,其实和Go是同一波人做的。

   Go 的汇编语法其实很简单,它是准抽象的汇编语言,为什么叫准抽象?Go 本来的汇编语言是希望大一统,有什么X86-64,Arm64,大家只要写一种汇编语言就可以。实现起来后发现大部分做不到,最后只能保留差异,统一了风格,再输出机器码,所以叫准抽象的汇编语言。再有就是它的AT&T的风格,从左到右的写法,就是指令级在最左边,中间设几个参数,然后放目标寄存器或者目标,其他的嘛,各个平台就完全不一样了。


2.1 汇编语法例子

640?wx_fmt=jpeg  这个函数很复杂,c=a+b,然后返回。第一步怎么做呢?我把这个函数名搬下来,这个英文SB实际上是告诉汇编器是说这个东西是static base,基于静态地址寻址。640?wx_fmt=jpeg刚才讲的TEXT区,这是告诉汇编器说你从这里开始找,不要从别的地方找,汇编器说,行,我直接把地址编进去,就这么简单。640?wx_fmt=jpeg还记得例子里刚才我们看到三个参数,abc,都是 int64,一个 int64多少字节?8个字节哈,所以这个栈帧长24个字节。注意这里有对齐的问题,其他平台不一定是24,不过为了简单理解,我把24放到这里来。


2.2 例子代码讲解

第一步是move指令640?wx_fmt=jpeg

就是把一个数据从一个地方挪到另外一个地方,简单就是把ab两个数据放寄存器R1、R2里面,这里面多一个东西,FP,就是 Frame Pointer,刚才讲到栈帧保存参数和临时存储的数据的地方。640?wx_fmt=jpeg这就是就是FP开始寻址,FP指栈帧的最低位。你把a拿出来,从0开始寻,挪到R1里面,把B拿出来,是不是8个字节,然后就把它存到R2里面。

第三步,R3=a+b。640?wx_fmt=jpeg

最后把R3里面的数据放回C的参数返回,Return。

640?wx_fmt=jpeg640?wx_fmt=jpeg大家到现在就已经学会汇编语言了。

   非常简单,但是大家最好不要这么写,为什么?我用Go写,就一行的事情。你用汇编写内存动来动去,还要算来算去,千万不要用汇编写复杂语言,这很困难。还记得,我们刚才讲的三个汇编优化目标,减少读写、并行操作、硬件加速。


2.3 减少读写

比如 memmove,Go 内建函数 copy,很简单,把一片数据从原地址挪到目标地址,最简单的做法是一个一个搬,从原地址挪8个字节,再搬8个,存进去,再搬8个字节出来,一直循环完为止。这里面会有什么问题?640?wx_fmt=png

塞满寄存器

每次搬8个字节就要走一遍,还要用同一个寄存器,CPU就不高兴了——它的性能就下降

占满流水线

这种现象叫做CPU流水线堵塞,你搬一个用一个,会造成堵塞。怎么解决这个问题?就是疯狂的从源地址能挪多少挪多少,一次性把所有的数据搬到CPU不同寄存器里,再一次性写到目标地址里面去。这样做就可以避免刚才说的流水线的阻塞问题。

处理块数据

  处理块数据对CPU来说是非常容易的事情,它可以把之前操作的数据塞到L1、L2里面去,所以这个寻址速度比主存里面拉出来快很多。640?wx_fmt=png

 这个写起来有点复杂,但是最核心的,arm64平台的寄存器很多,32个,减去Go拿来做内部用途的4个,还给你留下28个。所以你可以一次性的搬28乘以8个字节。代码应该这样写。大家还会注意到,这里怎么性能下降了?这就CPU有关系,各个公司实现的CPU不一样,有些公司偷工减料,不巧我碰上了,所以出现这个问题。根据 arm 的说明书说的,访问未对齐地址不会有任何性能惩罚。最后怎么测?找台CPU比较好的来测,最后高通一个哥们儿给我发数据,说这个优化效果很好,都是有提升的。很遗憾,这个patch没有被官方接受,为什么?就是因为开源协议,因为 Go 用BSD,我参考 glib c这个代码,毕竟这个算法不是我想的,天下代码一乱抄,代码都是从别的地方搬过来的,glibc 用的协议是 GPL,Go 的核心开发就说了,这个用GPL,不行。我辩解过 glibc 也是开源,为什么不能用?官方回复就是我们公司BSD和GPL不能互用,所以这个 patch 没有进入 Go 的 master 里面,很遗憾。640?wx_fmt=png



2.4 并行操作640?wx_fmt=png

给大家举个例子。很简单,一个 uint8的 slice,你把它加起来,放到dst里面,把这个slice的数据全部加起来。这里数据比较复杂,所以我要给大家做一个Demo给大家看。


这里面有三个函数,我们先看第一个,刚才的函数和刚才一模一样,直接摘过来的,下面是空的,意思是告诉汇编器,这里要开始了。凡事都要测试,我把这些数据摆出来,64个,全部塞进去,dst,把64减去原来的i值,最后每个64。这个代码是空的,什么都没有。这个和刚才差不多,Slice的数据结构有人了解过吗?一共占用三个数字而已。刚才的函数大家还记得吗?两个slice,从第一个slice里面读是从0号位开始读,我从第二个slice里面读是从第二位开始读,大家不明白也可以。你暂时理解为把两个指针塞到R1和R3里面。接下来我把R1和R3里面的数据分别载入到4个向量寄存器里面,也就是一共是8个,载入进来以后,最后做一个向量加的操作,最后把这些数据塞回给R1。最后是返回操作。你要开发Go的master代码,可能需要一些Go最新的编译器。测试的结果没有问题。

   看一下效果,上面的函数,刚才用Go实现的版本,下面这个是用向量加的方式加的,这两个函数只差一个函数名。这个吞吐量原来用Go实现的,原来285MB/S,用向量,3GB/s,效果提升了10倍。其实真正的优化不会有这么高,这是在你的算法和数据结构实现好的情况下,差不多才有这个性能提升。

   可能大家有点印象,几个文件的名字有点奇怪,为什么在后面加了arm64?这是告诉汇编器只能在arm64编译,其他的平台不要动它。

   benchmark很重要,你觉得代码、数据结构很好,但是测出来不行,为啥?这就需要测试和benchmark来找出来。

2.5 GDB Debug

Go 写的代码,比如二进制程序进来,gdb下怎么运行程序?run一下。

你在某一行、某一个地方想打断点,这对汇编程序很重要,用 break。

想试试看接下来怎么运行,Go 做得很好的地方是连汇编都能按一行行执行, 用n ext。

有时候 Go 的优化里面会用到寄存器,那么查看寄存器是 info register。

有时候你要全局变量那些东西怎么查看?用 eXamine 查看全局变量的地址或者寄存器,以寄存器为主来做这个东西。

   最后是硬件加速,时间有限就不展开了,还有硬件加速是非常难的事情,你要对特定的CPU 的指令集非常了解。

   以上是所有内容,谢谢大家!

 

【提问环节】

问:汇编看不懂,很多对不上。 

蒙卓:右边的图是一个示例,具体到里面讲解到的所谓栈帧的实现是每个平台都不一样,我后面的参考资料里面有,国内滴滴的开发曹同学 (xargin) 的也研究过,发现 X86和 arm64连栈帧的实现都不一样,这个真得看源代码。

提问:看编译器的代码?

蒙卓:不是,看 runtime 的代码,它上面有些文档,但是不全。如果你真的有疑问,可以用GDB跟着跑一次就知道了。

提问:很多参数是一次性加载的,减少了读,是不是以空间换时间的方式?会不会耗费大量的空间? 

蒙卓:对,用寄存器空间换执行时间。寄存器就是拿来塞东西的,我这么好好的用他们,不是很好吗?

 

提问:汇编这块要怎么用让我们学习?因为我本身也看过个官方的源码,如果我把源码拿去debug,行不行,怎么做?

蒙卓:可行,就用GDB,日志看不到,但是看函数行为、打断点都可行。


提问:这个我找资料可以看到,现在拿到Go语言的源码,怎么跑起来?然后我在Go语言里面,比如举个场景,现在Go语言的语法可能想看一下语法怎么运作,甚至怎么编译的,这个要怎么调试才能看到?

蒙卓:Go本身只是一个编译器,编译出来的东西是都是计算机可执行,这涉及三个环节,一个是编译器,一个是连接器,还有最后可执行文件(打包),要看三个部分(的代码)。就是说你知道Go的源代码没有问题,但本身只是编译,只是把Go的语言、语句变成二进制的文件而已,就这么简单。你刚才说的怎么编译的过程?

提问:怎么变的。

蒙卓:要看Go下面编译器的代码。

提问:我要看怎么跑起来,通过IDE的方式看得到它的执行步骤。 

蒙卓:IDE的方式,那就是跟Go其他程序一样,比如Go run什么的。 

提问:我没有跑成功过。我就想分析它的语法术,看它编译原理是什么样。语法这些我知道官方有,但是我想自己改变它的语法,重新实现一套,增加自己内测的语法功能。

其他观众:Go里面有专门AST包。

蒙卓:你要研究的部分,从语法分析直到编译的环节,Go官方自己的文档里面有的,源代码都在 golang.org/pkg/go 里面。

版权声明:本文来源CSDN,感谢博主原创文章,遵循 CC 4.0 by-sa 版权协议,转载请附上原文出处链接和本声明。
原文链接:https://blog.csdn.net/RA681t58CJxsgCkJ31/article/details/80681967
站方申明:本站部分内容来自社区用户分享,若涉及侵权,请联系站方删除。
  • 发表于 2020-06-27 19:44:46
  • 阅读 ( 797 )
  • 分类:Go

0 条评论

请先 登录 后评论

官方社群

GO教程

猜你喜欢