随着 Go1.18 发布,泛型已经到来。
一组新的排序函数也已经进入 Go[1]的 golang.org/x/exp/slices[2] 包。这些函数利用 Go 泛型提供更符合人体工程学的排序 API(无需用户实现sort.Interface[3]),并且还提供了不错的性能改进,如上面 CL 所示。
在这篇文章中,我将深入探讨为什么这些泛型函数比 sort
包中的现有函数更快,即使它们使用完全相同的算法和循环结构。希望这能成为一个有趣的一幕,与现有的动态调度机制(接口)相比,Go 泛型是如何实现的。
为了将我们的讨论与 Go 标准库和实验存储库的混乱细节分离,并能够专注于更小、更简单的代码示例,我在更简单的排序算法上重新实现了此比较,其中性能差异也体现在后面。
首先是冒泡排序。
Bubblesort animation from Wikipedia
这篇文章的完整代码,以及测试和基准测试都可以在GitHub上找到[4]。下面是一个简单的气泡排序实现,使用 Go 中的 sort.Interface 接口进行自定义:
func bubbleSortInterface(x sort.Interface) {
n := x.Len()
for {
swapped := false
for i := 1; i < n; i++ {
if x.Less(i, i-1) {
x.Swap(i, i-1)
swapped = true
}
}
if !swapped {
return
}
}
}
sort.Interface[5] 是在 Go 的 sort
包中定义的接口,如下所示:
type Interface interface {
Len() int
Less(i, j int) bool
Swap(i, j int)
}
sort
包还提供了有用的类型适配器来填充 sort.Interface
到常见切片类型。例如,sort.StringSlice
使 []string
以升序对元素进行排序的方式实现此接口,我们可以编写如下内容:
var ss []string
// ... code that populates ss
bubbleSortInterface(sort.StringSlice(ss))
下面是一个泛型版气泡排序,用于约束 constraints.Ordered 类型的切片。
func bubbleSortGeneric[T constraints.Ordered](x []T "T constraints.Ordered") {
n := len(x)
for {
swapped := false
for i := 1; i < n; i++ {
if x[i] < x[i-1] {
x[i-1], x[i] = x[i], x[i-1]
swapped = true
}
}
if !swapped {
return
}
}
}
代码逻辑相同,除了我们可以使用 len
,<
并直接与多个赋值交换,而不是用接口方法。这是可以的,因为该函数知道有关其排序内容的重要事项:它是一个切片,并且它还实现了 Ordered
。
我通过对随机生成的 1000 个字符串的切片进行排序,对这两个实现进行了基准测试。这是我的机器上的结果:
$ go test -bench=.
goos: linux
goarch: amd64
pkg: example.com
cpu: Intel(R) Core(TM) i7-4771 CPU @ 3.50GHz
BenchmarkSortStringInterface-8 124 9599141 ns/op
BenchmarkSortStringGeneric-8 158 7433097 ns/op
泛型版本的速度提高了 20% 以上。总的来说,这是个好消息。Go 泛型不仅提供了一种方便的方法来编写作用于多种类型的代码,而且还可以提供性能优势!
在本文的其余部分,我们将讨论为什么泛型在这里更快。
在本文附带的代码[6]中,我有一个独立的运行程序,可用于分析。它创建一个大切片,并使用命令行上提供的方法之一对其进行排序。它还支持基于 pprof 的 CPU 分析。让我们看看基于接口的冒泡排序:
$ ./bubble.out -cpuprofile cpui.out -kind strinterface
$ go tool pprof -list bubbleSortInterface ./bubble.out cpui.out
<...>
ROUTINE ======================== main.bubbleSortInterface
350ms 1.10s (flat, cum) 100% of Total
. . 26:
. . 27:func bubbleSortInterface(x sort.Interface) {
. . 28: n := x.Len()
. . 29: for {
. . 30: swapped := false
70ms 70ms 31: for i := 1; i < n; i++ {
160ms 830ms 32: if x.Less(i, i-1) {
20ms 100ms 33: x.Swap(i, i-1)
. . 34: swapped = true
. . 35: }
. . 36: }
100ms 100ms 37: if !swapped {
. . 38: return
. . 39: }
. . 40: }
. . 41:}
. . 42:
如预期的那样,该程序将大部分时间花在内部循环中进行比较和交换,但大多数只是比较。冒泡排序对长度为 N 的序列进行 O(N^2) 次比较。
如果大部分时间都花在比较上,那么研究这实际上意味着什么会很有趣。在此代码中调用 x.Less
时,CPU 执行哪些指令?幸运的是,我最近写了另一篇关于这个主题的博客文章[7]!我建议你至少略读它,但对于我们的目的来说,重要的部分是调用 x.Less
的指令序列:
MOVQ 0x48(SP), DX
MOVQ 0x20(DX), SI
LEAQ -0x1(CX), DI
MOVQ DI, 0x30(SP)
MOVQ 0x50(SP), AX
MOVQ CX, BX
MOVQ DI, CX
NOPL
CALL SI
在我们的代码中,运行 bubbleSortInterface(sort.StringSlice(ss))
,所以我们必须转向 sort.StringSlice
,用于定义将要调用的实际 Less
方法:
func (x StringSlice) Less(i, j int) bool { return x[i] < x[j] }
汇编代码看起来像这样:
CMPQ 0x10(R14), SP
JBE 0x4664d1
SUBQ $0x28, SP
MOVQ BP, 0x20(SP)
LEAQ 0x20(SP), BP
MOVQ AX, 0x30(SP)
CMPQ DI, BX
JBE 0x4664c5
SHLQ $0x4, DI
MOVQ 0(DI)(AX*1), DX
MOVQ 0x8(DI)(AX*1), R8
CMPQ SI, BX
JBE 0x4664b8
SHLQ $0x4, SI
MOVQ 0(AX)(SI*1), CX
MOVQ 0x8(AX)(SI*1), DI
MOVQ DX, AX
MOVQ R8, BX
CALL runtime.cmpstring(SB)
TESTQ AX, AX
SETL AL
MOVQ 0x20(SP), BP
ADDQ $0x28, SP
RET
如果这看起来比你预期的要长,那是因为 Go 中的切片索引受到保护,防止越界访问,而我们在函数开头看到的比较正是 - 跳转到调用 runtime.panicIndex
的部分代码(为简洁起见,我没有包括)。最后,通过调用 runtime.cmpstring
执行实际的字符串比较。就其本身而言,这是一个非常有趣的函数,它是在通用架构(例如 AMD64[8])的汇编中实现的,但是让我们在这里停止,因为这部分将在我们正在比较的两个实现中共享。
现在,我们应该相当全面地了解了 CPU 在使用接口调度版本运行冒泡排序时花费时间的位置。现在让我们看看泛型版本。
Russ Cox 有一篇简短而优秀的博客文章,标题 The Generic Dilemma[9]。它的主要观点是,当一种语言决定是否拥有泛型以及如何实现它们时,它面临着以下决定:
你是否想要缓慢程序员,缓慢编译器和臃肿的二进制文件,或者缓慢的执行时间?
“缓慢编译器和臃肿的二进制文件”是指通过完全单态化[10]实现模板的 C++ 方法 —— 每个模板调用都被视为宏扩展,其完整代码复制粘贴正确的类型。
“缓慢的执行时间”是指 Java 的装箱方法,或动态语言,其中代码由于每次调用时的透明动态调度而变得微不足道。
请注意,这些描述都不是贬义的。这些都是语言设计师面临的真正权衡,包括 Go。
具体来说,Go 已经认真考虑了单态化(在 Go 世界中称为“stempciling”)和动态调度(在 Go 世界中称为“字典”):
由于上述原因,这两种方法本身都不是完美的。因此,提出了另一种设计:
“GC shape” 方法是模板和字典两个极端之间的折衷。根据实例化的类型,我们要么单态化,要么使用动态调度。有一个更新的文档[14]详细介绍了 Go 1.18 如何执行此操作。
具体来说,不同的底层类型(如 int
和 string
)将获得自己的 GC Shape,这意味着将为每个类型生成不同的函数,这些类型是硬编码的(因此这是单态化)。另一方面,所有指针类型都将分组为相同的 GC Shape,并将使用动态调度。
请注意,这是 Go 1.18 中的状态,它可能会,而且很可能在未来会改变,因为 Go 团队正在与社区协同,以了解最适合现实生活中工作负载的方法。
如果我们使用 pprof 来分析泛型版本,我们将看到它也花费了大部分时间进行比较,但总体上比接口版本花费的时间少。
如上一节所述,string
类型将获得自己的 GC shape,因此其自己的函数将针对 string
类型进行硬编码。让我们看看汇编是怎样的。
首先,翻阅二进制文件的调试信息,我们将找到符号 bubbleSortGeneric[go.shape.string_0]
,它表示 bubbleSortGeneric
的模板版本,用于 string
当前唯一的成员的 GC shape。但是,我们不会将其作为要调用的独立函数,因为它已内联到其调用站点中。此内联不会以任何方式影响性能,因此我们只关注内部循环的说明,为了提醒你,这些指令会执行以下操作:
for i := 1; i < n; i++ {
if x[i] < x[i-1] {
x[i-1], x[i] = x[i], x[i-1]
swapped = true
}
}
它转换为此如下汇编:
MOVQ 0x80(SP), R8
INCQ R8
MOVQ 0x70(SP), CX
MOVQ 0x78(SP), BX
MOVQ R8, DX
MOVL AX, SI
MOVQ 0xb0(SP), AX
CMPQ DX, BX
JLE 0x4aef20
MOVQ DX, 0x80(SP)
MOVB SI, 0x3d(SP)
MOVQ DX, SI
SHLQ $0x4, DX
MOVQ DX, 0x90(SP)
MOVQ 0(DX)(AX*1), R8
MOVQ 0x8(DX)(AX*1), BX
LEAQ -0x1(SI), R9
SHLQ $0x4, R9
MOVQ R9, 0x88(SP)
MOVQ 0(R9)(AX*1), CX
MOVQ 0x8(R9)(AX*1), DI
MOVQ R8, AX
CALL runtime.cmpstring(SB)
MOVQ 0xb0(SP), DX
MOVQ 0x90(SP), SI
LEAQ 0(SI)(DX*1), DI
MOVQ 0x88(SP), R8
LEAQ 0(R8)(DX*1), R9
TESTQ AX, AX
JGE 0x4af01a
首先要注意的是,没有向 Less
方法发送动态调度。每次循环迭代都直接调用 cmpstring
。其次,汇编的后半部分类似于前面显示的 Less
代码,但有一个关键区别 ——没有边界检查!Go 包括一个边界检查消除 (BCE) 通行证[15],它可以摆脱边界检查进行比较:
// ... earlier we had n := len(x)
for i := 1; i < n; i++ {
if x[i] < x[i-1] {
编译器知道 i
始终介于 1 和 len(x)
之间(通过查看循环描述和 i
以其他方式修改的事实),因此 x[i]
和 x[i-1]
都可以安全地访问切片内边界。
在接口版本中,编译器不会从 Less
中删除边界检查。该函数的定义如下:
func (x StringSlice) Less(i, j int) bool { return x[i] < x[j] }
谁知道会传递哪些指数!此外,由于动态调度,此函数未内联其调用方,编译器可以更深入地了解正在发生的事情。Go 编译器具有一些去冗长化功能,但它们在这里不起作用。这是编译器改进的另一个有趣的领域。
为了验证前面描述的一些观察结果,我实现了泛型冒泡排序的另一个版本。这一次,不依赖于 constraints.Ordered
,但改用比较函数:
func bubbleSortFunc[T any](x []T, less func(a, b T "T any") bool) {
n := len(x)
for {
swapped := false
for i := 1; i < n; i++ {
if less(x[i], x[i-1]) {
x[i-1], x[i] = x[i], x[i-1]
swapped = true
}
}
if !swapped {
return
}
}
}
我们可以使用此函数对字符串进行排序,如下所示:
bubbleSortFunc(ss, func(a, b string) bool { return a < b })
在阅读以下内容之前,你能否猜出与使用 <
的泛型排序以及基于接口的排序相比,这种方法在基准测试中的表现如何?
$ go test -bench=.
goos: linux
goarch: amd64
pkg: example.com
cpu: Intel(R) Core(TM) i7-4771 CPU @ 3.50GHz
BenchmarkSortStringInterface-8 124 9599141 ns/op
BenchmarkSortStringGeneric-8 158 7433097 ns/op
BenchmarkSortStringFunc-8 138 8584866 ns/op
它大约在中间!比其他泛型函数慢 14%,但比基于接口的版本快 10%。
在查看其汇编代码时,很容易看出原因。虽然基于函数的版本不会避免每次比较的函数调用(它必须调用作为参数提供的函数),但它确实避免了边界检查,因为对 x[i]
和 x[i-1]
的访问发生在函数的主体内(而不是在它调用的函数中)。所以我们获得了部分胜利。
这种比较具有有趣的现实意义,因为 SortFunc
也是添加到 golang.org/exp/slices
的变体,以提供更通用的排序功能(对于不受约束的类型)。此版本还提供了针对 sort.Sort
排序的加速。
另一个含义是用于对指针类型进行排序。如前所述,1.18 中的 Go 编译器会将所有指针类型分组到一个 GC Shape 中,这意味着它需要传递字典才能进行动态调度。这可能会使代码变慢,尽管 BCE 仍然应该启动 —— 所以不会慢很多。我在代码库[16]中有一个基准测试来演示这一点。
最后,作为一个简单的练习 - 采用此处显示的冒泡排序函数,并使用泛型函数与基于接口的函数对大片整数进行基准排序。你可能会看到相比字符串,泛型有大规模加速。你能弄清楚为什么吗?
由 Planetscale 工程师撰写的这篇文章[17]描述了一些场景,在这些场景中,将单态代码转换为泛型会使其明显变慢。这是一篇非常好的文章,值得一读(我喜欢反汇编小部件)。
值得一提的是,Go 中的泛型是非常新的。我们现在使用的是最近发布的初始实现!第一个版本专注于使泛型完全正常工作,并花费了大量精力来校正许多棘手的角落情况。性能[18]也是有计划的,但现在还不是最高优先级。
也就是说,实施工作在不断变化,并且一直在改进。例如,这个 Go 更改[19] 将进入 Go 1.19,已经修复了 Planetscale 文章中讨论的一些问题。另一方面,由于 The Generic Dilemma 中讨论的原因,Go 的泛型在所有可能的情况下都不太可能是“零成本”的。Go 非常重视快速的编译时间和紧凑的二进制大小,因此它必须对任何设计进行一定的权衡。
[1]也已经进入 Go: https://go-review.googlesource.com/c/exp/+/378134
[2]golang.org/x/exp/slices: https://pkg.go.dev/golang.org/x/exp/slices
[3]sort.Interface: https://pkg.go.dev/sort#Interface
[4]都可以在GitHub上找到: https://github.com/eliben/code-for-blog/tree/master/2022/genericsort
[5]sort.Interface: https://pkg.go.dev/sort#Interface
[6]本文附带的代码: https://github.com/eliben/code-for-blog/tree/master/2022/genericsort
[7]另一篇关于这个主题的博客文章: https://eli.thegreenplace.net/2022/interface-method-calls-with-the-go-register-abi/
[8]例如 AMD64: https://cs.opensource.google/go/go/+/master:src/internal/bytealg/compare_amd64.s;l=19?q=cmpstring&ss=go%2Fgo&start=11
[9]The Generic Dilemma: https://research.swtch.com/generic
[10]完全单态化: https://en.wikipedia.org/wiki/Monomorphization
[11]泛型实现 - 模板设计文档: https://go.googlesource.com/proposal/+/refs/heads/master/design/generics-implementation-stenciling.md
[12]泛型实现 - 字典设计文档: https://go.googlesource.com/proposal/+/refs/heads/master/design/generics-implementation-dictionaries.md
[13]泛型实现 - GC Shape Stenciling: https://github.com/golang/proposal/blob/master/design/generics-implementation-gcshape.md
[14]个更新的文档: https://github.com/golang/proposal/blob/master/design/generics-implementation-dictionaries-go1.18.md
[15]边界检查消除 (BCE) 通行证: https://go101.org/article/bounds-check-elimination.html
[16]代码库: https://github.com/eliben/code-for-blog/tree/master/2022/genericsort
[17]由 Planetscale 工程师撰写的这篇文章: https://planetscale.com/blog/generics-can-make-your-go-code-slower
[18]性能: https://wiki.c2.com/?MakeItWorkMakeItRightMakeItFast
[19]这个 Go 更改: https://go-review.googlesource.com/c/go/+/385274
本文由哈喽比特于2年以前收录,如有侵权请联系我们。
文章来源:https://mp.weixin.qq.com/s/1uT7rUAU9LDs_8bND8NBtQ
京东创始人刘强东和其妻子章泽天最近成为了互联网舆论关注的焦点。有关他们“移民美国”和在美国购买豪宅的传言在互联网上广泛传播。然而,京东官方通过微博发言人发布的消息澄清了这些传言,称这些言论纯属虚假信息和蓄意捏造。
日前,据博主“@超能数码君老周”爆料,国内三大运营商中国移动、中国电信和中国联通预计将集体采购百万台规模的华为Mate60系列手机。
据报道,荷兰半导体设备公司ASML正看到美国对华遏制政策的负面影响。阿斯麦(ASML)CEO彼得·温宁克在一档电视节目中分享了他对中国大陆问题以及该公司面临的出口管制和保护主义的看法。彼得曾在多个场合表达了他对出口管制以及中荷经济关系的担忧。
今年早些时候,抖音悄然上线了一款名为“青桃”的 App,Slogan 为“看见你的热爱”,根据应用介绍可知,“青桃”是一个属于年轻人的兴趣知识视频平台,由抖音官方出品的中长视频关联版本,整体风格有些类似B站。
日前,威马汽车首席数据官梅松林转发了一份“世界各国地区拥车率排行榜”,同时,他发文表示:中国汽车普及率低于非洲国家尼日利亚,每百户家庭仅17户有车。意大利世界排名第一,每十户中九户有车。
近日,一项新的研究发现,维生素 C 和 E 等抗氧化剂会激活一种机制,刺激癌症肿瘤中新血管的生长,帮助它们生长和扩散。
据媒体援引消息人士报道,苹果公司正在测试使用3D打印技术来生产其智能手表的钢质底盘。消息传出后,3D系统一度大涨超10%,不过截至周三收盘,该股涨幅回落至2%以内。
9月2日,坐拥千万粉丝的网红主播“秀才”账号被封禁,在社交媒体平台上引发热议。平台相关负责人表示,“秀才”账号违反平台相关规定,已封禁。据知情人士透露,秀才近期被举报存在违法行为,这可能是他被封禁的部分原因。据悉,“秀才”年龄39岁,是安徽省亳州市蒙城县人,抖音网红,粉丝数量超1200万。他曾被称为“中老年...
9月3日消息,亚马逊的一些股东,包括持有该公司股票的一家养老基金,日前对亚马逊、其创始人贝索斯和其董事会提起诉讼,指控他们在为 Project Kuiper 卫星星座项目购买发射服务时“违反了信义义务”。
据消息,为推广自家应用,苹果现推出了一个名为“Apps by Apple”的网站,展示了苹果为旗下产品(如 iPhone、iPad、Apple Watch、Mac 和 Apple TV)开发的各种应用程序。
特斯拉本周在美国大幅下调Model S和X售价,引发了该公司一些最坚定支持者的不满。知名特斯拉多头、未来基金(Future Fund)管理合伙人加里·布莱克发帖称,降价是一种“短期麻醉剂”,会让潜在客户等待进一步降价。
据外媒9月2日报道,荷兰半导体设备制造商阿斯麦称,尽管荷兰政府颁布的半导体设备出口管制新规9月正式生效,但该公司已获得在2023年底以前向中国运送受限制芯片制造机器的许可。
近日,根据美国证券交易委员会的文件显示,苹果卫星服务提供商 Globalstar 近期向马斯克旗下的 SpaceX 支付 6400 万美元(约 4.65 亿元人民币)。用于在 2023-2025 年期间,发射卫星,进一步扩展苹果 iPhone 系列的 SOS 卫星服务。
据报道,马斯克旗下社交平台𝕏(推特)日前调整了隐私政策,允许 𝕏 使用用户发布的信息来训练其人工智能(AI)模型。新的隐私政策将于 9 月 29 日生效。新政策规定,𝕏可能会使用所收集到的平台信息和公开可用的信息,来帮助训练 𝕏 的机器学习或人工智能模型。
9月2日,荣耀CEO赵明在采访中谈及华为手机回归时表示,替老同事们高兴,觉得手机行业,由于华为的回归,让竞争充满了更多的可能性和更多的魅力,对行业来说也是件好事。
《自然》30日发表的一篇论文报道了一个名为Swift的人工智能(AI)系统,该系统驾驶无人机的能力可在真实世界中一对一冠军赛里战胜人类对手。
近日,非营利组织纽约真菌学会(NYMS)发出警告,表示亚马逊为代表的电商平台上,充斥着各种AI生成的蘑菇觅食科普书籍,其中存在诸多错误。
社交媒体平台𝕏(原推特)新隐私政策提到:“在您同意的情况下,我们可能出于安全、安保和身份识别目的收集和使用您的生物识别信息。”
2023年德国柏林消费电子展上,各大企业都带来了最新的理念和产品,而高端化、本土化的中国产品正在不断吸引欧洲等国际市场的目光。
罗永浩日前在直播中吐槽苹果即将推出的 iPhone 新品,具体内容为:“以我对我‘子公司’的了解,我认为 iPhone 15 跟 iPhone 14 不会有什么区别的,除了序(列)号变了,这个‘不要脸’的东西,这个‘臭厨子’。