BPF 迭代器实现了高性能的内核内数据检索和聚合。在本篇博文中,我们谈论了开发 BPF 迭代器工具背后的动机,并展示如何使用其从用户空间来灵活有效地遍历内核数据。
现有少数方法可以将内核数据复制到到用户空间。最流行是通过 /proc 系统,例如可通过 "cat /proc/net/tcp6" 或者 "cat /proc/net/netlink" 命令打印系统中所有的 tcp6 或 netlink 套接字信息。然而,这种方式输出格式往往是固定的,如果用户想获得关于这些套接字的更多信息,就必须通过给内核打补丁的方式实现,这将涉及到上游和发布,往往需要很长的时间。对于像 ss 这样的流行工具也是如此,任何额外的信息都需要修改内核提交补丁。
drgn[1] 工具可在不修改内核的情况下打印出内核数据,一定程度解决了该问题。但是,drgn 的主要缺点是性能,而且也不能在内核内进行指针追踪。此外,如果指针在内核内变得无效,drgn 可能会产生错误的结果。
BPF 迭代器可用来解决上述相关问题,其提供了对内核中特定数据结构进行一次性修改的灵活性,并且可在内核内进行指针追踪。灵活性是通过使用 BPF 程序实现的,正确性则是通过在内核内实现指针追踪,并通过适当的引用计数[2]或锁保护来确保指针跟踪有效。在目前的状态下,迭代器只改变了内核中一小部分的数据结构。
内核代码中的 BPF selftests[3] 目录提供了很好的用户空间使用 BPF 迭代器的样例。通常,你需要先实现一个 BPF 程序。
以下是几个 selftest 中 BPF 程序的样例:
这里,我们以 bpf_iter_task_file.c 文件为例,用于遍历系统任务中打开的文件相关信息:
SEC("iter/task_file")
int dump_task_file(struct bpf_iter__task_file *ctx)
{
struct seq_file *seq = ctx->meta->seq;
struct task_struct *task = ctx->task;
__u32 fd = ctx->fd;
struct file *file = ctx->file;
...
}
在上面的例子中,SEC("iter/task_file")
字段表示该程序是一个 BPF 迭代器程序,可用来迭代所有任务的所有文件。该程序的上下文是 bpf_iter__task_file
。你可以在 vmlinux.h
中找到 bpf_iter__task_file
结构体的定义:
struct bpf_iter__task_file {
union {
struct bpf_iter_meta *meta;
};
union {
struct task_struct *task;
};
u32 fd;
union {
struct file *file;
};
};
在上面的代码中,字段变量名 meta
代表元数据,对所有 BPF 迭代器程序都是一样的。其余的字段则取决于不同的迭代器。例如,对于task_file
迭代器,内核层提供 task
、fd
和 file
相关字段。task
和 file
是基于应用计数的[7],所以它们在 BPF 程序运行时不会消失。
编写 BPF 迭代器程序后,我们还需要编写用户空间部分代码,用来触发 BPF 程序运行并收集数据。selftest 目录中的 bpf_iter.c[8] 提供了一个编写对应用户空间部分的例子。以下说明了一个典型的顺序:
BPF 迭代器使用内核的 seq_file
来传递数据至用户空间。该数据可以是一个格式化的字符串或原始数据。在格式化字符串的情况下,你可以使用 bpftool iter[9] 子命令来创建并通过 bpf_link
将一个 BPF 迭代器固定在 BPF 文件系统(bpffs)[10]的路径上。然后你可以使用 cat <path>
来打印结果,例如 cat /proc/net/netlink
这种方式。
例如,你可以使用下面的命令将 bpf_iter_ipv6_route.o
对象文件中的 BPF 程序输出到文件 /sys/fs/bpf/my_route
。
$ bpftool iter pin ./bpf_iter_ipv6_route.o /sys/fs/bpf/my_route
然后用以下命令打印出结果:
$ cat /sys/fs/bpf/my_route
为了在内核中实现一个 BPF 迭代器,开发者必须填写以下定义在 bpf.h[11] 文件中的关键数据结构。
struct bpf_iter_reg {
const char *target;
bpf_iter_attach_target_t attach_target;
bpf_iter_detach_target_t detach_target;
bpf_iter_show_fdinfo_t show_fdinfo;
bpf_iter_fill_link_info_t fill_link_info;
bpf_iter_get_func_proto_t get_func_proto;
u32 ctx_arg_info_size;
u32 feature;
struct bpf_ctx_arg_aux ctx_arg_info[BPF_ITER_CTX_ARG_MAX];
const struct bpf_iter_seq_info *seq_info;
};
在数据结构字段设置后,然后调用 bpf_iter_reg_target()
将迭代器注册到主 BPF 迭代器子系统。
下面是结构 bpf_iter_reg
中每个字段的解释:
字段 | 描述 |
---|---|
target | 指定 BPF 迭代器的名称。例如:bpf_map,bpf_map_elem 该名字应该与内核中其他 bpf_iter 目标名称不能相同。 |
attach_target 和 detach_target | 允许特定目标的 link_create 动作,因为有些目标可能需要特殊处理。在用户空间 link_create 阶段调用。 |
show_fdinfo 和 fill_link_info | 当用户试图获得与迭代器相关的链接信息时,会被调用以填充目标的具体信息。 |
get_func_proto | 允许 BPF 迭代器访问特定于该迭代器的 BPF 辅助函数。 |
ctx_arg_info_size 和 ctx_arg_info | 指定与 BPF 迭代器相关的 BPF 程序参数的验证器状态。 |
feature | 指定内核 BPF 迭代器基础设施中的某些动作请求。目前,只有 BPF_ITER_RESCHED 被支持。这意味着内核函数 cond_resched() 被调用,以避免其他内核子系统(如 rcu)的错误行为。 |
seq_info | 指定内核 BPF 迭代器基础设施中的某些动作请求。目前,只有 BPF_ITER_RESCHED 被支持。这意味着内核函数 cond_resched() 被调用,以避免其他内核子系统(如 rcu)的错误行为。 |
点击这里[12]可查看内核中 task_vma
BPF 迭代器的实现。
下面列出了最新的上游内核中可用的 BPF 迭代器,按 BPF 程序部分名称分组:
迭代器的测试程序参见 bpf_iter.c[13] 文件。
表格有调整,增加了说明和代码实现,添加了 bpf_link 和 ksym 迭代器。
迭代器类型 | 说明 | 代码实现 | 可使用的上游迭代器 |
---|---|---|---|
iter/bpf_prog | 遍历内核中的 BPF 程序 | kernel/bpf/prog_iter.c[14] | iterators.bpf.c[15] |
ter/bpf_map | 遍历内核中的 BPF Map 对象 | kernel/bpf/map_iter.c[16] | bpf_iter_bpf_map.c[17] |
iter/bpf_map_elem | 遍历内核中的 BPF Map 中的元素 | kernel/bpf/map_iter.c[18] | bpf_iter_bpf_hash_map.c[19] bpf_iter_bpf_array_map.c[20] bpf_iter_bpf_percpu_hash_map.c[21] |
iter/bpf_sk_storage_map | 遍历内核中 BPF SK 本地存储结构 [参见提交[22]] | net/core/bpf_sk_storage.c[23] | bpf_iter_bpf_sk_storage_map.c[24] |
iter/task | 遍历内核中的任务 | kernel/bpf/task_iter.c[25] | bpf_iter_task.c[26] bpf_iter_task_stack.c[27] |
iter/task_file | 遍历任务中文件信息 | kernel/bpf/task_iter.c[28] | bpf_iter_task_file.c[29] |
iter/task_vma | 遍历内核中任务的内存分布 | kernel/bpf/task_iter.c[30] | bpf_iter_task_vma.c[31] |
iter/tcp | 遍历内核中 TCP 结构信息 | net/ipv4/tcp_ipv4.c[32] | progs/bpf_iter_tcp4.c[33] progs/bpf_iter_tcp6.c[34] |
iter/udp | 遍历内核中 UDP 结构信息 | net/ipv4/udp.c[35] | bpf_iter_udp4.c[36] bpf_iter_udp6.c[37] |
iter/unix | 遍历内核中 Unix 域结构信息 | net/unix/af_unix.c[38] | bpf_iter_unix.c[39] |
iter/netlink | 遍历内核中 Netllink 结构信息 | net/netlink/af_netlink.c[40] | bpf_iter_netlink.c[41] |
iter/ipv6_route | 遍历内核中 IPv6 路由结构信息 | net/ipv6/route.c[42] | bpf_iter_ipv6_route.c[43] |
iter/sockmap | 遍历内核中的 sockmap 结构 | net/core/sock_map.c[44] | bpf_iter_sockmap.c[45] |
iter/bpf_link (内核 5.19) | 遍历 BPF Link 数据结构 | kernel/bpf/link_iter.c[46] commit[47] | bpf_iter_bpf_link.c[48] |
iter/ksym(内核 6.0) | 遍历内核 ksym 符号信息 | kernel/kallsyms.c[49] commit[50] | bpf_iter_ksym.c[51] |
备注:所有实现的迭代都会调用 bpf_iter_reg_target 函数注册,可以从源码搜索该函数快速找到实现文件。截止到内核 5.15 版本实现了 13 种迭代器,其中 bpf_prog/bpf_map 为 BPF 预实现和加载的迭代器(参见文件 kernel/bpf/preload/iterators/iterators.bpf.c),后续添加的还有 iter/bpf_link(Linux 5.19)[52], iter/ksym(Linux 6.0)[53]等等。
在 Meta ,我们基于 bpftool 工具使用 BPF task_file
迭代器来显示引用特定 BPF program/map/link 的进程号。
sudo bpftool prog
显示的输出如下所示:
1254794: kprobe name trace_connect_v tag b81e89cf4f522e62 gpl run_time_ns
27119 run_cnt 30
loaded_at 2022-02-13T10:54:46-0800 uid 0
xlated 640B jited 374B memlock 4096B map_ids 732740,732739
btf_id 1163033
pids python3.8(443701)
1254795: kprobe name trace_connect_v tag a12d26e14608b148 gpl run_time_ns
1662739 run_cnt 2552
loaded_at 2022-02-13T10:54:46-0800 uid 0
xlated 648B jited 382B memlock 4096B map_ids 732740,732738
btf_id 1163033
pids python3.8(443701)
我们还开发了基于 bpf_sk_storage
和 task_iter
迭代器分别开发了工具 fbflow 和 dyno 。其中基于 task_iter 迭代器实现的 dyno 中的 task_iter,与所有任务的基于 netlink 的 taskstats[54] 的旧方式相比,性能有了明显的改善。
有上游讨论为 bpf_links
实现一个 BPF 迭代器【备注:已经合入 5.19 内核详见 bpf: Add bpf_link iterator[55]】。我们也看到有人为 mounts 实现了一个 BPF 迭代器(还没有上游化)。随着人们发现更多的用例,我们期待更多的用户在内核中实现 BPF 迭代器。
[1]drgn: https://developers.facebook.com/blog/post/2021/12/09/drgn-how-linux-kernel-team-meta-debugs-kernel-scale/
[2]引用计数: https://facebookmicrosites.github.io/bpf/blog/2018/08/31/object-lifetime.html#bpffs
[3]selftests: https://www.kernel.org/doc/html/latest/dev-tools/kselftest.html
[4]bpf_iter_tcp4.c: https://github.com/torvalds/linux/blob/master/tools/testing/selftests/bpf/progs/bpf_iter_tcp4.c
[5]bpf_iter_task_vma.c: https://github.com/torvalds/linux/blob/master/tools/testing/selftests/bpf/progs/bpf_iter_task_vma.c
[6]bpf_iter_task_file.c: https://github.com/torvalds/linux/blob/master/tools/testing/selftests/bpf/progs/bpf_iter_task_file.c
[7]基于应用计数的: https://facebookmicrosites.github.io/bpf/blog/2018/08/31/object-lifetime.html#bpffs
[8]bpf_iter.c: https://github.com/torvalds/linux/blob/master/tools/testing/selftests/bpf/prog_tests/bpf_iter.c
[9]bpftool iter: https://www.mankier.com/8/bpftool-iter
[10]BPF 文件系统(bpffs): https://facebookmicrosites.github.io/bpf/blog/2018/08/31/object-lifetime.html#bpffs
[11]bpf.h: https://github.com/torvalds/linux/blob/master/include/linux/bpf.h
[12]点击这里: https://lore.kernel.org/bpf/20210212183107.50963-2-songliubraving@fb.com/
[13]bpf_iter.c: https://github.com/torvalds/linux/blob/master/tools/testing/selftests/bpf/prog_tests/bpf_iter.c
[14]kernel/bpf/prog_iter.c: https://github.com/torvalds/linux/blob/master/kernel/bpf/prog_iter.c
[15]iterators.bpf.c: https://github.com/torvalds/linux/blob/master/kernel/bpf/preload/iterators/iterators.bpf.c
[16]kernel/bpf/map_iter.c: https://github.com/torvalds/linux/blob/master/kernel/bpf/map_iter.c
[17]bpf_iter_bpf_map.c: https://github.com/torvalds/linux/blob/master/tools/testing/selftests/bpf/progs/bpf_iter_bpf_map.c
[18]kernel/bpf/map_iter.c: https://github.com/torvalds/linux/blob/master/kernel/bpf/map_iter.c
[19]bpf_iter_bpf_hash_map.c: https://github.com/torvalds/linux/blob/master/tools/testing/selftests/bpf/progs/bpf_iter_bpf_hash_map.c
[20]bpf_iter_bpf_array_map.c: https://github.com/torvalds/linux/blob/master/tools/testing/selftests/bpf/progs/bpf_iter_bpf_array_map.c
[21]bpf_iter_bpf_percpu_hash_map.c: https://github.com/torvalds/linux/blob/master/tools/testing/selftests/bpf/progs/bpf_iter_bpf_percpu_hash_map.c
[22]参见[提交: https://lwn.net/ml/linux-fsdevel/20211201042333.2035153-4-memxor@gmail.com/
[23]net/core/bpf_sk_storage.c: https://github.com/torvalds/linux/blob/master/net/core/bpf_sk_storage.c
[24]bpf_iter_bpf_sk_storage_map.c: https://github.com/torvalds/linux/blob/master/tools/testing/selftests/bpf/progs/bpf_iter_bpf_sk_storage_map.c
[25]kernel/bpf/task_iter.c: https://github.com/torvalds/linux/blob/master/kernel/bpf/task_iter.c
[26]bpf_iter_task.c: https://github.com/torvalds/linux/blob/master/tools/testing/selftests/bpf/progs/bpf_iter_task.c
[27]bpf_iter_task_stack.c: https://github.com/torvalds/linux/blob/master/tools/testing/selftests/bpf/progs/bpf_iter_task_stack.c
[28]kernel/bpf/task_iter.c: https://github.com/torvalds/linux/blob/master/kernel/bpf/task_iter.c
[29]bpf_iter_task_file.c: https://github.com/torvalds/linux/blob/master/tools/testing/selftests/bpf/progs/bpf_iter_task_file.c
[30]kernel/bpf/task_iter.c: https://github.com/torvalds/linux/blob/master/kernel/bpf/task_iter.c
[31]bpf_iter_task_vma.c: https://github.com/torvalds/linux/blob/master/tools/testing/selftests/bpf/progs/bpf_iter_task_vma.c
[32]net/ipv4/tcp_ipv4.c: https://github.com/torvalds/linux/blob/master/net/ipv4/tcp_ipv4.c
[33]progs/bpf_iter_tcp4.c: https://github.com/torvalds/linux/blob/master/tools/testing/selftests/bpf/progs/bpf_iter_tcp4.c
[34]progs/bpf_iter_tcp6.c: https://github.com/torvalds/linux/blob/master/tools/testing/selftests/bpf/progs/bpf_iter_tcp6.c
[35]net/ipv4/udp.c: https://github.com/torvalds/linux/blob/master/net/ipv4/udp.c
[36]bpf_iter_udp4.c: https://github.com/torvalds/linux/blob/master/tools/testing/selftests/bpf/progs/bpf_iter_udp4.c
[37]bpf_iter_udp6.c: https://github.com/torvalds/linux/blob/master/tools/testing/selftests/bpf/progs/bpf_iter_udp6.c
[38]net/unix/af_unix.c: https://github.com/torvalds/linux/blob/master/net/unix/af_unix.c
[39]bpf_iter_unix.c: https://github.com/torvalds/linux/blob/master/tools/testing/selftests/bpf/progs/bpf_iter_unix.c
[40]net/netlink/af_netlink.c: https://github.com/torvalds/linux/blob/master/net/netlink/af_netlink.c
[41]bpf_iter_netlink.c: https://github.com/torvalds/linux/blob/master/tools/testing/selftests/bpf/progs/bpf_iter_netlink.c
[42]net/ipv6/route.c: https://github.com/torvalds/linux/blob/master/net/ipv6/route.c
[43]bpf_iter_ipv6_route.c: https://github.com/torvalds/linux/blob/master/tools/testing/selftests/bpf/progs/bpf_iter_ipv6_route.c
[44]net/core/sock_map.c: https://github.com/torvalds/linux/blob/master/net/core/sock_map.c
[45]bpf_iter_sockmap.c: https://github.com/torvalds/linux/blob/master/tools/testing/selftests/bpf/progs/bpf_iter_sockmap.c
[46]kernel/bpf/link_iter.c: https://github.com/torvalds/linux/blob/master/kernel/bpf/link_iter.c
[47]commit: https://github.com/torvalds/linux/commit/9f88361273082825d9f0d13a543d49f9fa0d44a8
[48]bpf_iter_bpf_link.c: https://github.com/torvalds/linux/blob/master/tools/testing/selftests/bpf/progs/bpf_iter_bpf_link.c
[49]kernel/kallsyms.c: https://github.com/torvalds/linux/blob/3bc1bc0b59d04e997db25b84babf459ca1cd80b7/kernel/kallsyms.c
[50]commit: https://github.com/torvalds/linux/commit/647cafa22349026a8435030e9157074ab7fe5710#diff-9538b26d3e082f233e6adac664cd2c14cbf2d510d5d7f286eef329c58de87ead
[51]bpf_iter_ksym.c: https://github.com/torvalds/linux/blob/master/tools/testing/selftests/bpf/progs/bpf_iter_ksym.c
[52]iter/bpf_link(Linux 5.19): https://github.com/torvalds/linux/commit/9f88361273082825d9f0d13a543d49f9fa0d44a8
[53]iter/ksym(Linux 6.0): https://github.com/torvalds/linux/commit/647cafa22349026a8435030e9157074ab7fe5710
[54]基于 netlink 的 taskstats: https://www.kernel.org/doc/Documentation/accounting/taskstats.txt
[55]bpf: Add bpf_link iterator: https://github.com/torvalds/linux/commit/9f88361273082825d9f0d13a543d49f9fa0d44a8
[56]Yonghong Song: https://www.facebook.com/yonghong.song.583
本文由哈喽比特于2年以前收录,如有侵权请联系我们。
文章来源:https://mp.weixin.qq.com/s/avSazD_AS-oSgm-4xm4nyw
京东创始人刘强东和其妻子章泽天最近成为了互联网舆论关注的焦点。有关他们“移民美国”和在美国购买豪宅的传言在互联网上广泛传播。然而,京东官方通过微博发言人发布的消息澄清了这些传言,称这些言论纯属虚假信息和蓄意捏造。
日前,据博主“@超能数码君老周”爆料,国内三大运营商中国移动、中国电信和中国联通预计将集体采购百万台规模的华为Mate60系列手机。
据报道,荷兰半导体设备公司ASML正看到美国对华遏制政策的负面影响。阿斯麦(ASML)CEO彼得·温宁克在一档电视节目中分享了他对中国大陆问题以及该公司面临的出口管制和保护主义的看法。彼得曾在多个场合表达了他对出口管制以及中荷经济关系的担忧。
今年早些时候,抖音悄然上线了一款名为“青桃”的 App,Slogan 为“看见你的热爱”,根据应用介绍可知,“青桃”是一个属于年轻人的兴趣知识视频平台,由抖音官方出品的中长视频关联版本,整体风格有些类似B站。
日前,威马汽车首席数据官梅松林转发了一份“世界各国地区拥车率排行榜”,同时,他发文表示:中国汽车普及率低于非洲国家尼日利亚,每百户家庭仅17户有车。意大利世界排名第一,每十户中九户有车。
近日,一项新的研究发现,维生素 C 和 E 等抗氧化剂会激活一种机制,刺激癌症肿瘤中新血管的生长,帮助它们生长和扩散。
据媒体援引消息人士报道,苹果公司正在测试使用3D打印技术来生产其智能手表的钢质底盘。消息传出后,3D系统一度大涨超10%,不过截至周三收盘,该股涨幅回落至2%以内。
9月2日,坐拥千万粉丝的网红主播“秀才”账号被封禁,在社交媒体平台上引发热议。平台相关负责人表示,“秀才”账号违反平台相关规定,已封禁。据知情人士透露,秀才近期被举报存在违法行为,这可能是他被封禁的部分原因。据悉,“秀才”年龄39岁,是安徽省亳州市蒙城县人,抖音网红,粉丝数量超1200万。他曾被称为“中老年...
9月3日消息,亚马逊的一些股东,包括持有该公司股票的一家养老基金,日前对亚马逊、其创始人贝索斯和其董事会提起诉讼,指控他们在为 Project Kuiper 卫星星座项目购买发射服务时“违反了信义义务”。
据消息,为推广自家应用,苹果现推出了一个名为“Apps by Apple”的网站,展示了苹果为旗下产品(如 iPhone、iPad、Apple Watch、Mac 和 Apple TV)开发的各种应用程序。
特斯拉本周在美国大幅下调Model S和X售价,引发了该公司一些最坚定支持者的不满。知名特斯拉多头、未来基金(Future Fund)管理合伙人加里·布莱克发帖称,降价是一种“短期麻醉剂”,会让潜在客户等待进一步降价。
据外媒9月2日报道,荷兰半导体设备制造商阿斯麦称,尽管荷兰政府颁布的半导体设备出口管制新规9月正式生效,但该公司已获得在2023年底以前向中国运送受限制芯片制造机器的许可。
近日,根据美国证券交易委员会的文件显示,苹果卫星服务提供商 Globalstar 近期向马斯克旗下的 SpaceX 支付 6400 万美元(约 4.65 亿元人民币)。用于在 2023-2025 年期间,发射卫星,进一步扩展苹果 iPhone 系列的 SOS 卫星服务。
据报道,马斯克旗下社交平台𝕏(推特)日前调整了隐私政策,允许 𝕏 使用用户发布的信息来训练其人工智能(AI)模型。新的隐私政策将于 9 月 29 日生效。新政策规定,𝕏可能会使用所收集到的平台信息和公开可用的信息,来帮助训练 𝕏 的机器学习或人工智能模型。
9月2日,荣耀CEO赵明在采访中谈及华为手机回归时表示,替老同事们高兴,觉得手机行业,由于华为的回归,让竞争充满了更多的可能性和更多的魅力,对行业来说也是件好事。
《自然》30日发表的一篇论文报道了一个名为Swift的人工智能(AI)系统,该系统驾驶无人机的能力可在真实世界中一对一冠军赛里战胜人类对手。
近日,非营利组织纽约真菌学会(NYMS)发出警告,表示亚马逊为代表的电商平台上,充斥着各种AI生成的蘑菇觅食科普书籍,其中存在诸多错误。
社交媒体平台𝕏(原推特)新隐私政策提到:“在您同意的情况下,我们可能出于安全、安保和身份识别目的收集和使用您的生物识别信息。”
2023年德国柏林消费电子展上,各大企业都带来了最新的理念和产品,而高端化、本土化的中国产品正在不断吸引欧洲等国际市场的目光。
罗永浩日前在直播中吐槽苹果即将推出的 iPhone 新品,具体内容为:“以我对我‘子公司’的了解,我认为 iPhone 15 跟 iPhone 14 不会有什么区别的,除了序(列)号变了,这个‘不要脸’的东西,这个‘臭厨子’。