什么是 timerfd ?这是跟时间有关系的 fd 类型,通常叫做定时器 fd ,先去看一下 timerfd 的样子吧。奇伢在 Linux 的机器上找了一个 open 了 timerfd 的进程,如下:
root@ubuntu:~# ll /proc/6997/fd/
...
lrwx--- 1 root root 64 Aug 10 14:13 3 -> anon_inode:[timerfd]
root@ubuntu:~# cat /proc/6997/fdinfo/3
pos: 0
flags: 02
mnt_id: 11
clockid: 0
ticks: 0
settime flags: 01
it_value: (0, 969820149)
it_interval: (1, 0)
通过 proc fs 通过 /proc/${pid}/fd/
可以看到进程打开的句柄。这里看到挺关键的信息:anon_inode:[timerfd]
,说明 timerfd 绑定的是匿名 inode。
通过 /proc/${pid}/fdinfo/
可以看到句柄的展示信息。
timerfd_settime
的参数;timerfd 这个名字拆开来看,就是 timer fd,所谓定时器 fd 类型,那么它的可读可写事件一定是跟时间有关系。timerfd 被 new 出来之后 ( timerfd_create
),可以设置超时时间( timerfd_setting
),超时之后,该句柄可读,读出来的是超时的次数。
文件句柄,网络句柄都是可以 read
/write
/close
的,timerfd 可以做什么?
timerfd 可以 read
,poll
,close
,这个从内核实现的接口可知:
// fs/timerfd.c
static const struct file_operations timerfd_fops = {
.release = timerfd_release,
.poll = timerfd_poll,
.read = timerfd_read,
.show_fdinfo = timerfd_show,
// ...
};
定时器句柄 timerfd 的实现就内聚在 fs/timerfd.c
一个文件。还记得上面 cat /proc/${pid}/fdinfo/
里面展示的信息吗?就是 timerfd_show
负责展示的。
涉及到 timerfd 的系统调用有 3 个,函数原型如下:
// 创建一个 timerfd 句柄
int timerfd_create(int clockid, int flags);
// 启动或关闭 timerfd 对应的定时器
int timerfd_settime(int fd, int flags, const struct itimerspec *new_value, struct itimerspec *old_value);
// 获取指定 timerfd 距离下一次超时还剩的时间
int timerfd_gettime(int fd, struct itimerspec *curr_value);
timerfd 常用来做定时器的使用,设置超时时间之后,每隔一段时间 timerfd 就是可读的。使用 man timerfd_create
就能查看到完整的文档,有一个 c 语言的示例,简要看下这个例子:
int main(int argc, char *argv[]) {
// 第一次超时时间
new_value.it_value.tv_sec = now.tv_sec + atoi(argv[1]);
new_value.it_value.tv_nsec = now.tv_nsec;
// 设置超时间隔
new_value.it_interval.tv_sec = atoi(argv[2]);
new_value.it_interval.tv_nsec = 0;
// 创建 timerfd
fd = timerfd_create(CLOCK_REALTIME, 0);
// 设置第一次超时时间和超时间隔
if (timerfd_settime(fd, TFD_TIMER_ABSTIME, &new_value, NULL) == -1)
// 定时器循环
for (tot_exp = 0; tot_exp < max_exp;) {
// read timerfd,获取到超时次数
s = read(fd, &exp, sizeof(uint64_t));
// 累计总超时次数
tot_exp += exp;
// 打印超时次数的信息
printf("read: %llu; total=%llu\n", (unsigned long long) exp, (unsigned long long) tot_exp);
}
}
这个例子做的事情:
timerfd_create
获取到一个句柄之后,使用 timerfd_settime
设置超时时间并启动内核定时器;read
来读数据,timerfd 没超时之前 read
会阻塞到,直到内核定时器超时之后 read
才会返回,这样就达到了一个定时的效果;上面例子相当于每隔一段时间 sleep 一下,然后打印一行信息,周期运行,这就是 timerfd 官方最简单的例子。
timerfd 可以和 epoll 配合起来,让 epoll 监听 timerfd 的可读事件,这样 timerfd 超时触发可读事件,epoll_wait
被唤醒,业务进行周期处理,从而也能达到定时器的目的。
我们简要的看下内核的实现,原理其实很简单。
1 timerfd_create
从用户角度来看,该函数创建一个 timerfd,返回的 fd 可以进行 read
、poll
( poll
、select
,epoll
)、close
等操作。
我们从源码实现角度来看,timerfd_create
对应了一个系统调用:
SYSCALL_DEFINE2(timerfd_create, int, clockid, int, flags)
{
int ufd;
struct timerfd_ctx *ctx;
// timerfd 对应的核心数据结构体
ctx = kzalloc(sizeof(*ctx), GFP_KERNEL);
// 重要:初始化 ctx->wqh 队列,这是个表头,用来挂接 wait 对象的
init_waitqueue_head(&ctx->wqh);
// 初始化定时器
if (isalarm(ctx))
alarm_init(&ctx->t.alarm, ctx->clockid == CLOCK_REALTIME_ALARM ? ALARM_REALTIME : ALARM_BOOTTIME, timerfd_alarmproc);
else
hrtimer_init(&ctx->t.tmr, clockid, HRTIMER_MODE_ABS);
// 获取一个匿名 fd,对应 file->f_op 初始化成 timerfd_fops
ufd = anon_inode_getfd("[timerfd]", &timerfd_fops, ctx, O_RDWR | (flags & TFD_SHARED_FCNTL_FLAGS));
// 返回正数句柄
return ufd;
}
函数最关键做了以下几件事:
timerfd_ctx
的结构体(在这个 ctx 结构体内有个表头 ctx->wqh
很重要,是和 epoll 产生联系的关键点);alarm
类型或者高精度的 hrtimer
类型的定时器( 注意:timerfd 本身并没有实现定时器的功能,定时器直接使用的是内核封装好的定时器,timerfd 只针对“文件”的封装);timerfd_fops
操作表;核心结构体 timerfd_ctx
:
struct timerfd_ctx {
// 真正的内核定时器
union {
struct hrtimer tmr;
struct alarm alarm;
} t;
// wait 对象挂接的表头
wait_queue_head_t wqh;
// 记录超时的次数
u64 ticks;
// 定时器类型
int clockid;
// ...
};
这个 ctx
对象会赋值给 file->private_data
字段。后面针对 fd 的操作,就可以先通过 fd 找到 file
,取得 file->private_data
,强转成 timerfd_ctx
类型,然后进行定时器 fd 的一系列操作。
注意到关键操作:获取一个 file
结构体用的是 anon_inode_getfd
函数,这个函数是获取一个匿名句柄的。
重点提一下匿名 fd 的事情,为什么会有匿名 fd ? 什么是匿名?
在 Linux 里一切皆文件,你理解的常见“文件”有什么特性?是路径,也就是 path ,匿名的意思说的就是没有路径( 在内核里面说的就是没有有效的 dentry )。
在 Linux 的文件体系中,一个文件句柄,对应一个 file 结构体,关联一个 inode 。file/dentry/inode
这三驾马车是一定要配齐的,就算是匿名的(无 path,无效 dentry),对于 file 结构体来说,一定要绑定 inode 和 dentry ,哪怕是伪造的、不完整的 inode。
anon_inodefs 就应运而生了,内核就帮你搞出来一个公共的 inode ,这就节省了所有有这样需求的内核模块,避免了内存的浪费,省了冗余重复的 inode 初始化代码。
匿名 fd 背后的是一个叫做 anon_inodefs 的内核文件系统( 位于 fs/anon_inodes.c
),这个文件系统极其简单,整个文件系统只有一个 inode ,这个 inode 是文件系统初始化的时候创建好的。
之后,所有需要一个匿名 inode 的句柄都直接跟这个 inode 关联即可。使用匿名 inode 的句柄叫做匿名句柄。
2 timerfd_settime
该函数是启停 timerfd 超时的,用来设置超时的时间,间隔的。参数结构如下:
struct timespec {
time_t tv_sec; /* Seconds */
long tv_nsec; /* Nanoseconds */
};
struct itimerspec {
struct timespec it_interval; /* Interval for periodic timer */
struct timespec it_value; /* Initial expiration */
};
在结构体 itimerspec
的 it_value
字段标识定时器第一次超时时间,it_interval
标识之后的超时间隔。
主要逻辑如下:
SYSCALL_DEFINE4(timerfd_settime, int, ufd, int, flags, const struct __kernel_itimerspec __user *, utmr, struct __kernel_itimerspec __user *, otmr)
{
ret = do_timerfd_settime(ufd, flags, &new, &old);
}
static int do_timerfd_settime(int ufd, int flags, const struct itimerspec64 *new, struct itimerspec64 *old)
{
// 通过 fd 查询到 file 结构体
ret = timerfd_fget(ufd, &f);
// 通过 file 获取到 timerfd_ctx
ctx = f.file->private_data;
// 如果有已经存在的 timer 定时器,需要先停止;
for (;;) {
// 定时器处理逻辑
}
// 保存旧的定时器设置的值
old->it_value = ktime_to_timespec64(timerfd_get_remaining(ctx));
old->it_interval = ktime_to_timespec64(ctx->tintv);
// 重置定时器
ret = timerfd_setup(ctx, flags, new);
}
static int timerfd_setup(struct timerfd_ctx *ctx, int flags, const struct itimerspec64 *ktmr)
{
// 根据是 alarm 还是 hrtimer 类型,进行定时器初始化;
// 用 alarm_init 或者 hrtimer_init ,主要设置时间和回调这两个重要参数;
// 回调函数分别是 timerfd_alarmproc 或者 timerfd_tmrproc
if (isalarm(ctx)) {
alarm_init(&ctx->t.alarm, ctx->clockid == CLOCK_REALTIME_ALARM ? ALARM_REALTIME : ALARM_BOOTTIME, timerfd_alarmproc);
} else {
hrtimer_init(&ctx->t.tmr, clockid, htmode);
}
if (texp != 0) {
// 定时器启动,用 alarm_start 或者 hrtimer_start
}
}
操作很简单:
划重点:timerfd 本身并没有实现定时器的功能,定时功能直接使用的是内核封装好的定时器,timerfd 只针对“文件语义”的封装,让定时器能跟文件一样,进行 IO 操作。
3 timerfd_gettime
该函数用于获取指定 timerfd 距离下一次超时还剩的时间。
SYSCALL_DEFINE2(timerfd_gettime, int, ufd, struct __kernel_itimerspec __user *, otmr)
{
int ret = do_timerfd_gettime(ufd, &kotmr);
}
static int do_timerfd_gettime(int ufd, struct itimerspec64 *t)
{
// 通过 fd 获取到 file 结构体
int ret = timerfd_fget(ufd, &f);
// 通过 file 获取到 timerfd_ctx 结构体
ctx = f.file->private_data;
// 计算距离下一次到期的时间
// ...
}
操作步骤:
timerfd_ctx
;timerfd_ctx
里面存储的信息,计算举例下一次超时的时间即可;每个 fd 类型奇伢都会带上 epoll ,让大家一遍遍去理解 epoll 机制,这次的 timerfd 是个非常好的机会,因为它足够简单,没有任何复杂性。下面跟着奇伢一起梳理下吧,抓住这个机会哦。
1 timerfd 创建的时候暗藏玄机?
前面提到了,timerfd 的核心结构是 timerfd_ctx
,挂到 file->private_data
字段上,在 ctx 里面有一个链表的表头,还记得吗?
就是这个 timerfd_ctx->wqh
,这是一个链表表头,timerfd 创建的时候初始化,这就是玄机。
这个表头都是用来挂接 wait 对象的,在事件就绪的时候,就会遍历这个表,依次调用 wait 对象的回调函数。
类比分享过的 Linux fd 系列的特殊 fd:
timerfd_ctx
结构体中有个表头 timerfd_ctx->wqh
;eventfd_ctx
结构体中有个表头 eventfd_ctx->wqh
;sock
结构体中有个表头 sk->sk_wq
;划重点:这个 wait 链表是核心基础之一呀,给 poll 操作的时候,挂 wait entry 用的。
初始化过程的另一个核心是把 timerfd 的 file->f_op
设置为 timerfd_fops
函数操作表;
重点小结下:
ctx->wqh
);file->f_op
赋值为 timerfd_fops
操作表;2 epoll_ctl 的配合?
问题来了,那什么时候会往 ctx->wqh
添加元素呢?
以 timerfd 来说,timerfd_poll
函数中会使用 poll_wait
函数往这个链表中添加元素。调用如下:
// fs/timerfd.c
static __poll_t timerfd_poll(struct file *file, poll_table *wait) {
// 添加元素
poll_wait(file, &ctx->wqh, wait);
}
// include/linux/poll.h
static inline void poll_wait(struct file * filp, wait_queue_head_t * wait_address, poll_table *p) {
if (p && p->_qproc && wait_address)
p->_qproc(filp, wait_address, p);
}
wait 对象就是在 poll_wait
函数中,通过 p->_qproc
添加到链表的。童鞋可能会问了,这个函数回调是啥呢?这个问题先留着,先往后看。
先来思考一个问题,谁会调用到 timerfd_poll
呢?
epoll_ctl
注册句柄的时候会!具体调用路径如下:
epoll_ctl
-> ep_insert
// poll_table->_qporc 初始化成 ep_ptable_queue_proc
-> init_poll_funcptr
// 挂接等待链表
-> ep_item_poll
-> vfs_poll
-> timerfd_poll
我们知道 vfs_poll 就是调用 file->f_op->poll
操作函数,而 timerfd 的 f_op
操作表是 timerfd_fops
,.poll
接口就是 timerfd_poll
,这就串起来了呀。
同时这里也回答了上面另一个问题,p->_qproc
是啥?
是在 ep_insert
中 init_poll_funcptr
里初始化成 ep_ptable_queue_proc
函数了。
那我们想再看一下 ep_ptable_queue_proc
里面究竟是怎么添加的?
static void ep_ptable_queue_proc(struct file *file, wait_queue_head_t *whead, poll_table *pt) {
// 获取到对应的 epitem
struct epitem *epi = ep_item_from_epqueue(pt);
// 初始化 wait entry
init_waitqueue_func_entry(&pwq->wait, ep_poll_callback);
pwq->whead = whead;
pwq->base = epi;
// 添加 wait entry 到链表中(这个链表,就是 timerfd_ctx->wqh 的链表)
if (epi->event.events & EPOLLEXCLUSIVE)
add_wait_queue_exclusive(whead, &pwq->wait);
else
add_wait_queue(whead, &pwq->wait);
}
通过这里我们得到两个关键信息:
wq_entry->func
)设置为:ep_poll_callback
;ep_poll_callback
主要做两个事情:
epoll_wait
阻塞的进程( epoll_wait
切走之前,把 cur 进程对应的一个 wait entry 挂到了 epoll 的 wait 链表中);重点小结:
epoll_ctl
里面通过 timerfd_poll
函数,把一个跟 epitem 关联的 wait entry 挂到 timerfd 的 ctx->wqh
队列中;ep_poll_callback
,参数为 epitem;有了这两手准备工作,等 timerfd 事件准备好了之后,就能通过 wait entry 通知到 epoll 池了。
3 timerfd 怎么唤醒 epoll_wait?
准备工作基本上就做好了,回调唤醒的路已经准备好了,下面继续看下怎么触发的。
timerfd 实现定时器的功能是直接用的内核定时器,根据类型分为两种:
struct hrtimer tmr;
struct alarm alarm;
hrtimer 是高精度的定时器,为了方便,奇伢下面就只说 hrtimer 定时器。定时器可以设置回调函数,超时之后会异步调用。timerfd 设置的回调函数是 timerfd_tmrproc
,那么不难想象,这个函数中是回调的起点。
定时器到期之后,内核调用回调:
timerfd_tmrproc (在初始化的时候配置)
-> timerfd_trigger
-> wake_up_locked_poll (唤醒 timerfd 上所有的等待对象)
-> ep_poll_callback
还记得 socketfd 的回调路线吗?
-> 硬中断
-> 软中断
-> tcp_v4_rcv(具体协议栈处理函数)
-> sk->sk_data_ready
-> ep_poll_callback
相同的秘方,相同的套路,至此和 epoll 的路径全部打通了。
小结一下**完整路径描述**:
timerfd_create
创建的时候准备好等待队列 ctx->wqh
;timerfd_settime
设置定时回调 timerfd_tmrproc
;epoll_ctl
注册句柄的时候把 ep_poll_back
装进 wait 对象并挂到 ctx->wqh
链表之上;ctx->wqh
,调用 ep_poll_callback
从而完成事件触发;说了这么多,用一张图来总结下,看你理解了不?
/proc/${pid}/fd/
下有所有打开的句柄, /proc/${pid}/fdinfo/
下能看到句柄的详细信息,挂钩的是 .show_fdinfo
回调实现;timerfd_ctx
,通过 fd 先找到 file 结构体,它就藏在 file->private_data
这里;极简的 timerfd 配合之前的 epoll 的剖析,童鞋们应该彻底理解了 epoll 机制吧!讲到匿名 fd ,还挺有意思的,timerfd,eventfd,eventpoll fd 都是用的匿名 inode 的匿名 fd ,找机会分享一波。
本文由哈喽比特于3年以前收录,如有侵权请联系我们。
文章来源:https://mp.weixin.qq.com/s/cAu42eqHPzk6fXIIeirwhg
京东创始人刘强东和其妻子章泽天最近成为了互联网舆论关注的焦点。有关他们“移民美国”和在美国购买豪宅的传言在互联网上广泛传播。然而,京东官方通过微博发言人发布的消息澄清了这些传言,称这些言论纯属虚假信息和蓄意捏造。
日前,据博主“@超能数码君老周”爆料,国内三大运营商中国移动、中国电信和中国联通预计将集体采购百万台规模的华为Mate60系列手机。
据报道,荷兰半导体设备公司ASML正看到美国对华遏制政策的负面影响。阿斯麦(ASML)CEO彼得·温宁克在一档电视节目中分享了他对中国大陆问题以及该公司面临的出口管制和保护主义的看法。彼得曾在多个场合表达了他对出口管制以及中荷经济关系的担忧。
今年早些时候,抖音悄然上线了一款名为“青桃”的 App,Slogan 为“看见你的热爱”,根据应用介绍可知,“青桃”是一个属于年轻人的兴趣知识视频平台,由抖音官方出品的中长视频关联版本,整体风格有些类似B站。
日前,威马汽车首席数据官梅松林转发了一份“世界各国地区拥车率排行榜”,同时,他发文表示:中国汽车普及率低于非洲国家尼日利亚,每百户家庭仅17户有车。意大利世界排名第一,每十户中九户有车。
近日,一项新的研究发现,维生素 C 和 E 等抗氧化剂会激活一种机制,刺激癌症肿瘤中新血管的生长,帮助它们生长和扩散。
据媒体援引消息人士报道,苹果公司正在测试使用3D打印技术来生产其智能手表的钢质底盘。消息传出后,3D系统一度大涨超10%,不过截至周三收盘,该股涨幅回落至2%以内。
9月2日,坐拥千万粉丝的网红主播“秀才”账号被封禁,在社交媒体平台上引发热议。平台相关负责人表示,“秀才”账号违反平台相关规定,已封禁。据知情人士透露,秀才近期被举报存在违法行为,这可能是他被封禁的部分原因。据悉,“秀才”年龄39岁,是安徽省亳州市蒙城县人,抖音网红,粉丝数量超1200万。他曾被称为“中老年...
9月3日消息,亚马逊的一些股东,包括持有该公司股票的一家养老基金,日前对亚马逊、其创始人贝索斯和其董事会提起诉讼,指控他们在为 Project Kuiper 卫星星座项目购买发射服务时“违反了信义义务”。
据消息,为推广自家应用,苹果现推出了一个名为“Apps by Apple”的网站,展示了苹果为旗下产品(如 iPhone、iPad、Apple Watch、Mac 和 Apple TV)开发的各种应用程序。
特斯拉本周在美国大幅下调Model S和X售价,引发了该公司一些最坚定支持者的不满。知名特斯拉多头、未来基金(Future Fund)管理合伙人加里·布莱克发帖称,降价是一种“短期麻醉剂”,会让潜在客户等待进一步降价。
据外媒9月2日报道,荷兰半导体设备制造商阿斯麦称,尽管荷兰政府颁布的半导体设备出口管制新规9月正式生效,但该公司已获得在2023年底以前向中国运送受限制芯片制造机器的许可。
近日,根据美国证券交易委员会的文件显示,苹果卫星服务提供商 Globalstar 近期向马斯克旗下的 SpaceX 支付 6400 万美元(约 4.65 亿元人民币)。用于在 2023-2025 年期间,发射卫星,进一步扩展苹果 iPhone 系列的 SOS 卫星服务。
据报道,马斯克旗下社交平台𝕏(推特)日前调整了隐私政策,允许 𝕏 使用用户发布的信息来训练其人工智能(AI)模型。新的隐私政策将于 9 月 29 日生效。新政策规定,𝕏可能会使用所收集到的平台信息和公开可用的信息,来帮助训练 𝕏 的机器学习或人工智能模型。
9月2日,荣耀CEO赵明在采访中谈及华为手机回归时表示,替老同事们高兴,觉得手机行业,由于华为的回归,让竞争充满了更多的可能性和更多的魅力,对行业来说也是件好事。
《自然》30日发表的一篇论文报道了一个名为Swift的人工智能(AI)系统,该系统驾驶无人机的能力可在真实世界中一对一冠军赛里战胜人类对手。
近日,非营利组织纽约真菌学会(NYMS)发出警告,表示亚马逊为代表的电商平台上,充斥着各种AI生成的蘑菇觅食科普书籍,其中存在诸多错误。
社交媒体平台𝕏(原推特)新隐私政策提到:“在您同意的情况下,我们可能出于安全、安保和身份识别目的收集和使用您的生物识别信息。”
2023年德国柏林消费电子展上,各大企业都带来了最新的理念和产品,而高端化、本土化的中国产品正在不断吸引欧洲等国际市场的目光。
罗永浩日前在直播中吐槽苹果即将推出的 iPhone 新品,具体内容为:“以我对我‘子公司’的了解,我认为 iPhone 15 跟 iPhone 14 不会有什么区别的,除了序(列)号变了,这个‘不要脸’的东西,这个‘臭厨子’。