存储基础 — 文件描述符 fd 究竟是什么?

发表于 3年以前  | 总阅读数:209 次

坚持思考,就会很酷

前情概要

通过上篇 [Go 存储基础 — 文件 IO 的姿势] , 我们看到有两种文件读写的方式,一种是系统调用的方式,操作的对象是一个整数 fd,另一种是 Go 标准库自己封装的标准库 IO ,操作对象是 Go 封装的 file 结构体,但其内部还是针对整数 fd 的操作。所以一切的本源是通过 fd 来操作的,那么,这个 fd 究竟是什么?就这个点我们深入剖析。

fd 是什么?

fdFile descriptor 的缩写,中文名叫做:文件描述符文件描述符是一个非负整数,本质上是一个索引值(这句话非常重要)。

什么时候拿到的 fd

当打开一个文件时,内核向进程返回一个文件描述符( open 系统调用得到 ),后续 readwrite 这个文件时,则只需要用这个文件描述符来标识该文件,将其作为参数传入 readwrite

fd 的值范围是什么?

在 POSIX 语义中,0,1,2 这三个 fd 值已经被赋予特殊含义,分别是标准输入( STDIN_FILENO ),标准输出( STDOUT_FILENO ),标准错误( STDERR_FILENO )。

文件描述符是有一个范围的:0 ~ OPEN_MAX-1 ,最早期的 UNIX 系统中范围很小,现在的主流系统单就这个值来说,变化范围是几乎不受限制的,只受到系统硬件配置和系统管理员配置的约束。

你可以通过 ulimit 命令查看当前系统的配置:

➜  ulimit -n
4864

如上,我系统上进程默认最多打开 4864 文件。

窥探 Linux 内核

fd 究竟是什么?必须去 Linux 内核看一眼。

用户使用系统调用 open 或者 creat 来打开或创建一个文件,用户态得到的结果值就是 fd ,后续的 IO 操作全都是用 fd 来标识这个文件,可想而知内核做的操作并不简单,我们接下来就是要揭开这层面纱。

task_struct

首先,我们知道进程的抽象是基于 struct task_struct 结构体,这是 Linux 里面最复杂的结构体之一 ,成员字段非常多,我们今天不需要详解这个结构体,我稍微简化一下,只提取我们今天需要理解的字段如下:

struct task_struct {
    // ...
    /* Open file information: */
    struct files_struct     *files;
    // ...
}

files; 这个字段就是今天的主角之一files 是一个指针,指向一个为 struct files_struct 的结构体。这个结构体就是用来管理该进程打开的所有文件的管理结构。

重点理解一个概念:

struct task_struct 是进程的抽象封装,标识一个进程,在 Linux 里面的进程各种抽象视角,都是这个结构体给到你的。当创建一个进程,其实也就是 new 一个 struct task_struct 出来;

files_struct

好,上面通过进程结构体引出了 struct files_struct 这个结构体。这个结构体管理某进程打开的所有文件的管理结构,这个结构体本身是比较简单的:

/*
 * Open file table structure
 */
struct files_struct {
    // 读相关字段
    atomic_t count;
    bool resize_in_progress;
    wait_queue_head_t resize_wait;

    // 打开的文件管理结构
    struct fdtable __rcu *fdt;
    struct fdtable fdtab;

    // 写相关字段
    unsigned int next_fd;
    unsigned long close_on_exec_init[1];
    unsigned long open_fds_init[1];
    unsigned long full_fds_bits_init[1];
    struct file * fd_array[NR_OPEN_DEFAULT];
};

files_struct 这个结构体我们说是用来管理所有打开的文件的。怎么管理?本质上就是数组管理的方式,所有打开的文件结构都在一个数组里。这可能会让你疑惑,数组在那里?有两个地方:

  1. struct file * fd_array[NR_OPEN_DEFAULT] 是一个静态数组,随着 files_struct 结构体分配出来的,在 64 位系统上,静态数组大小为 64;
  2. struct fdtable 也是个数组管理结构,只不过这个是一个动态数组,数组边界是用字段描述的;

思考:为什么会有这种静态 + 动态的方式?

性能和资源的权衡 !大部分进程只会打开少量的文件,所以静态数组就够了,这样就不用另外分配内存。如果超过了静态数组的阈值,那么就动态扩展。

可以回忆下,这个是不是跟 inode 的直接索引,一级索引的优化思路类似。

fdtable

简单介绍下 fdtable 结构体,这个结构体就是封装用来管理 fd 的结构体,fd 的秘密就在这个里面。简化结构体如下:

struct fdtable {
    unsigned int max_fds;
    struct file __rcu **fd;      /* current fd array */
};

注意到 fdtable.fd 这个字段是一个二级指针,什么意思?

就是指向 fdtable.fd 是一个指针字段,指向的内存地址还是存储指针的(元素指针类型为 struct file * )。换句话说,fdtable.fd 指向一个数组,数组元素为指针(指针类型为 struct file *)。

其中 max_fds 指明数组边界。

files_struct 小结

file_struct 本质上是用来管理所有打开的文件的,内部的核心是由一个静态数组动态数组管理结构实现。

还记得上面我们说文件描述符 fd 本质上就是索引吗?这里就把概念接上了,fd 就是这个数组的索引,也就是数组的槽位编号而已。 通过非负数 fd 就能拿到对应的 struct file 结构体的地址。

我们把概念串起来(注意,这里为了突出 fd 的本质,把 fdtable 管理简化掉):

  • fd 真的就是 files 这个字段指向的指针数组的索引而已(仅此而已)。通过 fd 能够找到对应文件的 struct file 结构体;

file

现在我们知道了 fd 本质是数组索引,数组元素是 struct file 结构体的指针。那么这里就引出了一个 struct file 的结构体。这个结构体又是用来干什么的呢?

这个结构体是用来表征进程打开的文件的。简化结构如下:

struct file {
    // ...
    struct path                     f_path;
    struct inode                    *f_inode;
    const struct file_operations    *f_op;

    atomic_long_t                    f_count;
    unsigned int                     f_flags;
    fmode_t                          f_mode;
    struct mutex                     f_pos_lock;
    loff_t                           f_pos;
    struct fown_struct               f_owner;
    // ...
}

这个结构体非常重要,它标识一个进程打开的文件,下面解释 IO 相关的几个最重要的字段:

  • f_path :标识文件名
  • f_inode :非常重要的一个字段,inode 这个是 vfs 的 inode 类型,是基于具体文件系统之上的抽象封装;
  • f_pos :这个字段非常重要,偏移,对,就是当前文件偏移。还记得上一篇 IO 基础里也提过偏移对吧,指的就是这个,f_posopen 的时候会设置成默认值,seek 的时候可以更改,从而影响到 write/read 的位置;

思考问题

思考问题一:files_struct 结构体只会属于一个进程,那么struct file 这个结构体呢,是只会属于某一个进程?还是可能被多个进程共享?

划重点:struct file 是属于系统级别的结构,换句话说是可以共享与多个不同的进程。

思考问题二:什么时候会出现多个进程的 fd 指向同一个 file 结构体?

比如 fork 的时候,父进程打开了文件,后面 fork 出一个子进程。这种情况就会出现共享 file 的场景。如图:

思考问题三:在同一个进程中,多个 fd 可能指向同一个 file 结构吗?

可以。dup 函数就是做这个的。

#include <unistd.h>
int dup(int oldfd);
int dup2(int oldfd, int newfd);

inode

我们看到 struct file 结构体里面有一个 inode 的指针,也就自然引出了 inode 的概念。这个指向的 inode 并没有直接指向具体文件系统的 inode ,而是操作系统抽象出来的一层虚拟文件系统,叫做 VFS ( Virtual File System ),然后在 VFS 之下才是真正的文件系统,比如 ext4 之类的。

完整架构图如下:

思考:为什么会有这一层封装呢?

其实很容里理解,就是解耦。如果让 struct file 直接和 struct ext4_inode 这样的文件系统对接,那么会导致 struct file 的处理逻辑非常复杂,因为每对接一个具体的文件系统,就要考虑一种实现。所以操作系统必须把底下文件系统屏蔽掉,对外提供统一的 inode 概念,对下定义好接口进行回调注册。这样让 inode 的概念得以统一,Unix 一切皆文件的基础就来源于此。

再来看一样 VFS 的 inode 的结构:

struct inode {
    // 文件相关的基本信息(权限,模式,uid,gid等)
    umode_t             i_mode;
    unsigned short      i_opflags;
    kuid_t              i_uid;
    kgid_t              i_gid;
    unsigned int        i_flags;
    // 回调函数
    const struct inode_operations   *i_op;
    struct super_block              *i_sb;
    struct address_space            *i_mapping;
    // 文件大小,atime,ctime,mtime等
    loff_t              i_size;
    struct timespec64   i_atime;
    struct timespec64   i_mtime;
    struct timespec64   i_ctime;
    // 回调函数
    const struct file_operations    *i_fop;
    struct address_space            i_data;
    // 指向后端具体文件系统的特殊数据
    void    *i_private;     /* fs or device private pointer */
};

其中包括了一些基本的文件信息,包括 uid,gid,大小,模式,类型,时间等等。

一个 vfs 和 后端具体文件系统的纽带:i_private 字段。**用来传递一些具体文件系统使用的数据结构。

至于 i_op 回调函数在构造 inode 的时候,就注册成了后端的文件系统函数,比如 ext4 等等。

思考问题:通用的 VFS 层,定义了所有文件系统通用的 inode,叫做 vfs inode,而后端文件系统也有自身特殊的 inode 格式,该格式是在 vfs inode 之上进行扩展的,怎么通过 vfs inode 怎么得到具体文件系统的 inode 呢?

下面以 ext4 文件系统举例(因为所有的文件系统套路一样),ext4 的 inode 类型是 struct ext4_inode_info

划重点:方法其实很简单,这个是属于 c 语言一种常见的(也是特有)编程手法:强转类型。vfs inode 出生就和 ext4_inode_info 结构体分配在一起的,直接通过 vfs inode 结构体的地址强转类型就能得到 ext4_inode_info 结构体

struct ext4_inode_info {
    // ext4 inode 特色字段
    // ...

    // 重要!!!
    struct inode    vfs_inode;  
};

举个例子,现已知 inode 地址和 vfs_inode 字段的内偏移如下:

  • inode 的地址为 0xa89be0;
  • ext4_inode_info 里有个内嵌字段 vfs_inode,类型为 struct inode ,该字段在结构体内偏移为 64 字节;

则可以得到:

ext4_inode_info 的地址为

(struct ext4_inode_info *)(0xa89be0 - 64)

强转方法使用了一个叫做 container_of 的宏,如下:

// 强转函数
static inline struct ext4_inode_info *EXT4_I(struct inode *inode)
{
   return container_of(inode, struct ext4_inode_info, vfs_inode);
}

// 强转实际封装
#define container_of(ptr, type, member) \
    (type *)((char *)(ptr) - (char *) &((type *)0)->member)
#endif

所以,你懂了吗?

分配 inode 的时候,其实分配的是 ext4_inode_info 结构体,包含了 vfs inode,然后对外给出去 vfs_inode 字段的地址即可。VFS 层拿 inode 的地址使用,底下文件系统强转类型后,取外层的 inode 地址使用。

举个 ext4 文件系统的例子:

static struct inode *ext4_alloc_inode(struct super_block *sb)
{
    struct ext4_inode_info *ei;

    // 内存分配,分配 ext4_inode_info 的地址
    ei = kmem_cache_alloc(ext4_inode_cachep, GFP_NOFS);

    // ext4_inode_info 结构体初始化

    // 返回 vfs_inode 字段的地址
    return &ei->vfs_inode;
}

vfs 拿到的就是这个 inode 地址。

划重点:inode 的内存由后端文件系统分配,vfs inode 结构体内嵌在不同的文件系统的 inode 之中。不同的层次用不同的地址,ext4 文件系统用 ext4_inode_info 的结构体的地址,vfs 层用 ext4_inode_info.vfs_inode 字段的地址。

这种用法在 C 语言编程中很常见,算是 C 的特色了(仔细想想,这种用法和面向对象的多态的实现异曲同工)。

思考问题:怎么理解 vfs inodeext2_inode_infoext4_inode_info 等结构体的区别?

所有文件系统共性的东西抽象到 vfs inode ,不同文件系统差异的东西放在各自的 inode 结构体中。

小结梳理

当用户打开一个文件,用户只得到了一个 fd 句柄,但内核做了很多事情,梳理下来,我们得到几个关键的数据结构,这几个数据结构是有层次递进关系的,我们简单梳理下:

1 . 进程结构 task_struct :表征进程实体,每一个进程都和一个 task_struct 结构体对应,其中 task_struct.files 指向一个管理打开文件的结构体 fiels_struct

2 . 文件表项管理结构 files_struct :用于管理进程打开的 open 文件列表,内部以数组的方式实现(静态数组和动态数组结合)。返回给用户的 fd 就是这个数组的编号索引而已,索引元素为 file 结构;

  • files_struct 只从属于某进程;

3 . 文件 file 结构:表征一个打开的文件,内部包含关键的字段有:当前文件偏移,inode 结构地址

  • 该结构虽然由进程触发创建,但是 file 结构可以在进程间共享;

4 . vfs inode 结构体:文件 file 结构指向 的是 vfs 的 inode ,这个是操作系统抽象出来的一层,用于屏蔽后端各种各样的文件系统的 inode 差异;

  • inode 这个具体进程无关,是文件系统级别的资源;

5 . ext4 inode 结构体(指代具体文件系统 inode ):后端文件系统的 inode 结构,不同文件系统自定义的结构体,ext2 有 ext2_inode_info,ext4 有ext4_inode_info,minix 有 minix_inode_info,这些结构里都是内嵌了一个 vfs inode 结构体,原理相同;

完整的架构图:

思考实验

现在我们已经彻底了解 fd 这个所谓的非负整数代表的深层含义了,我们可以准备一些 IO 的思考举一反三。

文件读写( IO )的时候会发生什么?

  • 在完成 write 操作后,在文件 file 中的当前文件偏移量会增加所写入的字节数,如果这导致当前文件偏移量超处了当前文件长度,则会把 inode 的当前长度设置为当前文件偏移量(也就是文件变长)
  • O_APPEND 标志打开一个文件,则相应的标识会被设置到文件 file 状态的标识中,每次对这种具有追加写标识的文件执行 write 操作的时候,file 的当前文件偏移量首先会被设置成 inode 结构体中的文件长度,这就使得每次写入的数据都追加到文件的当前尾端处(该操作对用户态提供原子语义);
  • 若一个文件 seek 定位到文件当前的尾端,则 file 中的当前文件偏移量设置成 inode 的当前文件长度;
  • seek 函数值修改 file 中的当前文件偏移量,不进行任何 I/O 操作;
  • 每个进程对有它自己的 file,其中包含了当前文件偏移,当多个进程写同一个文件的时候,由于一个文件 IO 最终只会是落到全局的一个 inode 上,这种并发场景则可能产生用户不可预期的结果;

总结

回到初心,理解 fd 的概念有什么用?

一切 IO 的行为到系统层面都是以 fd 的形式进行。无论是 C/C++,Go,Python,JAVA 都是一样,任何语言都是一样,这才是最本源的东西,理解了 fd 关联的一系列结构,你才能对 IO 游刃有余。

简要的总结:

  1. 从姿势上来讲,用户 open 文件得到一个非负数句柄 fd,之后针对该文件的 IO 操作都是基于这个 fd
  2. 文件描述符 fd 本质上来讲就是数组索引,fd 等于 5 ,那对应数组的第 5 个元素而已,该数组是进程打开的所有文件的数组,数组元素类型为 struct file
  3. 结构体 task_struct 对应一个抽象的进程,files_struct 是这个进程管理该进程打开的文件数组管理器。fd 则对应了这个数组的编号,每一个打开的文件用 file 结构体表示,内含当前偏移等信息;
  4. file 结构体可以为进程间共享,属于系统级资源,同一个文件可能对应多个 file 结构体,file 内部有个 inode 指针,指向文件系统的 inode
  5. inode 是文件系统级别的概念,只由文件系统管理维护,不因进程改变( file 是进程出发创建的,进程 open 同一个文件会导致多个 file ,指向同一个 inode );

回顾一眼架构图:

后记

内核把最复杂的活干了,只暴露给您最简单的一个非负整数 fd 。所以,绝大部分场景会用fd 就行,倒不用想太多。当然如果能再深入看一眼知其所以然是最好不过。本文分享是基础准备篇,希望能给你带来不一样的 IO 视角。

本文由哈喽比特于3年以前收录,如有侵权请联系我们。
文章来源:https://mp.weixin.qq.com/s/hLq7Pp8CkJD9B-Xqym50dA

 相关推荐

刘强东夫妇:“移民美国”传言被驳斥

京东创始人刘强东和其妻子章泽天最近成为了互联网舆论关注的焦点。有关他们“移民美国”和在美国购买豪宅的传言在互联网上广泛传播。然而,京东官方通过微博发言人发布的消息澄清了这些传言,称这些言论纯属虚假信息和蓄意捏造。

发布于:1年以前  |  808次阅读  |  详细内容 »

博主曝三大运营商,将集体采购百万台华为Mate60系列

日前,据博主“@超能数码君老周”爆料,国内三大运营商中国移动、中国电信和中国联通预计将集体采购百万台规模的华为Mate60系列手机。

发布于:1年以前  |  770次阅读  |  详细内容 »

ASML CEO警告:出口管制不是可行做法,不要“逼迫中国大陆创新”

据报道,荷兰半导体设备公司ASML正看到美国对华遏制政策的负面影响。阿斯麦(ASML)CEO彼得·温宁克在一档电视节目中分享了他对中国大陆问题以及该公司面临的出口管制和保护主义的看法。彼得曾在多个场合表达了他对出口管制以及中荷经济关系的担忧。

发布于:1年以前  |  756次阅读  |  详细内容 »

抖音中长视频App青桃更名抖音精选,字节再发力对抗B站

今年早些时候,抖音悄然上线了一款名为“青桃”的 App,Slogan 为“看见你的热爱”,根据应用介绍可知,“青桃”是一个属于年轻人的兴趣知识视频平台,由抖音官方出品的中长视频关联版本,整体风格有些类似B站。

发布于:1年以前  |  648次阅读  |  详细内容 »

威马CDO:中国每百户家庭仅17户有车

日前,威马汽车首席数据官梅松林转发了一份“世界各国地区拥车率排行榜”,同时,他发文表示:中国汽车普及率低于非洲国家尼日利亚,每百户家庭仅17户有车。意大利世界排名第一,每十户中九户有车。

发布于:1年以前  |  589次阅读  |  详细内容 »

研究发现维生素 C 等抗氧化剂会刺激癌症生长和转移

近日,一项新的研究发现,维生素 C 和 E 等抗氧化剂会激活一种机制,刺激癌症肿瘤中新血管的生长,帮助它们生长和扩散。

发布于:1年以前  |  449次阅读  |  详细内容 »

苹果据称正引入3D打印技术,用以生产智能手表的钢质底盘

据媒体援引消息人士报道,苹果公司正在测试使用3D打印技术来生产其智能手表的钢质底盘。消息传出后,3D系统一度大涨超10%,不过截至周三收盘,该股涨幅回落至2%以内。

发布于:1年以前  |  446次阅读  |  详细内容 »

千万级抖音网红秀才账号被封禁

9月2日,坐拥千万粉丝的网红主播“秀才”账号被封禁,在社交媒体平台上引发热议。平台相关负责人表示,“秀才”账号违反平台相关规定,已封禁。据知情人士透露,秀才近期被举报存在违法行为,这可能是他被封禁的部分原因。据悉,“秀才”年龄39岁,是安徽省亳州市蒙城县人,抖音网红,粉丝数量超1200万。他曾被称为“中老年...

发布于:1年以前  |  445次阅读  |  详细内容 »

亚马逊股东起诉公司和贝索斯,称其在购买卫星发射服务时忽视了 SpaceX

9月3日消息,亚马逊的一些股东,包括持有该公司股票的一家养老基金,日前对亚马逊、其创始人贝索斯和其董事会提起诉讼,指控他们在为 Project Kuiper 卫星星座项目购买发射服务时“违反了信义义务”。

发布于:1年以前  |  444次阅读  |  详细内容 »

苹果上线AppsbyApple网站,以推广自家应用程序

据消息,为推广自家应用,苹果现推出了一个名为“Apps by Apple”的网站,展示了苹果为旗下产品(如 iPhone、iPad、Apple Watch、Mac 和 Apple TV)开发的各种应用程序。

发布于:1年以前  |  442次阅读  |  详细内容 »

特斯拉美国降价引发投资者不满:“这是短期麻醉剂”

特斯拉本周在美国大幅下调Model S和X售价,引发了该公司一些最坚定支持者的不满。知名特斯拉多头、未来基金(Future Fund)管理合伙人加里·布莱克发帖称,降价是一种“短期麻醉剂”,会让潜在客户等待进一步降价。

发布于:1年以前  |  441次阅读  |  详细内容 »

光刻机巨头阿斯麦:拿到许可,继续对华出口

据外媒9月2日报道,荷兰半导体设备制造商阿斯麦称,尽管荷兰政府颁布的半导体设备出口管制新规9月正式生效,但该公司已获得在2023年底以前向中国运送受限制芯片制造机器的许可。

发布于:1年以前  |  437次阅读  |  详细内容 »

马斯克与库克首次隔空合作:为苹果提供卫星服务

近日,根据美国证券交易委员会的文件显示,苹果卫星服务提供商 Globalstar 近期向马斯克旗下的 SpaceX 支付 6400 万美元(约 4.65 亿元人民币)。用于在 2023-2025 年期间,发射卫星,进一步扩展苹果 iPhone 系列的 SOS 卫星服务。

发布于:1年以前  |  430次阅读  |  详细内容 »

𝕏(推特)调整隐私政策,可拿用户发布的信息训练 AI 模型

据报道,马斯克旗下社交平台𝕏(推特)日前调整了隐私政策,允许 𝕏 使用用户发布的信息来训练其人工智能(AI)模型。新的隐私政策将于 9 月 29 日生效。新政策规定,𝕏可能会使用所收集到的平台信息和公开可用的信息,来帮助训练 𝕏 的机器学习或人工智能模型。

发布于:1年以前  |  428次阅读  |  详细内容 »

荣耀CEO谈华为手机回归:替老同事们高兴,对行业也是好事

9月2日,荣耀CEO赵明在采访中谈及华为手机回归时表示,替老同事们高兴,觉得手机行业,由于华为的回归,让竞争充满了更多的可能性和更多的魅力,对行业来说也是件好事。

发布于:1年以前  |  423次阅读  |  详细内容 »

AI操控无人机能力超越人类冠军

《自然》30日发表的一篇论文报道了一个名为Swift的人工智能(AI)系统,该系统驾驶无人机的能力可在真实世界中一对一冠军赛里战胜人类对手。

发布于:1年以前  |  423次阅读  |  详细内容 »

AI生成的蘑菇科普书存在可致命错误

近日,非营利组织纽约真菌学会(NYMS)发出警告,表示亚马逊为代表的电商平台上,充斥着各种AI生成的蘑菇觅食科普书籍,其中存在诸多错误。

发布于:1年以前  |  420次阅读  |  详细内容 »

社交媒体平台𝕏计划收集用户生物识别数据与工作教育经历

社交媒体平台𝕏(原推特)新隐私政策提到:“在您同意的情况下,我们可能出于安全、安保和身份识别目的收集和使用您的生物识别信息。”

发布于:1年以前  |  411次阅读  |  详细内容 »

国产扫地机器人热销欧洲,国产割草机器人抢占欧洲草坪

2023年德国柏林消费电子展上,各大企业都带来了最新的理念和产品,而高端化、本土化的中国产品正在不断吸引欧洲等国际市场的目光。

发布于:1年以前  |  406次阅读  |  详细内容 »

罗永浩吐槽iPhone15和14不会有区别,除了序列号变了

罗永浩日前在直播中吐槽苹果即将推出的 iPhone 新品,具体内容为:“以我对我‘子公司’的了解,我认为 iPhone 15 跟 iPhone 14 不会有什么区别的,除了序(列)号变了,这个‘不要脸’的东西,这个‘臭厨子’。

发布于:1年以前  |  398次阅读  |  详细内容 »
 相关文章
Android插件化方案 5年以前  |  237231次阅读
vscode超好用的代码书签插件Bookmarks 2年以前  |  8065次阅读
 目录