文件管理

🗨️字数统计=3.8k字 ⏳阅读时长≈12分钟

📃 文件管理


一、引言

操作系统作为系统资源的管理者,提供的功能主要有

  • 处理机管理
  • 存储器管理
  • 文件管理
  • 设备管理

计算机中存放了各种各样的文件,一个文件有哪些属性? 文件内部的数据应该怎样组织起来? 文件之间又应该又应该怎么组织起来?

从下往上看,OS应提供哪些功能,才能方便用户、应用程序使用文件?

从上往下看,文件数据应该怎么存放在外存(磁盘)上?

二、文件的逻辑结构

1. 逻辑结构的概念

所谓的“逻辑结构”,就是指在用户看来, 文件内部的数据应该是如何组织起来的。

而 “物理结构”指的是在操作系统看来,文件的数据是如何存放在外存中的。

类似于数据结构的“逻辑结构”和“物理结构”。

如“线性表”就是一种逻辑结构,在用户角度看来,线性表就是一组有先后关系的元素序列,如:a, b,c,d,e…… “线性表”这种逻辑结构可以用不同的物理结构实现,如:顺序表/链表。顺序表的各个元素在逻辑 上相邻,在物理上也相邻;

而链表的各个元素在物理上可以是不相邻的。因此,顺序表可以实现“随 机访问”,而“链表”无法实现随机访问。

可见,算法的具体实现与逻辑结构、物理结构都有关(文件也一样,文件操作的具体实现与文件的逻 辑结构、物理结构都有关)

文件的逻辑结构分为:

  • 无结构文件

  • 有结构文件

    • 顺序文件
    • 索引文件
    • 索引顺序文件

2. 无结构文件

无结构文件:文件内部的数据就是一系列二进制流或字符流组成。又称“流式文件”。

如: Windows操作系统中的.txt 文件。

文件内部的数据其实就是一系 列字符流,没有明显的结构特 性。因此也不用探讨无结构文件的逻辑结构问题。

3. 有结构文件

a. 定义

有结构文件:由一组相似的记录组成,又称“记录式文件”。每条记录又若干个数据项组成。

如: 数据库表文件。一般来说,每条记录有一个数据项可作为关键字(作为识别不同记录的ID),记录可以是定长的或可变长的

b. 逻辑结构

根据有结构文件中的各 条记录在逻辑上如何组 织,可以分为三类

  • 顺序文件
  • 索引文件
  • 索引顺序文件
顺序文件

文件中的记录一个接一个地顺序排列(逻辑上),记录可以是定长的或可变长的。各个记录在物理上可以顺序存储或链式存储。

索引文件

对于可变长记录文件,要找到第i个记录,必须先顺序第查找前i-1个记录, 但是很多应用场景中又必须使用可变长记录。如何解决这个问题?

建立一张索引表以加快 文件检索速度。每条记录对应一个索引项。

索引顺序文件

思考索引文件的缺点:每个记录对应一个索引表项,因此索引表可能会很大

比如:文件的每个记录平均只占8B,而每个索引表项占32个字节,那么索引表都要比文件内容本身大4倍,这样对存储空间的利用率就太低了。

索引顺序文件是索引文件和顺序文件思想的 结合。

索引顺序文件中,同样会为文件建立 一张索引表,但不同的是:并不是每个记录 对应一个索引表项,而是一组记录对应一个索引表项。

为了进一步提高检索效率,可以为顺序文件建立多级索引表

三、文件目录

1. 文件控制块 FCB

目录本身就是一种有结构文件,由一条条记录组成。每条记录对应一个放在该目录下的文件。

目录文件中的一条记录就是一个 文件控制块FCB

FCB的有序集合称为文件目录,一个FCB就是一个文件目录项。

FCB实现了文件名和文件之间的映射。

2. 目录结构

  • 单极目录结构

早期操作系统不支持多级目录,整个系统中只有一张目录表,每个文件占一个目录项目,不允许文件重名

  • 两级目录结构

早期的多用户操作系统,采用两级目录结构,分为 主文件目录 和 用户文件目录

两级目录结构允许不同用户的文件重名,但依然缺乏灵活性,用户不能对自己的文件进行分类

  • 多级目录结构

又称树形目录结构,不同目录下的文件可以重名

树形目录结构可以很方便的对文件进行分类,层次结构清晰,也能够有效的对文件进行管理和保护,但树形结构不便于实现文加共享。为此,提出了无环图目录结构

  • 无环图目录结构

可以用不同的文件名指向同一个文件,甚至同一个目录

3. 索引结点—FCB的改进

  • 除了文件名之外的所有信息都放到索引结点中,每个文件对应一个索引结点
  • 目录项中只包含文件名、索引结点指针,每个目录项的长度大幅减小
  • 由于目录项长度减小,因此磁盘中可以存放更多目录项,因此检测文件时磁盘I/O的次数减少了很多

四、文件的物理结构(文件分配方式)

1. 定义

文件分配方式:即文件数据应该怎样存放在外存中

  • 连续分配

  • 链接分配

    • 隐式链接

    • 显示链接

  • 索引分配

2. 连续分配

连续分配方式要求每个文件在磁盘上占有一组连续的块。

连续分配支持顺序访问 和直接访问(即随机访问)

读取某个磁盘块时,需要移动磁头。访问的两个磁盘块相隔越远,移动磁头所需时间就越长。

  • 优点:连续分配的文件在顺序读/写时速度最快,支持顺序访问和随机访问
  • 缺点:物理上采用连续分配的文件不方便拓展,存储空间利用率低,会产生难以利用的磁盘碎片。

3. 链接分配

链接分配采取离散分配的方式,可以为文件分配离散的磁盘块。分为隐式链接和显式链接两种。

隐式链接

除文件的最后一个盘块之外,每个盘块中都存有指向下一个盘块的指针。文件目录包括文件第一块的指针和最后一块的指针。

优点:很方便文件拓展,不会有碎片问题,外存利用率高。

缺点:只支持顺序访问,不支持随机访问,查找效率低,指向下一个盘块的指针也需要耗费少量 的存储空间。

显示链接

把用于链接文件各物理块的指针显 式地存放在一张表中。即 文件分配表(FAT,FileAllocationTable)

注意:一个磁盘仅设置一张FAT。 开机时,将FAT读入内存,并常驻 内存。

优点:很方便文件拓展,不会有碎片问题,外存利用率高,并且支持随机访问。相比于隐式链接 来说,地址转换时不需要访问磁盘,因此文件的访问效率更高。

缺点:文件分配表的需要占用一定的存储空间。

4. 索引分配

索引分配允许文件离散地分配在各个磁盘块中,系统会为每个文件建立一张索引表,索引表中记录了文 件的各个逻辑块对应的物理块(索引表的功能类似于内存管理中的页表——建立逻辑页面到物理页之间 的映射关系)。索引表存放的磁盘块称为索引块。文件数据存放的磁盘块称为数据块。

可见,索引分配方式可以支持随机访问。 文件拓展也很容易实现(只需要给文件分配一个空闲块,并增加一个索引表项即可) 但是索引表需要占用一定的存储空间

若文件太大,索引表项太多,可以采取以下三种方法解决

  • ① 链接方案:如果索引表太大,一个索引块装不下,那么可以将多个索引块链接起来存放。

    缺点:若文 件很大,索引表很长,就需要将很多个索引块链接起来。想要找到i号索引块,必须先依次读入0~i-1 号索引块,这就导致磁盘I/O次数过多,查找效率低下。

  • ② 多层索引:建立多层索引(原理类似于多级页表)。使第一层索引块指向第二层的索引块。还可根据 文件大小的要求再建立第三层、第四层索引块。采用K层索引结构,且顶级索引表未调入内存,则访问 一个数据块只需要K+1次读磁盘操作。

    缺点:即使是小文件,访问一个数据块依然需要K+1次读磁盘。

  • ③ 混合索引:多种索引分配方式的结合。

    例如,一个文件的顶级索引表中,既包含直接地址索引(直接 指向数据块),又包含一级间接索引(指向单层索引表)、还包含两级间接索引(指向两层索引表) 。

    优点:对于小文件来说,访问一个数据块所需的读磁盘次数更少。

5. 三种文件分配方式总结对比

五、文件共享

1. 基于索引结点的共享方式—硬链接

硬链接实际上就是为文件建一个别名,链接文件和原文件实际上是同一个文件。

在 Linux 的文件系统中,保存在磁盘分区中的文件不管是什么类型都给它分配一个编号,称为索引节点号inode

硬链接是不会建立 inode 的,他只是在文件原来的 inode 的 link count 域中增加 1 而已,因此硬链接是不可以跨越文件系统的。

硬链接删除的时候,系统调用会检查 inode link count 的数值,如果大于等于 1,那么 inode 就不会被回收,也即文件的内容不会被删除。

2. 基于符号链的共享方式—软链接

软链接,其实就是建立一个新的文件,这个文件是专门用来指向别的文件的(和快捷方式类似)。

也就是说,软链接会产生一个新的 inode,不过这个 inode 只是指明源文件的字符串信息,一旦源文件删除了,那么软链接将变得毫无意义。

软链接可以跨越文件系统 。

由于软链接的方式访问共享文件时要查询多级目录,会有多次磁盘I/O,因此软链接访问共享文件的速度比硬链接要慢

六、文件保护

1. 口令保护

2. 加密保护

3. 访问控制

七、磁盘

1. 磁盘结构

磁盘:磁盘的表面由一些磁性物质组成,可以用这些磁性物质来记录二进制数据

磁盘结构如下:

  • 磁道(Track):磁盘的盘面被分为一个个磁道。

  • 扇区(Track Sector):一个磁道又被分成一个个扇区,每个扇区就是一个磁盘块,每个扇区中存放的数据量相同。

    扇区是最小的物理储存单位,目前主要有 512 bytes 与 4 K 两种大小;

  • 盘面(Platter):一个盘片可能会有多个盘面。所有盘面中相对位置相同大的磁道组成柱面

  • 磁头(Head):与盘面的距离很近,能够将盘面上的磁场转换为电信号(读),或者将电信号转换为盘面的磁场(写);

  • 制动手臂(Actuator arm):用于在磁道之间移动磁头;

  • 主轴(Spindle):使整个盘面转动。

2. 如何在磁盘中读写数据

需要把磁头移动到想要读写的扇区所在的磁道。磁道会转起来,让目标扇区从磁头下面划过,才能完成对扇区的读写操作

3. 磁盘调度算法

读写一个磁盘块的时间的影响因素有:

  • 寻道时间(制动手臂移动,使得磁头移动到适当的磁道上)
  • 旋转时间(主轴转动盘面,使得磁头移动到适当的扇区上)
  • 实际的数据传输时间

其中,寻道时间最长,因此磁盘调度的主要目标是使磁盘的平均寻道时间最短。

先来先服务 FCFS

First Come First Served

按照磁盘请求的顺序进行调度。

优点是公平和简单。缺点也很明显,因为未对寻道做任何优化,使平均寻道时间可能较长。

最短寻道时间优先 SSTF

Shortest Seek Time First

优先调度与当前磁头所在磁道距离最近的磁道。

虽然平均寻道时间比较低,但是不够公平。如果新到达的磁道请求总是比一个在等待的磁道请求近,那么在等待的磁道请求会一直等待下去,也就是出现饥饿现象。具体来说,两端的磁道请求更容易出现饥饿现象。

扫描/电梯算法 SCAN

SSTF算法会产生饥饿的原因在于:磁头有可一直在一个小区域内来回移动。为了防止这个问题,可以规定,只有磁头移动道最外层磁道的时候才能往内移动,移动到最内侧磁道的时候才能往外移动。这就是扫描算法,类似于电梯,电梯总是保持一个方向运行,直到该方向没有请求为止,然后改变运行方向。因此也称电梯算法

循环扫描算法 C-SCAN

SCAN算法对于各个位置磁道的响应频率不平均,而C-Scan算法就是为了解决这个问题。规定只有磁头朝某个特定方向移动时才处理磁道访问请求,而返回时直接快速移动到起始端而不处理任何请求

分享到