📃 文件管理
一、引言
操作系统作为系统资源的管理者,提供的功能主要有
- 处理机管理
- 存储器管理
- 文件管理
- 设备管理
计算机中存放了各种各样的文件,一个文件有哪些属性? 文件内部的数据应该怎样组织起来? 文件之间又应该又应该怎么组织起来?
从下往上看,OS应提供哪些功能,才能方便用户、应用程序使用文件?
从上往下看,文件数据应该怎么存放在外存(磁盘)上?
二、文件的逻辑结构
1. 逻辑结构的概念
所谓的“逻辑结构”,就是指在用户看来, 文件内部的数据应该是如何组织起来的。
而 “物理结构”指的是在操作系统看来,文件的数据是如何存放在外存中的。
类似于数据结构的“逻辑结构”和“物理结构”。
如“线性表”就是一种逻辑结构,在用户角度看来,线性表就是一组有先后关系的元素序列,如:a, b,c,d,e…… “线性表”这种逻辑结构可以用不同的物理结构实现,如:顺序表/链表。顺序表的各个元素在逻辑 上相邻,在物理上也相邻;
而链表的各个元素在物理上可以是不相邻的。因此,顺序表可以实现“随 机访问”,而“链表”无法实现随机访问。
可见,算法的具体实现与逻辑结构、物理结构都有关(文件也一样,文件操作的具体实现与文件的逻 辑结构、物理结构都有关)
文件的逻辑结构分为:
无结构文件
有结构文件
- 顺序文件
- 索引文件
- 索引顺序文件
2. 无结构文件
无结构文件:文件内部的数据就是一系列二进制流或字符流组成。又称“流式文件”。
如: Windows操作系统中的.txt 文件。
文件内部的数据其实就是一系 列字符流,没有明显的结构特 性。因此也不用探讨无结构文件的逻辑结构问题。
3. 有结构文件
a. 定义
有结构文件:由一组相似的记录组成,又称“记录式文件”。每条记录又若干个数据项组成。
如: 数据库表文件。一般来说,每条记录有一个数据项可作为关键字(作为识别不同记录的ID),记录可以是定长的或可变长的
b. 逻辑结构
根据有结构文件中的各 条记录在逻辑上如何组 织,可以分为三类
- 顺序文件
- 索引文件
- 索引顺序文件
顺序文件
文件中的记录一个接一个地顺序排列(逻辑上),记录可以是定长的或可变长的。各个记录在物理上可以顺序存储或链式存储。
索引文件
对于可变长记录文件,要找到第i个记录,必须先顺序第查找前i-1个记录, 但是很多应用场景中又必须使用可变长记录。如何解决这个问题?
建立一张索引表以加快 文件检索速度。每条记录对应一个索引项。
索引顺序文件
思考索引文件的缺点:每个记录对应一个索引表项,因此索引表可能会很大。
比如:文件的每个记录平均只占8B,而每个索引表项占32个字节,那么索引表都要比文件内容本身大4倍,这样对存储空间的利用率就太低了。
索引顺序文件是索引文件和顺序文件思想的 结合。
索引顺序文件中,同样会为文件建立 一张索引表,但不同的是:并不是每个记录 对应一个索引表项,而是一组记录对应一个索引表项。
为了进一步提高检索效率,可以为顺序文件建立多级索引表。
三、文件目录
1. 文件控制块 FCB
目录本身就是一种有结构文件,由一条条记录组成。每条记录对应一个放在该目录下的文件。
目录文件中的一条记录就是一个 文件控制块FCB
FCB的有序集合称为文件目录,一个FCB就是一个文件目录项。
FCB实现了文件名和文件之间的映射。
2. 目录结构
- 单极目录结构
早期操作系统不支持多级目录,整个系统中只有一张目录表,每个文件占一个目录项目,不允许文件重名
- 两级目录结构
早期的多用户操作系统,采用两级目录结构,分为 主文件目录 和 用户文件目录
两级目录结构允许不同用户的文件重名,但依然缺乏灵活性,用户不能对自己的文件进行分类
- 多级目录结构
又称树形目录结构,不同目录下的文件可以重名
树形目录结构可以很方便的对文件进行分类,层次结构清晰,也能够有效的对文件进行管理和保护,但树形结构不便于实现文加共享。为此,提出了无环图目录结构
- 无环图目录结构
可以用不同的文件名指向同一个文件,甚至同一个目录
3. 索引结点—FCB的改进
- 除了文件名之外的所有信息都放到索引结点中,每个文件对应一个索引结点
- 目录项中只包含文件名、索引结点指针,每个目录项的长度大幅减小
- 由于目录项长度减小,因此磁盘中可以存放更多目录项,因此检测文件时磁盘I/O的次数减少了很多
四、文件的物理结构(文件分配方式)
1. 定义
文件分配方式:即文件数据应该怎样存放在外存中
连续分配
链接分配
隐式链接
显示链接
索引分配
2. 连续分配
连续分配方式要求每个文件在磁盘上占有一组连续的块。
连续分配支持顺序访问 和直接访问(即随机访问)
读取某个磁盘块时,需要移动磁头。访问的两个磁盘块相隔越远,移动磁头所需时间就越长。
- 优点:连续分配的文件在顺序读/写时速度最快,支持顺序访问和随机访问;
- 缺点:物理上采用连续分配的文件不方便拓展,存储空间利用率低,会产生难以利用的磁盘碎片。
3. 链接分配
链接分配采取离散分配的方式,可以为文件分配离散的磁盘块。分为隐式链接和显式链接两种。
隐式链接
除文件的最后一个盘块之外,每个盘块中都存有指向下一个盘块的指针。文件目录包括文件第一块的指针和最后一块的指针。
优点:很方便文件拓展,不会有碎片问题,外存利用率高。
缺点:只支持顺序访问,不支持随机访问,查找效率低,指向下一个盘块的指针也需要耗费少量 的存储空间。
显示链接
把用于链接文件各物理块的指针显 式地存放在一张表中。即 文件分配表(FAT,FileAllocationTable)
注意:一个磁盘仅设置一张FAT。 开机时,将FAT读入内存,并常驻 内存。
优点:很方便文件拓展,不会有碎片问题,外存利用率高,并且支持随机访问。相比于隐式链接 来说,地址转换时不需要访问磁盘,因此文件的访问效率更高。
缺点:文件分配表的需要占用一定的存储空间。
4. 索引分配
索引分配允许文件离散地分配在各个磁盘块中,系统会为每个文件建立一张索引表,索引表中记录了文 件的各个逻辑块对应的物理块(索引表的功能类似于内存管理中的页表——建立逻辑页面到物理页之间 的映射关系)。索引表存放的磁盘块称为索引块。文件数据存放的磁盘块称为数据块。
可见,索引分配方式可以支持随机访问。 文件拓展也很容易实现(只需要给文件分配一个空闲块,并增加一个索引表项即可) 但是索引表需要占用一定的存储空间
若文件太大,索引表项太多,可以采取以下三种方法解决:
① 链接方案:如果索引表太大,一个索引块装不下,那么可以将多个索引块链接起来存放。
缺点:若文 件很大,索引表很长,就需要将很多个索引块链接起来。想要找到i号索引块,必须先依次读入0~i-1 号索引块,这就导致磁盘I/O次数过多,查找效率低下。
② 多层索引:建立多层索引(原理类似于多级页表)。使第一层索引块指向第二层的索引块。还可根据 文件大小的要求再建立第三层、第四层索引块。采用K层索引结构,且顶级索引表未调入内存,则访问 一个数据块只需要K+1次读磁盘操作。
缺点:即使是小文件,访问一个数据块依然需要K+1次读磁盘。
③ 混合索引:多种索引分配方式的结合。
例如,一个文件的顶级索引表中,既包含直接地址索引(直接 指向数据块),又包含一级间接索引(指向单层索引表)、还包含两级间接索引(指向两层索引表) 。
优点:对于小文件来说,访问一个数据块所需的读磁盘次数更少。
5. 三种文件分配方式总结对比
五、文件共享
1. 基于索引结点的共享方式—硬链接
硬链接实际上就是为文件建一个别名,链接文件和原文件实际上是同一个文件。
在 Linux 的文件系统中,保存在磁盘分区中的文件不管是什么类型都给它分配一个编号,称为索引节点号inode
。
硬链接是不会建立 inode 的,他只是在文件原来的 inode 的 link count 域中增加 1 而已,因此硬链接是不可以跨越文件系统的。
硬链接删除的时候,系统调用会检查 inode link count 的数值,如果大于等于 1,那么 inode 就不会被回收,也即文件的内容不会被删除。
2. 基于符号链的共享方式—软链接
软链接,其实就是建立一个新的文件,这个文件是专门用来指向别的文件的(和快捷方式类似)。
也就是说,软链接会产生一个新的 inode,不过这个 inode 只是指明源文件的字符串信息,一旦源文件删除了,那么软链接将变得毫无意义。
软链接可以跨越文件系统 。
由于软链接的方式访问共享文件时要查询多级目录,会有多次磁盘I/O,因此软链接访问共享文件的速度比硬链接要慢
六、文件保护
1. 口令保护
2. 加密保护
3. 访问控制
七、磁盘
1. 磁盘结构
磁盘:磁盘的表面由一些磁性物质组成,可以用这些磁性物质来记录二进制数据
磁盘结构如下:
磁道(Track):磁盘的盘面被分为一个个磁道。
扇区(Track Sector):一个磁道又被分成一个个扇区,每个扇区就是一个磁盘块,每个扇区中存放的数据量相同。
扇区是最小的物理储存单位,目前主要有 512 bytes 与 4 K 两种大小;
盘面(Platter):一个盘片可能会有多个盘面。所有盘面中相对位置相同大的磁道组成柱面
磁头(Head):与盘面的距离很近,能够将盘面上的磁场转换为电信号(读),或者将电信号转换为盘面的磁场(写);
制动手臂(Actuator arm):用于在磁道之间移动磁头;
主轴(Spindle):使整个盘面转动。
2. 如何在磁盘中读写数据
需要把磁头移动到想要读写的扇区所在的磁道。磁道会转起来,让目标扇区从磁头下面划过,才能完成对扇区的读写操作
3. 磁盘调度算法
读写一个磁盘块的时间的影响因素有:
- 寻道时间(制动手臂移动,使得磁头移动到适当的磁道上)
- 旋转时间(主轴转动盘面,使得磁头移动到适当的扇区上)
- 实际的数据传输时间
其中,寻道时间最长,因此磁盘调度的主要目标是使磁盘的平均寻道时间最短。
先来先服务 FCFS
First Come First Served
按照磁盘请求的顺序进行调度。
优点是公平和简单。缺点也很明显,因为未对寻道做任何优化,使平均寻道时间可能较长。
最短寻道时间优先 SSTF
Shortest Seek Time First
优先调度与当前磁头所在磁道距离最近的磁道。
虽然平均寻道时间比较低,但是不够公平。如果新到达的磁道请求总是比一个在等待的磁道请求近,那么在等待的磁道请求会一直等待下去,也就是出现饥饿现象。具体来说,两端的磁道请求更容易出现饥饿现象。
扫描/电梯算法 SCAN
SSTF算法会产生饥饿的原因在于:磁头有可一直在一个小区域内来回移动。为了防止这个问题,可以规定,只有磁头移动道最外层磁道的时候才能往内移动,移动到最内侧磁道的时候才能往外移动。这就是扫描算法,类似于电梯,电梯总是保持一个方向运行,直到该方向没有请求为止,然后改变运行方向。因此也称电梯算法
循环扫描算法 C-SCAN
SCAN算法对于各个位置磁道的响应频率不平均,而C-Scan算法就是为了解决这个问题。规定只有磁头朝某个特定方向移动时才处理磁道访问请求,而返回时直接快速移动到起始端而不处理任何请求