第二部分：Linux系统文件与目录内容检索

原创于 2025-05-14 20:47:29 发布 · 1k 阅读

23 ·

CC 4.0 BY-SA版权

文章标签：

#linux #运维 #服务器

一、文件和目录内容检索处理命令

1、grep筛选

在文本中查找指定的字符串所在的行。

语法：

grep [选项] file

选项：

选项	作用
-i	忽略大小写。
-v	反转匹配，只显示不匹配的行。
-c	计数，只输出匹配行的数量。
-n	显示匹配行及其行号。
-l(小写L)	只输出包含匹配字符串的文件名。
-L	只输出不包含匹配字符串的文件名。
-q（暂时不用）	静默模式，不输出任何匹配信息。
-E	使用扩展正则表达式。
-o	只输出匹配到的部分，而不是整行内容。
-A [NUM]	打印匹配行和之后的[NUM]行。
-B [NUM]	打印匹配行和之前的[NUM]行。
-C [NUM] 或 --context=[NUM]	打印匹配行及其前后的[NUM]行。
-P	使用Perl正则表达式。
-r 或 --recursive	递归搜索目录中的文件。
-R 或 --text	将二进制文件当作文本文件处理。
-s 或 --no-messages	不显示错误信息。

例如：

grep -i基本用法

grep -i "pattern" filename

该命令会在 filename 文件中搜索包含 pattern 的行，忽略大小写。例如，pattern 可以是 hello，Hello，HELLO 等。

grep -v基本用法

grep -v "pattern" filename

这个命令会从 filename 文件中过滤掉所有包含 "pattern" 的行，只显示不包含该模式的行。

grep -c基本用法

grep -c "pattern" filename

grep -c 是 grep 命令的一个选项，用于统计匹配模式的行数。它不会显示匹配的具体内容，而是直接返回匹配的行数。

"pattern"：要搜索的模式或字符串。
filename：要搜索的文件名。

grep -n基本用法

grep -n "搜索字符串" 文件名

该命令会在指定的文件中搜索包含“搜索字符串”的行，并显示这些行的行号

grep -l基本用法

grep -l "pattern" file1 file2 ...

-l：仅列出包含匹配模式的文件名，而不显示匹配的具体内容。
"pattern"：要搜索的模式，可以是字符串或正则表达式。
file1 file2 ...：要搜索的文件列表。可以使用通配符（如 *.txt）来匹配多个文件。

grep -E基本用法

grep -E "pattern" file

"pattern"：要匹配的正则表达式模式。
file：要搜索的文件名。

grep-r基本用法

grep -r "pattern" /path/to/directory

"pattern" 是要搜索的字符串或正则表达式。
/path/to/directory 是要搜索的目录路径。如果省略路径，则默认在当前目录及其子目录中搜索。

"pattern" 是要搜索的字符串或正则表达式。
/path/to/directory 是要搜索的目录路径。如果省略路径，则默认在当前目录及其子目录中搜索。

2、find查找

find - 递归地在层次目录中处理文件

选项：

选项	作用
-name	根据关键字查找，支持通配符*
-type	根据文件类型查找
-size	根据文件大小查找
-maxdepth	指定查找时的路径深度
-exec	将find命令查找到的内容交给-exec后面的命令再次处理
-user	根据文件的属主进行查找
-perm	根据文件的权限进行查找

例如：

-name基本用法

find /path/to/search -name "filename"

这个命令会在 /path/to/search 目录及其子目录中搜索名为 filename 的文件或目录。

使用通配符

find /path/to/search -name "*.txt"

这个命令会搜索所有以 .txt 结尾的文件。

find -type基本用法

find /path/to/search -type f

使用 -type f 可以查找普通文件（即非目录、符号链接等）。

使用 -type d 可以查找目录。

find /path/to/search -type d

查找符号连接

find /path/to/search -type l

组合使用

find /path/to/search -type f ! -type l

ind 命令支持组合使用多个条件。例如，查找所有普通文件并排除符号链接：

-size基本用法

find 命令是 Linux 和 Unix 系统中用于查找文件和目录的强大工具。-size 选项允许用户根据文件大小来查找文件。以下是 -size 选项的详细用法和示例。

find [路径] -size [大小]

大小单位

-size 选项支持多种单位来指定文件大小：

c：字节（默认单位）
k：千字节（1024 字节）
M：兆字节（1024 千字节）
G：吉字节（1024 兆字节）

查找当前目录下大小大于100字节的文件

查找/home目录下大小小于10k的文件

-maxdepth基本用法

find /path/to/search -maxdepth 1 -name "*.txt"

-maxdepth 选项用于指定 find 命令在搜索文件和目录时的最大深度。深度是指从起始目录开始的层级数。例如，深度为 1 表示只搜索起始目录本身，深度为 2 表示搜索起始目录及其直接子目录。

上述命令将在 /path/to/search 目录中搜索所有扩展名为 .txt 的文件，但不会进入任何子目录。

-user基本用法

find -user 是一个在 Unix/Linux 系统中用于查找属于特定用户文件的命令。

find [路径] -user [用户名]

查找/etc目录下root用户的文件详细信息并且限制搜索深度

3、sort排序

以行对文件进行排序

选项	作用
-f	忽略大小写，会将小写字母都转换为大写字母来进行比较
-b	忽略每行前面的空格
-n	按照数值进行排序
-r	反向排序
-u	等同于uniq，表示相同的数据仅显示一行
-t	指定字段分隔符，默认使用[Tab]键分隔
-k	指定排序字段
-o<输出文件>	将排序后的结果转存至指定文件
-h	友好显示

例如：

sort -f基本用法

sort -f 是 Unix/Linux 命令行工具 sort 的一个选项。它用于在排序时忽略大小写，即将大写字母和小写字母视为相同。这在需要对包含大小写混合的文本进行排序时非常有用。

假设有一个文本文件 file.txt，内容如下：

Apple
banana
Cherry
date

使用 sort -f 命令可以忽略大小写进行排序：

sort -f file.txt

输出结果将会是：

Apple
banana
Cherry
date

其他常用选项

-r：逆序排序（从大到小或从 Z 到 A）。
-n：按数值大小排序。
-u：去除重复行。

例如，使用 sort -f -r 可以忽略大小写并逆序排序：

sort -f -r file.txt

输出结果将会是：

date
Cherry
banana
Apple

当执行sort -n file.txt时：

首先，对于纯数字10、5、3、7，它会按照数值大小正确排序为3、5、7、10。
对于字母a、b、z：

- 在 ASCII 编码中，字母有对应的数值编码。a的 ASCII 码值是 97，b是 98，z是 122（这里只是简单举例其数值编码情况，实际排序时会按照这种类似的数值化处理方式）。

- 按照sort -n的处理方式，它会将这些字母当作数值来处理，所以在上述数字排序之后，字母会按照其对应的编码值进行排序，结果可能类似3、5、7、10、a、b、z（这只是简单示意，实际输出格式可能因系统等因素略有不同）。

但需要注意的是，这种按照数值化处理字母的方式可能并不是你真正期望的合理排序结果。如果想要更合适的按照字母顺序的排序，可以考虑使用其他合适的选项，比如sort（默认按照字典序排序）。如果文本内容比较复杂，包含字母和数字的混合且有特定的排序需求，可能需要进一步对文本进行预处理或者采用更复杂的排序策略。

4、uniq去重

uniq 是 Unix 和类 Unix 系统中的命令，用于从排序的文本数据中去除重复行，仅保留唯一的行。它通常与 sort 命令结合使用，因为 uniq 只能删除相邻的重复行。

语法：

uniq [options] [input_file [output_file]]

选项：

选项	作用
-c	进行计数，并删除文件中重复出现的行
-d	仅显示连续的重复行
-u	仅显示出现一次的行
-i	忽略大小写

例如：

uniq -c基本用法

uniq -c input_file

该命令会读取 input_file 文件，统计连续重复行的数量，并在每行前显示重复次数。

5、tr转换

tr 命令是 Unix 和类 Unix 系统中的一个用于字符转换或删除的实用程序。tr 命令通常用于处理文本数据，例如删除特定字符、替换字符、转换大小写等操作。

语法：

tr [字符] 字符集1 字符集2

选项：

选项	作用
-c	保留字符集1的字符，其他的字符用（包括换行符\n）字符集2替换
-d	删除所有属于字符集1(-d 后面的参数)的字符
-s	将重复出现的字符串压缩为一个字符串；用字符集2 替换字符集1
-t	字符集2 替换字符集1，不加选项同结果

案例：

将文本中的大写字母转换为小写字母：

删除文本中的空格：

将文本中的特定字符替换为另一个字符：

压缩重复字符：

将文本中的所有小写字母转换为大写字母，并删除所有数字：

echo "hello123 world" | tr 'a-z' 'A-Z' | tr -d '0-9'

输出：

6、cut切割

cut 是 Unix 和类 Unix 系统中的命令，用于根据指定的字符分隔符从输入中提取字段。cut 命令用于处理文本文件，通常与管道 (|) 和其他命令一起使用，以进一步处理和分析文本数据。

语法：

cut [选项] [field-spec]

选项：

选项	作用
-f	通过指定哪一个字段进行提取。cut命令使用“TAB”作为默认的字段分割符
-d	“TAB”是默认的分隔符，使用此选项可更改为其他的分隔符
-c	以字符为单位进行分割
- -complement	用于排除所指定的字段
- -output-delimiter	更改输出内容的分隔符
-s	跳过空白字段
-b, -B	仅打印非空白的字段。

案例：

-c基本用法

按字符位置提取。例如，提取每行的第 1 到第 5 个字符：

cut -c 1-5 filename.txt

-f基本用法

按字段提取。默认字段分隔符是制表符（Tab），可以使用 -d 选项指定其他分隔符。

cut -d ',' -f 2 filename.csv

-d基本用法

cut -d ':' -f 1 /etc/passwd

定字段分隔符。例如，使用冒号作为分隔符：

-complement基本用法

cut -d ',' -f 2 --complement filename.csv

--complement：提取除指定部分之外的所有内容。例如，提取除第 2 个字段之外的所有字段：

7、which命令

which 命令在 Unix 和类 Unix 系统中用于查找一个命令的完整路径。当您输入一个命令名称时，which 命令会告诉您该命令位于哪个文件系统中。which 命令通常用于确认命令是否存在于系统 PATH 中，或者用于在脚本中获取命令的确切路径。如果您想要查找的命令不存在于 PATH 中，which 命令将不会返回任何输出。

语法：

which [command]

选项：

选项	作用
-a 或 --all	打印所有匹配的命令路径，而不仅仅是第一个匹配的。
-p 或 --print-path	除了命令名称外，还打印出完整的路径。
-v 或 --version	打印 which 命令的版本信息。

案例：

which-a基本用法

which -a python

假设系统中安装了多个版本的 python，可以使用以下命令查看所有路径：

8、whereis命令

whereis 命令在 Unix 和类 Unix 系统中用于查找二进制文件、源代码文件和手册页的位置。它搜索默认的文件系统路径来确定指定命令的相关文件。

语法：

whereis [-bms] [-u] [-f] [-h] [-L] [-M] [-S] [-version] [command]

选项：

选项	作用
-b 或 --binary	只查找二进制文件。
-m 或 --manual	只查找手册页。
-s 或 --source	只查找源代码文件。
-u 或 --usage	打印使用说明。
-f 或 --follow	跟随符号链接。
-h 或 --help	打印帮助信息。
L 或 --logical	搜索逻辑路径，不包含物理符号链接。
-M 或 --physical	搜索物理路径，不包含逻辑符号链接。
-S 或 --size	只查找指定大小的文件。

例如：

查找 ls 命令的二进制文件、手册页和源代码文件：

whereis ls

输出可能类似于：

ls: /bin/ls /usr/share/man/man1/ls.1.gz

仅查找 ls 命令的二进制文件：

whereis -b ls

输出可能类似于：

ls: /bin/ls

9、diff命令

语法：

diff [选项] 文件1 文件2

选项：

选项	作用
-q 或 --quiet	只输出文件差异的文件名，不显示详细差异。
-c 或 --context	以语境方式显示差异，默认显示3个字符的上下文。
-u 或 --unified	以统一的方式显示差异，这是默认模式，显示共同的祖先与当前文件之间的差异。
-a 或 --text	比较文本文件，忽略文件的格式差异。
-b 或 --ignore-space-change	忽略空白的差异（空格、制表符等）。
-B 或 --ignore-space-at-eol	忽略每行末尾的空白差异。
-i 或 --ignore-case	忽略大小写差异。
-D 或 --horizontal-split	以水平分割的方式显示差异。
-E 或 --sideby-side	以并排的方式显示差异。
-l 或 --from-file	只显示文件2相对于文件1的差异。
-r 或 --recursive	递归地比较目录。
-N 或 --new-file	当文件2是文件1不存在的文件时，只显示文件2的内容。
-x 或 --exclude	跳过指定模式的文件。
-X 或 --exclude-from	从指定的文件中读取排除模式。
--from-file=FILE	同 -l，指定比较的基准文件。
--horizontalsplit	同 -D，以水平分割的方式显示差异。
--left-column	只显示左侧列的差异。
--no-dereference	不解析符号链接。
--old-file	当文件1是文件2不存在的文件时，只显示文件1的内容。
--recursive	同 -r，递归地比较目录。
--right-column	只显示右侧列的差异。
--speed-large-files	用于大文件，减少内存使用。

基本用法：

diff 命令的基本语法如下：

diff [选项] 文件1 文件2

例如，比较两个文件 file1.txt 和 file2.txt 的差异：

diff file1.txt file2.txt

常用选项

-u：以统一格式（unified format）显示差异，通常用于生成补丁文件。
-r：递归比较目录中的所有文件。
-i：忽略大小写差异。
-w：忽略所有空白字符的差异。
-c：以上下文格式显示差异。
-q：仅报告文件是否不同，不显示具体差异。

示例

以统一格式比较两个文件：

diff -u file1.txt file2.txt

递归比较两个目录：

diff -r dir1 dir2

忽略空白字符差异：

diff -w file1.txt file2.txt

输出解释

diff 的输出通常包含以下符号：

<：表示第一个文件中的内容。
>：表示第二个文件中的内容。
---：分隔两个文件的差异部分。
@@：在统一格式中，表示差异的行范围。

生成补丁文件

diff 常用于生成补丁文件，以便将修改应用到其他文件或目录。例如：

diff -u old_file.txt new_file.txt > patch_file.patch

生成的 patch_file.patch 可以通过 patch 命令应用到其他文件。

应用补丁

使用 patch 命令应用补丁文件：

patch file.txt < patch_file.patch

二、文件与目录归档压缩命令

1、tar

归档命令

语法：

tar [选项] [归档文件名] [-C] [解压路径]

选项：

选项	作用
-z，--gzip	用 gzip 对存档压缩
-c, --create	建立新的存档
-v, --verbose	详细显示处理的文件
-f, --file	指定存档文件路径及名称
-j, --bzip2	通过 bzip2 过滤归档
-x, --extract, --get	从归档中解出文件
-C	指定解压后的存储路径
tvf	仅查看归档包中的文件内容
--same-owner	保留文件所有者（需root权限）
-J	使用xz压缩

案例：

创建归档文件

tar -cvf archive.tar file1 file2 dir1

要将多个文件或目录打包成一个 .tar 文件

解压归档文件

tar -xvf archive.tar

ls：

查看归档文件内容

要查看 .tar 文件中的内容而不解压，可以使用以下命令：

tar -tvf archive.tar

压缩归档文件

tar -czvf archive.tar.gz file1 file2 dir1

tar 通常与压缩工具（如 gzip 或 bzip2）结合使用，以创建压缩的归档文件。例如，使用 gzip 压缩：

-z：使用 gzip 压缩

使用 bzip2 压缩：

tar -cjvf archive.tar.bz2 file1 file2 dir1

-j：使用 bzip2 压缩。

解压压缩的归档文件

解压 .tar.gz 文件：

tar -xzvf archive.tar.gz

解压 .tar.bz2 文件：

tar -xjvf archive.tar.bz2

添加文件到现有归档

要向现有的 .tar 文件中添加文件，可以使用以下命令：

tar -rvf archive.tar newfile

-r：向归档文件中添加文件。

从归档中提取特定文件

要从 .tar 文件中提取特定文件，可以使用以下命令：

tar -xvf archive.tar file1 file2

排除特定文件

在创建归档时，可以排除特定文件或目录：

tar -cvf archive.tar --exclude="file1" --exclude="dir1" .

2、zip/unzip

语法：

zip 压缩后的文件名 需要压缩的文件

解压缩命令：

unzip 压缩文件名

3、gzip / gunzip

默认压缩后源文件消失

语法：

gzip 需要压缩的文件
gzip -k filename       # 保留原文件

解压缩命令：

默认解压后源文件消失

gunzip 压缩文件
gunzip -k 压缩文件

4、bzip2 / bunzip2

压缩后源文件消失，压缩率最高

语法：

bzip2 需要压缩的文件

解压缩命令：

解压后源文件消失

bunzip2 压缩文件

5、xz / unxz

压缩文件：

xz filename            # 生成filename.xz

解压文件：
```
unxz filename.xz
```

工具对比

工具/格式	压缩率	速度	典型扩展名	特点
gzip	中	快	.gz	通用，适合文本文件
bzip2	高	慢	.bz2	高压缩率，适合大文件
xz	极高	最慢	.xz	最高压缩率，资源消耗大
zip	中	中	.zip	跨平台（Windows兼容）
tar	无	快	.tar	仅归档，需配合压缩工具使用

三、统计命令

1、wc

统计文件内容的行数、字符数、单词数

wc -l file.txt            # 统计文件行数（常用日志分析）
wc -c file.txt            # 统计字节数
wc -m file.txt            # 统计字符数（与字节数区别在UTF-8环境）
wc -w file.txt            # 统计单词数（以空格分隔）
wc -L file.txt            # 统计最长行的长度

2、du

统计文件占用磁盘空间的容量

du -sh /path/to/dir       # 统计目录总大小（-s汇总，-h人性化显示）
du -h --max-depth=1 /var  # 显示/var下一级子目录大小
du -ah /path              # 显示所有文件及子目录大小（含隐藏文件）

3、高级工具 ncdu

ncdu /path/to/dir          # 交互式分析目录占用（按大小排序，支持删除）
ncdu -x /                  # 不跨越文件系统边界扫描