Shell 命令1

发表于 2022-03-07 更新于 2022-06-07 分类于 Learn ， Shell 阅读次数：本文字数： 5.3k 阅读时长 ≈ 5 分钟

查看当前目录下哪个文件占用空间最大？

1
2
3

du -h --max-depth=1
# 查看服务器磁盘空间使用情况
df -h

切割字符串

1
2
3

awk 'NR==1' seq.fasta > seq_need.fasta && sed -n '2,$p' seq.fasta | xargs | sed 's/ //g' | cut -c -start >> seq_need.fasta && sed -n '2,$p' seq.fasta | xargs | sed 's/ //g' | cut -c end- >> seq_need.fasta
# 注意 start > 1;
# 上面的命令直接提取 seq.fasta 103-end碱基到seq_need.fasta文件中

find

find dir -name "***"  # 在目录dir下查找文件名满足 *** 的文件；并打印
find ./ -name "*_mjw.*"  # 在当前目录下查询还有 _mjw. 字段的文件
find dir -regex "***"  # 基于正则表达式进行文件名匹配查找
find ./ -size 10k -ls  # 表示查询文件大小在9k-10k之间的文件；-ls：表示详细显示查询到的文件信息
find -name april* fprint file 在当前目录下查找以april开始的文件，并把结果输出到file中
find -name ap* -o -name may* 查找以ap或may开头的文件
find . -name .svn | xargs rm -rf # 直接将查询到的文件删除
# 其他参数
---size：根据文件大小查询；文件大小前有+表示查找大于size的文件；-表示小于
---iname：表示文件名匹配不区分大小写
---type：根据文件类型查询；f--普通文件；d--目录；c--字符文件；b--块文件；l--符号链接文件；p--管道设备文件；s--套接字设备文件
# 组合查找参数
---a：相当于 && ，且
---o：相当于 || ，或
---not：相当于 ！，非

echo

1 2	echo -e '\n' # 输出换行；注意这里必须添加 -e 参数；-e 代表激活转义字符 # 使用 echo 输出代码块时，建议使用单引号；而双引号用在变量等其他地方

xargs

# xargs 命令可以捕获一个命令的输出，然后传递给另外一个命令；关键是可用于很多不支持管道 | 来传递参数
    somecommand | xargs -item command
# 其他参数
        -a file 从文件中读入作为 stdin
        -e flag ，注意有的时候可能会是-E，flag必须是一个以空格分隔的标志，当xargs分析到含有flag这个标志的时候就停止。
        -p 当每次执行一个argument的时候询问一次用户。
        -n num 后面加次数，表示命令在执行的时候一次用的argument的个数，默认是用所有的。
        -t 表示先打印命令，然后再执行。
        -i 或者是-I，这得看linux支持了，将xargs的每项名称，一般是一行一行赋值给 {}，可以用 {} 代替。
        -r no-run-if-empty 当xargs的输入为空的时候则停止xargs，不用再去执行了。
        -s num 命令行的最大字符数，指的是 xargs 后面那个命令的最大命令行字符数。
        -L num 从标准输入一次读取 num 行送给 command 命令。
        -l 同 -L。
        -d delim 分隔符，默认的xargs分隔符是回车，argument的分隔符是空格，这里修改的是xargs的分隔符。
        -x exit的意思，主要是配合-s使用。。
        -P 修改最大的进程数，默认是1，为0时候为as many as it can ，这个例子我没有想到，应该平时都用不到的吧。

如何从第二行开始打印？

1
2
3

awk 'NR > 1{print $0}' file
# or
sed -n '2,$p' file

如何让多行转换成一行输出？

1 2	awk BEGIN{RS=EOF}'{gsub(/\n/," ");print}' file sed ':a ; N;s/\n/ / ; t a ; ' file

AWK

1
2
3

awk 'NR==FNR{...}NR>FNR{...}'  file1 file2
##    或
awk 'NR==FNR{...}NR!=FNR{...}' file1 file2

读入file1的时候，已读入file1的记录数FNR一定等于awk已读入的总记录数NR，因为file1是awk读入的首个文件，故读入file1时执行前一个命令块{…},当读入file2的时候，已读入的总记录数NR一定>读入file2的记录数FNR，故读入file2时执行后一个命令块{…}

1	awk 'NR==FNR{...;next}{...}' file1 file2

读入file1时，满足NR==FNR，先执行前一个命令块，但因为其中有next命令，故后一个命令块{…}是不会执行的读入file2时，不满足NR==FNR，前一个命令块{..}不会执行，只执行后一个命令块{…}

多于三个文件的处理

当awk处理的文件超过两个时，显然上面那种方法就不适用了。因为读第3个文件或以上时，也满足NR>FNR (NR!=FNR)，显然无法区分开来。所以就要用到更通用的方法了：

ARGIND 当前被处理参数标志:

1	awk 'ARGIND==1{...}ARGIND==2{...}ARGIND==3{...}... ' file1 file2 file3 ...

 ARGV 命令行参数数组:  awk 'FILENAME==ARGV[1]{...}FILENAME==ARGV[2]{...}FILENAME==ARGV[3]{...}...' file1 file2 file3 ...   
 把文件名直接加入判断: awk 'FILENAME=="file1"{...}FILENAME=="file2"{...}FILENAME=="file3"{...}...' file1 file2 file3 ...         #没有前两种通用

# 参考链接：https://linuxcmd.ee-fans.com/c/awk.html
# 说明：在linux下对文本和数据进行处理的一个常用且实用的工具；灵活性是 awk 最大的优势。
# awk 脚本由模式和操作组成
# 模式：正则表达式--关系表达式--模式匹配表达式--BEGIN语句块--pattern语句块--END语句块
# 操作：主要是由一个或者多个命令、函数、表达式组成，之间由换行符或者分号隔开，并位于大括号内
# 操作主要部分：变量/数组赋值--输出命令--内置函数--控制流语句

awk 脚本基本结构：

1	awk 'BEGIN{ print "start" } pattern{ commands } END{ print "end" }' file

工作原理：

1> 执行 BEGIN{ command } 语句块中的语句；
2> 从文件或者标准输入（stdin）读取一行，然后执行 pattern{ commands } 语句块，它会逐行扫描文件，从第一行到最后一行重复这个过程，直到文件全部被读取完毕
3> 当读至输入流末尾时，执行 END{ commands } 语句块。

# 语句块说明：
1> BEGIN语句块：在awk开始从输入流中读取行 之前 被执行；这是一个可选的语句块，比如变量初始化、打印输出表格的表头等语句通常可以写在BEGIN语句块中。
2> END语句块：在awk从输入流中读取完所有的行 之后 即被执行，比如打印所有行的分析结果这类信息汇总都是在 END 语句块中完成，它也是一个可选语句块。
3> pattern语句块：中的通用命令是最重要的部分，它也是可选的。如果没有提供 pattern 语句块，则默认执行 {print} ，即打印每一个读取到的行，awk 读取的每一行都会执行该语句块。

awk 中的 print：当使用不带参数的 print 时，它就打印当前行；当print的参数是以逗号进行分隔时，打印时则以空格作为定界符；在awk的print语句块中的双引号是被当作拼接符使用。

{} 类似于一个循环体，会对文件中的每一行进行迭代，通常变量初始化语句（如：i=0）以及打印文件头部的语句放入 BEGIN 语句块中，将打印的结果等语句放在END语句块中。

awk 内置变量（预定义变量）

说明：[A][N][P][G]表示第一个支持变量的工具，[A]=awk、[N]=nawk、[P]=POSIXawk、[G]=gawk

    **$n**  当前记录的第n个字段，比如n为1表示第一个字段，n为2表示第二个字段。 
    **$0**  这个变量包含执行过程中当前行的文本内容。
[N]  **ARGC**  命令行参数的数目。
[G]  **ARGIND**  命令行中当前文件的位置（从0开始算）。
[N]  **ARGV**  包含命令行参数的数组。
[G]  **CONVFMT**  数字转换格式（默认值为%.6g）。
[P]  **ENVIRON**  环境变量关联数组。
[N]  **ERRNO**  最后一个系统错误的描述。
[G]  **FIELDWIDTHS**  字段宽度列表（用空格键分隔）。
[A]  **FILENAME**  当前输入文件的名。
[P]  **FNR**  同NR，但相对于当前文件。
[A]  **FS**  字段分隔符（默认是任何空格）。
[G]  **IGNORECASE**  如果为真，则进行忽略大小写的匹配。
[A]  **NF**  表示字段数，在执行过程中对应于当前的字段数。
[A]  **NR**  表示记录数，在执行过程中对应于当前的行号。
[A]  **OFMT**  数字的输出格式（默认值是%.6g）。
[A]  **OFS**  输出字段分隔符（默认值是一个空格）。
[A]  **ORS**  输出记录分隔符（默认值是一个换行符）。
[A]  **RS**  记录分隔符（默认是一个换行符）。
[N]  **RSTART**  由match函数所匹配的字符串的第一个位置。
[N]  **RLENGTH**  由match函数所匹配的字符串的长度。
[N]  **SUBSEP**  数组下标分隔符（默认值是34）。

将read_count文件当中的第一列和Annotation.xls第一列一样的用Annotation.xls的第7列替换

1	awk 'NR==FNR{a[$1]=$7}NR!=FNR{print a[$1],$2,$3,$4,$5,$6,$7}' Annotation.xls read_count

将xx文件当中的第一列以及第三列分别和hh以及zz第一列对应起来，分别取对应hh和zz第二列的值替换到xx文件当中

1	awk 'ARGIND==1{a[$1]=$2}ARGIND==2{b[$1]=$2}ARGIND==3{print a[$1],$2,b[$3]}' hh zz xx # ARGIND==1代表处理第一个文件 ARGIND==2代表处理第二个文件 ARGIND==3代表处理第三个文件

cut

1
2
3

# 设置分隔符
cut -d '**' -f1 file  # 按 ** 分割文件，并打印第一列
cut -f2 file  # 按 \t 分割文件，并打印第二列

延时命令

# 在明天15：30执行
at 15:30 tomorrow

# 在2019年10月20日15:30执行
at 15:30 10/20/19

# 在30分钟后执行
at now +30 minutes

atq   # 列出等待中的延时任务
atrm  # 撤销延时任务
atrm 1  # 撤销编号为1的延时任务

#### ctrl+D 退出