perl 和 shell随记

最新推荐文章于 2025-01-14 17:15:33 发布

原创最新推荐文章于 2025-01-14 17:15:33 发布 · 524 阅读

0 ·

CC 4.0 BY-SA版权

shell or perl 专栏收录该内容

1 篇文章

订阅专栏

本文深入探讨了Perl中的正则表达式模式匹配技巧，包括复杂的模式如引用字符串和数字范围的匹配。同时，详细解释了如何使用while循环读取和处理文件输入，以及chomp函数在去除字符串末尾特定字符的作用，特别强调了其在处理Fasta格式生物信息学文件的应用。

1、~ /^\"(.)\"\s+\<(\d+)-?(\d)\>\s*$/ perl模式匹配

^\"以”开头，(.*)任意个字符，\"匹配”，\s+匹配一个以上的空白符，\<匹配一个<,(\d+)匹配一个以上的数字，-？匹配连字符-零次或一次，（\d*）匹配0或零个以上的数字，\>匹配>,\s*$/以0至0个以上的空白符结尾

2、一般来说，while循环中使用<STDIN>或<>读取输入后(也包括open关键字打开文件再读取行的情况)，第一行就是去除行尾的换行符，所以大多数都采用如下通用格式：

while(<>){
    chomp;
    COMMANDS;
}
 
while(<STDIN>){
    chomp;
    COMMANDS;
}

3、chomp()

读取fasta文件,内容如下：

>1

ATGCTAGCTACGTACGTACGTTTTTTTTT

>2

ACGATCGACGATCGTACGTACGTACGATT

>3

ATGCATGCTATACATCAGCTAATATCGCT

#!/usr/bin/perl 
use warnings;
use strict;

my ($fasta) = @ARGV;

open FASTA, $fasta or die "Can't open $fasta";
local $/ = ">";
while (<FASTA>) {
    s/\n//g;
    print qq{$_\n};
}
close $fasta;
$/ = "\n";

运行这段代码，输出结果如下：

>

1ATGCTAGCTACGTACGTACGTTTTTTTTT>

2ACGATCGACGATCGTACGTACGTACGATT>

3ATGCATGCTATACATCAGCTAATATCGCT

可以看出，$/的值出现在每行的最后；接下来使用chomp函数

#!/usr/bin/perl 
use warnings;
use strict;

my ($fasta) = @ARGV;

open FASTA, $fasta or die "Can't open $fasta";
local $/ = ">";
while (<FASTA>) {
    chomp;
    s/\n//g;
    print qq{$_\n};
}
close $fasta;
$/ = "\n";

输出结果为:

1ATGCTAGCTACGTACGTACGTTTTTTTTT

2ACGATCGACGATCGTACGTACGTACGATT

3ATGCATGCTATACATCAGCTAATATCGCT　　

第一行因为是空行，这里没显示出来；可以看到每行末尾的>符号被去除了，所以chomp的真正作用是去除字符串末尾的$/，只是因为默认情况下，$/为\n,造成chomp就是去除\n的假象；