perl 和 shell随记

本文深入探讨了Perl中的正则表达式模式匹配技巧,包括复杂的模式如引用字符串和数字范围的匹配。同时,详细解释了如何使用while循环读取和处理文件输入,以及chomp函数在去除字符串末尾特定字符的作用,特别强调了其在处理Fasta格式生物信息学文件的应用。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

1、~ /^\"(.*)\"\s+\<(\d+)-?(\d*)\>\s*$/ perl模式匹配

^\"以”开头,(.*)任意个字符,\"匹配”,\s+匹配一个以上的空白符,\<匹配一个<,(\d+)匹配一个以上的数字,-?匹配连字符-零次或一次,(\d*)匹配0或零个以上的数字,\>匹配>,\s*$/以0至0个以上的空白符结尾

 

2、一般来说,while循环中使用<STDIN><>读取输入后(也包括open关键字打开文件再读取行的情况),第一行就是去除行尾的换行符,所以大多数都采用如下通用格式:

while(<>){
    chomp;
    COMMANDS;
}
 
while(<STDIN>){
    chomp;
    COMMANDS;
}

 

3、chomp()

读取fasta文件,内容如下:

1

2

3

4

5

6

>1

ATGCTAGCTACGTACGTACGTTTTTTTTT

>2

ACGATCGACGATCGTACGTACGTACGATT

>3

ATGCATGCTATACATCAGCTAATATCGCT

#!/usr/bin/perl 
use warnings;
use strict;

my ($fasta) = @ARGV;

open FASTA, $fasta or die "Can't open $fasta";
local $/ = ">";
while (<FASTA>) {
    s/\n//g;
    print qq{$_\n};
}
close $fasta;
$/ = "\n";

运行这段代码,输出结果如下:

1

2

3

4

>

1ATGCTAGCTACGTACGTACGTTTTTTTTT>

2ACGATCGACGATCGTACGTACGTACGATT>

3ATGCATGCTATACATCAGCTAATATCGCT

 

可以看出,$/的值出现在每行的最后;接下来使用chomp函数

#!/usr/bin/perl 
use warnings;
use strict;

my ($fasta) = @ARGV;

open FASTA, $fasta or die "Can't open $fasta";
local $/ = ">";
while (<FASTA>) {
    chomp;
    s/\n//g;
    print qq{$_\n};
}
close $fasta;
$/ = "\n";

输出结果为:

1

2

3

1ATGCTAGCTACGTACGTACGTTTTTTTTT

2ACGATCGACGATCGTACGTACGTACGATT

3ATGCATGCTATACATCAGCTAATATCGCT  

第一行因为是空行,这里没显示出来;可以看到每行末尾的>符号被去除了,所以chomp的真正作用是去除字符串末尾的$/,只是因为默认情况下,$/为\n,造成chomp就是去除\n的假象;

 

 

 

 

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值