sed与正则表达式格式化小麦的fasta文件

小麦所yck

于 2021-12-23 16:45:10 发布

阅读量1k

点赞数

CC 4.0 BY-SA版权

文章标签：正则表达式生物信息学

本文链接：https://blog.csdn.net/pwbyck/article/details/122110535

本文介绍了如何使用sed命令和正则表达式处理fasta文件，提取基因名称并去除序列内部的换行符。通过sed的行处理特性，结合tr命令，实现了对fasta文件的格式化，尽管在过程中遇到一些限制，如无法使用d和非贪婪匹配，但最终达到了生物信息学处理的需求。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

在ensembleplants上下载到如下序列
小麦的蛋白质序列
格式化最终样式如下：
在这里插入图片描述
具体需求是提取出基因名字并且将序列内部的换行符删除掉，之前都是用一些工具或者python循环处理的方法来做，今天试了一下sed，发现有很多问题。
首先使用sed命令将>后边的内容只保留基因名

cat Triticum_aestivum.IWGSC.pep.all.fa |sed 's/Traes.*gene:\(.*\)transcript:.*/\1/' > wheat_protein.fa

很简单，使用正则表达式将字符串精准匹配，再使用回溯提取字符串，得到了如下格式的文件：

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

小麦所yck

关注关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

正则表达式---简化字符串操作

ll_xiaohanqing_91的博客

04-02

1543

⑴正则表达式:简化普通字符串操作操作字符串： search():返回要查找的字符串第一次出现的位置，查找不到时返回-1. var str = 'abcdefg'; alert ( str.search('bc') ); //返回1 substring(startIndex,endIndex):返回对应位置的子字符串 alert ( str.sub

linux提取fasta文件的id,FASTA序列文件处理一网打尽

weixin_33093403的博客

05-14

5789

参与评论您还未登录，请先登录后发表或查看评论

sed 处理fasta/q 文件

qq_36608036的博客

09-21

998

sed 是一种流编辑器，它一次处理一行内容。处理时，把当前处理的行存储在称为“模式空间”（pattern space）的临时缓冲区中，接着用 sed 命令处理缓冲区中的内容，处理完成后，把缓冲区的内容送往屏幕。接着处理下一行，这样不断重复，直到文件末尾。生成联系文件 leadingsci@DELL5577:~/Test$ cat df.txt Filesystem Size Use...

sed 格式化文件

Aaronzzq的专栏

11-27

761

sed -e"/^$/d" -e 's/[ \t]\+$//g' -e 's/\t/ /g' A.java > B.java 删除A.java中所有的空行和每行结尾的空格, 并把tab替换为四个空格

LINUX 正则表达式与文件格式化处理（sed / awk / diff )

the way to the master

12-13

755

eg1、在/etc下面，只要含有XYZ三个字符的任何一个字符的那一行就列出来，怎么处理？ grep '[XYZ]' /etc/* eg2、将/etc/termcap内容取出来后，去除开头为#的行、去除空白行、取出开头为英文字母的那几行以及最终统计总行数该如何进行？ 1、去除开头为#的行：more /etc/termcap |

正则表达式简易教程

AE86的博客

01-16

420

一、简介       正则表达式简单来讲是一种文本模式，用来匹配某个规则的字符串，虽然规则比较繁琐，但是功能却很强大，应用在某些地方能够大大提高效率。正则表达式的应用也十分广泛，比如网站注册时Email格式校验、文件搜索的表达式、Nginx的路由规则等等。各种语言对正则表达式都有很好的支持，所以学习正则表达式绝对是超值的买卖，只不过需要记...

linux文件格式处理命令cut，grep，sed，awk：批量修改多文件中序列名

liuninghua521的博客

07-23

3666

要处理一份10多个G序列数据的序列名，据说直接的linux命令是最快的，回头来复习一下这几个命令吧。什么是选取命令？就是将一段数据经过分析后，取出我们想要的或者经由分析关键词，取出我们想要的那一行。通常选取信息是针对一行一行来分析的，并不是整篇分析。 ** 1 cut ** cut命令可以将一段信息的某一段给它切出来，也就是将一行里面的数据进行分解，它是以行为单位处理数据的。常用的有两种：（1）对于有特定分隔字符的的文本，分隔后获取其第m‘区域’与n‘区域’的信息： cut -d '分隔的字符'.

使用sed处理fasta序列中的特殊符号

XH生信和机器学习空间

02-11

5722

从网上下载的DNA序列在做生物信息或者机器学习之前，需要对序列进行质控，观察是否有一些特殊字符如“-”，“>"等。sed 是一个字符处理命令，可以使用正则表达式，可以对序列替换，删除，查找等处理，速度非常块，本次使用sed处理序列要处理的序列如下： test$less test.fa >BetaCov/Wuhan/IVDC-HB-01/2019|EPI_ISL_402119 ATTA...

Linux中正则表达式与文件格式化处理命令(awk/grep/sed)

Sean的专栏

03-15

5879

一.正则表达式 1.1国际字符模式匹配或匹配模式的类名 [:alnum:] : 0-9,A-Z,a-z [:alpha:] : A-Z,a-z [:upper:] : A-Z [:lower:] : a-z [:digit:] : 0-9 [:space:] : 空格或tab键 1.2基础正则表达式 ^word：待查找的字符串在行首。 word$：待查找的字符串在行尾。

Linux：文件格式化与相关处理及sed工具

皮皮blog

09-17

3556

http://blog.csdn.net/pipisorry/article/details/52564957 geditor, sed, ed, awk, Emacs 文本处理工具 [Linux Shell 文本处理工具集锦] geditor 最常用的类似windows下的记事本 ubuntu16.04 gedit乱码问题解决 gsettings set org.gnome.ged...

[Linux]（十二） --文件格式化处理awk,sed,printf

hzeyuan.cn

01-15

888

今天学习了下文件格式处理一般常用的三个命令。 1.printf：格式化打印 printf和C语言里面的printf差不多。格式： printf ‘打印格式’ 打印内容参数： \f：清楚屏幕 \n：换行 \t：水平的tab \v：垂直的tab 例子1：发现一对单引号里面是算一个字段，对应一个%s。像这样就全部放在单引号里面，就直接...

Ensembl数据库下载参考基因组（植物拟南芥）

wangprince2017

11-20

2万+

Ensembl数据库下载参考基因组下面以植物拟南芥为例： 1.进入网站：http://plants.ensembl.org/index.html 一些常用的物种列在首页拟南芥，水稻，玉米等如果想要得物种不在首页可以点击：View full list of all Ensembl Plants species ；可以得到所有物种的列表； 2. 点击进入拟南芥参考基因组介绍页面；可以看到拟南芥基因组的介绍信息： 3.下载参考基因组：点击Download D

根据序列ID提取fasta序列

热门推荐

周欣的博客

06-15

2万+

根据序列ID快速抽提fasta序列在进行完序列比对以及，在微生物多样性分析中经常要根据物种信息抽提特定ID的fasta格式的序列文件。传统方法大家肯定是一个个ID去查找，复制，粘贴。这种方法虽然很精确但是效率实在是太低了。如果能用几行命令解决不仅简单高效，而且还能一劳永逸，妈妈再也不用担心我花几天时间在查找序列上了。下面就正式教大家，怎么把两个文件名字不一样的文件中特定想要的序列文件一一匹配并提取...

FASTA Format

yukiooy的专栏

10-27

5103

FASTA格式又称Pearson的格式，该种序列格式要求序列的标题行以大于号">"开头，下一行起为具体的序列。一般建议每行的字符数不超过60个，以方便程序处理。多条核苷酸序列格式即将该格式连续列出即可. This format contains a single header line providing the sequence name, and optionally a d

linux修改数组命令,Linux命令awk,sed使用

weixin_42210284的博客

04-29

534

写在前面perl-oneliner诅咒：即如果你相对熟练perl-oneliner的撰写之后，你就学不会awk和sed.-- CJ以下全文转载，点击阅读原文，可见Balloon_vine简书awk 命令使用记录awk 'BEGIN{Cnt=0}{if($0~/>/){Cnt=Cnt+1;tmp='>TriUnigene'Cnt; $0=tmp; print$0}else{print$0...

sed处理换行符

dualvencsdn的博客

10-12

7133

sed进行文件中的回车符号替换 sed读取一行时，会先把换行符去掉，处理完后再添加上，所以进行换行符替换时，必须使用sed中的特殊命令。 sed ':label;N;s/\n/:/;b label' filename sed ':label;N;s/\n/:/;t label' filename 命令解释： :label; 这是一个标签，用来实现跳转处理，名字可以随便取(label),后面的b label就是跳转指令 N; N是sed的一个处理命令，追加文本流中的下一行到模式空间进行合并处理，因此

python Fasta文件格式化-每行固定数目碱基输出

niuhuihui_fei的博客

05-17

4356

python Fasta文件格式化-每行固定数目碱基输出

Linux纯文字处理：sed与正则表达式

本资源主要介绍的是纯文本处理，特别是使用sed和正则表达式进行文本处理的方法。它出自恒逸资讯公司的shell script教材第五章，该章节涵盖了多种实用的文本处理工具，如cut、tr、sort，以及正则表达式和sed的使用。 ...