蛋白质组学

北京青莲百奥生物科技有限公司

多组学推动的精准医学

服务咨询热线

010-53395839

蛋白质组学,糖基化蛋白质组学,多组学联合分析
您当前的位置 : 首 页 > 新闻动态 > 行业资讯

「青莲干货」不会做编程怎么做生信分析(二)

2021-07-14 00:00:00

bef1f919bfe9fa877aa51ddbc40a403.png

b6a874b61bbffd1d00d19c40c069cc1.png

上期我们介绍了Excel的数据处理,想必以前没接触过的人学习后数据处理能力会有明显的提高。俗话说,能力越强,自由度越大。随着数据处理能力的增强,需要处理的数据也越来越杂,很快我们就会发现,仅仅依靠Excel是不够用的。在此,给大家隆重推荐数据处理高手常用的两个简单高效的神器:文本处理软件Notepad++,以及windows中的dos命令操作(linux系统中一般叫shell命令)。




文本处理软件




文本处理软件,就是处理txt格式的软件。windows系统自带了一个文本编辑器,但只有非常基础的功能,用起来很不方便。在此,小编推荐一款名为Notepad++的软件,它凭借着其轻量好用免费的特点深受广大科研人员的喜爱。

Notapad++安装过程





安装过程很简单可以从官网https://notepad-plus-plus.org/downloads/v7.8.8/下载,安装选项默认即可。安装完成后,文本文件就可以通过右键->打开方式->Notepad++打开。


Notapad++基本操作介绍





(1)显示所有字符
你还在经常因为分不清文档中的间隔符号是空格还是Tab键而烦恼吗?Notepad++开启显示所有字符后,轻松分辨各个符号。如图所示,箭头符号表示Tab键,中间小点表示空格,末尾的黑色CRLF表示回车换行符。

设置方式:视图 -> 显示符号 -> 显示所有字符

微信图片_20210714133125.png


(2)选中字符长度计数

Notepad++具有方便的字符计数功能。

微信图片_20210714133135.png

1,文档中总字符个数。
2,文件有几行。
3,光标位置,光标的横纵坐标。
4,两侧的数字分别表示的是选中的字符长度和所占行数。

备注:windows下的回车换行符(CRLF)占用2个字符长度。


利用正则表达式查找替换





下面我们重点介绍一下最常用的查找和替换功能,Notepad++支持正则表达式,使查找替换更方便。什么你不知道什么是正则表达式?正则表达式描述了一种字符串匹配的模式,可以用来检查一个字符串是否含有某种子串、将匹配的子串替换或者从某个字符串中取出符合某个条件的子串等。

1)常用的正则表达式

e7f6e2dc8b77f4afed87bb652d58656.png

2)应用实例

下面我们就用正则表达式为您介绍如何在fasta文件中寻找某个已知序列?
为了方便观察,fasta文件一般每行有80个氨基酸/核苷酸,这会导致我们在检索时发生断点,导致检索不到,所以我们要先整理一下格式,把每个序列分别合成一行。

在这之前,我们先学习一下,如何打开查找替换窗口。按快捷键“Ctrl + H”或者鼠标点击上方工具栏中的“搜索-替换”调出替换窗口。查找模式选择“正则表达式”,在“查找目标”和“替换为”处填入相关内容,最后点击全部替换,即可完成替换。


把序列变成一行有很多种方法,小编的办法是先在包含”>”的行两侧添加标记,再把所有的换行符替换成空白,最后再把之前的标记替换成换行符。大家也可以发挥一下想象力,想想有没有更好的方法。

第一次替换为:“(?<name>^>.*)”替换为“##$+{name}##”,其中“^>”表示行开头是“>”,“.*”表示任意字符至少0个,加起来“^>.*”表示的就是包含“>”的行了,“(?<name>^>.*)”表示的是把括号内匹配到的内容写入到变量“?<name>”里。“##$+{name}##”表示的意思是把刚才匹配到的内容$+{name}的两边添加一个标记,这里标记我用了2个#号。
第二次替换为:“\n”替换为“”空。

第三次替换为:“##”替换为“\n”

初次使用正则表达式,大家可能不太习惯,可以多看两次消化消化。
注意:显示所有符号时,末尾的[CRLF]用\r\n表示。[LF]用\n表示。还有需要注意的是正则表达式里所有的符号均为英文符号。

好了准备工作终于做完了,下面我们就来匹配肽段吧。

按快捷键“Ctrl + F”或者鼠标点击上方工具栏中的“搜索-查找”调出搜索窗口。在“查找目标:”中输入我们的肽段,点击计数,会在搜索框的的下方显示匹配到了多少个;点击查找下一个,光标会移动到下一个匹配项。当然也可以选择使用标记功能,Notepad++会把所有匹配到的内容用颜色标记出来。

那么如果我们只想要肽段出现在序列的开头或末尾呢?“^肽段”只会匹配到开头包含该肽段的序列;“肽段$”只会匹配到末尾包含该肽段的序列。注意,查找模式记得选择正则表达式哦。

文件内的操作,我们可以很方便的用Notepad++完成,那么文件外的操作呢?文件的移动,复制又该如何高效完成呢?该轮到dos批处理出场了。



DOS命令操作




DOS命令是早期计算机操作系统使用的,为了用户使用方便才逐渐发展出了windows视窗界面。虽然视窗界面用户体验要好得多,但DOS命令由于其独特的优势依然被保留下来,成为数据处理常用的利器。

DOS是一种面向磁盘的系统软件,有了DOS,我们就可以更容易理解怎么给机器下命令,只需通过一些接近于英语的DOS命令,我们就可以轻松地完成绝大多数的日常操作,提高效率。


什么是DOS命令





DOS是Disk Operating System的缩写,即磁盘操作系统。它是一个基于磁盘管理的操作系统,在微软公司的Windows2000出版之前,DOS 系统基本统治着个人操作系统世界。别看现在Windows图形界面风光无限,但是还是有很多的很难解决或者无法解决的问题,而这个时候我们的DOS系统就可以大显身手了,用DOS命令来解决一些问题,往往会收到事半功倍的效果
批处理是一种简化的脚本语言。它是由Windows系统内嵌的命令解释器CMD)解释运行。类似于Unix中的Shell脚本。批处理文件具有.bat扩展名,其最简单的例子,是逐行书写在命令行中会用到的各种命令。更复杂的情况,需要使用if,for,goto等命令控制程序的运行过程,如同C,Python,R计算机语言一样。简单说就是可以把dos命令写入到bat脚本里,双击运行bat脚本就可以把所有的dos命令批量运行。


如何打开CMD窗口





方式一:快捷键“windows徽标键 + R”弹出运行窗口,输出cmd回车,即可打开。
方式二:在开始菜单的搜索栏,输入cmd或者命令提示符,点击打开。


基本命令





(1)路径操作

cd ..——返回上一级目录

cd 待跳转的路径名称——打开该路径

E:——打开E盘(切换磁盘,直接输入盘符和冒号)

dir——查看当前路径下有哪些文件

微信图片_20210714133411.png


(2)文件新建,删除,移动,复制,重命名

md 文件夹名称——新建文件夹

del 文件(夹)名称——删除文件(夹)

copy 文件(夹)路径——新文件(夹)路径复制文件(夹)

move 文件(夹)路径——新文件(夹)路径移动文件(夹)

ren 文件(夹)名称——新文件(夹)名称重命名文件(夹)

微信图片_20210714133415.png


简单实例:批量改文件名





批量重复的改文件名是很繁琐枯燥的,尤其是只更改文件中的某些字符,这时候dos命令的优越性就体现出来了。枯燥的工作就交给计算机自己干吧。

(1)利用通配符批量改文件名

通配符是一种特殊语句,主要有星号(*)和问号(?),用来模糊搜索文件。“?”可以代表任意单个字符,输入几个“?”就代表几个未知字符“*”可以代表任意多个字符。
现在我有若干文件,分别叫做“a1.jpg”,“a2.jpg,“a3.jpg”等等。如果我想把前缀的字母a改为b该怎么办呢?

微信图片_20210714133418.png

对,只要在该文件路径下,输入“ren a* b*”这串命令就可以了,是不是很简单。我们来解释一下这串命令:ren命令是dos中重命名的命令;a*会匹配到当前文件夹下的所有已a开头的文件,“*”代表任意多个字符b*表示新名称。该命令会把所有匹配到的文件的前缀字母a变为b。

(2)利用bat批处理文件更改文件名

有时候我们重命名可能不会像之前那么有规律,如果我们想完全自定义可以采用dos批处理的方式。

首先我们打开待更改的文件夹,点击“全部选择”,接着点击“复制路径”,我们就成功的把所有文件的路径名称复制到了剪贴板。

微信图片_20210714133507.png

接着,我们在当前文件夹下,新建一个txt文件,并把后缀改为“.bat”,然后右键该文件,选择打开方式,用Notepad++打开。

然后我们把刚才复制的内容粘贴到编Notepad++里。Notepad++的列操作是按住“alt”键和鼠标结合选中的方式,我们用列操作的方式,选中行开头,输入“ren ”,接着在每行的末尾输入空格+新名称。最后不要忘记保存哦。


微信图片_20210714133510.png
好了,见证奇迹的时候到了,我们双击刚才新建的bat文件,重命名就完成了。同理,文件的移动,复制大体过程也跟此类似,dos命令的强大之处还有很多,剩下的还要靠自己探索啦。
至此,我们学习了Notepad++和dos的基本操作,并用他们完成了正则表达式匹配肽段,dos命令批量重命名文件。当然,我们只是演示了一些最基础的处理方式,如果需要更复杂的方法,还需要发掘Notepad++和dos的其它功能,或者采用其它工具辅助的方法实现。



想必有人会觉得Notepad++和dos学起来有点麻烦,宁可不用也不学。但以我们的经验来看,这两个工具入门可能有点费劲,但用熟悉后,融会贯通,你会发现数据处理竟如此简单。

图片

青莲百奥可提供一站式蛋白质组学、代谢组学、转录组学、多组学联合分析等科研服务。青莲百奥在质谱检测方面项目经验丰富,拥有国际一流的质谱平台,海归坐镇专业生信分析团队,助您在科研道路上乘风破浪,冲击高水平文章。更多技术服务敬请来电咨询:010-53395839。


最近浏览:

相关产品

相关新闻

北京青莲百奥生物科技有限公司

固话:010-53395839
邮箱:service@qinglianbio.com
地址:北京市海淀区永丰产业基地绿海大厦C座301


扫一扫,关注我们