不用Linux也可以的强大文本处理方法

2018-04-26  本文已影响64人  生信宝典

欢迎关注天下博客:http://blog.genesino.com/2017/08/vim-tutorial2/
标题党了,其实是论VIM的使用

做生物信息分析最合适的还是Linux操作系统,所以生信宝典在最开始就推出了Linux学习系列,由浅入深的讲述了Linux学习中的关键点。

主要文章列举如下:

但有时也需要在Windows下做一些操作,可能是Linux当前不可用,也可能不值得折腾。

实现Linux下复杂而又简便的操作,VIM配合正则表达式是一个合适的选择。

VIM是一款功能强大的文本编辑工具,也是我在LinuxWindows下编辑程序和文本最常用的工具。

初识VIM

VIM分多种状态模式,写入模式,正常模式,可视化模式。

进入写入模式后,VIM使用起来可以跟记事本一样了。在写入文字时,可以利用组合键CTRL+nCTRL+p完成写作单词的自动匹配补全,从而加快输入速度,保证输入的前后一致。

正常模式有更强大的快捷键编辑功能,把手从鼠标上解放出来。

跳转操作

正常模式下输入冒号进入更强大的命令行定制功能。

键盘操作不容易被捕获,看右下角可以得到一点信息。

image.png

VIM还有不少魔性操作,具体可以看这两个帖子:

VIM中使用正则表达式

这儿以提取生信宝典公众号中发过的原创文章的HTML代码为例子,获得原创文章的名字和链接,用以制作文章列表。

部分数据如下所示,利用正则表达式的第一步就是找规律。

image

下面的动画展示了如何通过正则表达式,把这段文字只保留题目和链接,并转成Markdown的格式。

image

至此就完成了生信宝典公众号文章到Markdown链接的转换,可以放到菜单栏文章集锦里面方便快速查询了。

一步步的处理也有些麻烦,有没有办法更简单些呢?

image

正则表达式在数据分析中有很多灵活的应用,可以解决复杂的字符串抽提工作。常用的程序语言或命令如pytho, R, grep, awk, sed都支持正则表达式操作,语法也大体相似。进一步学习可参考一下链接:

<footer class="entry-meta" style="box-sizing: border-box; display: block; font-size: 0.75rem; text-transform: uppercase; color: rgba(187, 187, 187, 0.8); margin: 50px 30px 30px; text-align: center; font-family: Lato, Calibri, Arial, sans-serif; font-style: normal; font-variant-ligatures: normal; font-variant-caps: normal; font-weight: 400; letter-spacing: normal; orphans: 2; text-indent: 0px; white-space: normal; widows: 2; word-spacing: 0px; -webkit-text-stroke-width: 0px; text-decoration-style: initial; text-decoration-color: initial;">VIMBIOINFOCHENTONG
版权声明:本文为博主原创文章,转载请注明出处。

alipay.png WeChatPay.png

</footer>

上一篇 下一篇

猜你喜欢

热点阅读