网络数据统计分析笔记||读书笔记跋

2020-10-04 本文已影响0人周运来就是我

前情回顾：

从9月3日读李霞老师《生物信息学》教材开始再次关注生物网络数据分析，到10月3日写完《网络数据的统计分析：R语言应用》的笔记。时间刚好一个月，要说一个月的时间入门网络数据分析，那自然是不太可能的。再次花用丘吉尔的话：这不是结束，甚至不是结束的开始，这只是开始的结束（end of the beginning）。路漫漫其修远兮。

网络数据分析是数据结构化之后寻找其内在规律的过程，它也连接了传统的统计方法和近来所谓的机器学习和深度学习，特别诸如深度学习的神经网络之流。这本深入浅出的教材，可以帮助我们尽快地跨过成本线：进入网络数据分析的最小必要知识。从感兴趣到跨过成本线是学习的第一阶梯的一个里程碑事件，以这本书为界，我们对网络数据分析的认知可以明显的划分为两个阶段了。从之前的懵懂感知，到现在了解其基本框架。尽管可能只是网络数据分析的概念，要知道，概念是构筑大厦的砖块。

虽然在2018年就买了这本书，也翻过，但是终究比不上实操一遍来的实际。亚瑟·叔本华曾说，“不加思考地滥读或无休止地读书，所读过的东西无法刻骨铭心，其大部分终将消失殆尽。“ 陆游说：纸上得来终觉浅，绝知此事要躬行。此言得之。

从我们的前情回顾中可以感受到，这本书的逻辑清晰，由易到难，层次递进。属于故事加实操的类型，所以感兴趣加上有点R语言基础的话，读下来还是很顺畅的，只是最后两章需要数学的知识，这就像王安石在《游褒禅山记》中写的一样：

古人之观于天地、山川、草木、虫鱼、鸟兽，往往有得，以其求思之深而无不在也。夫夷以近，则游者众；险以远，则至者少。而世之奇伟、瑰怪，非常之观，常在于险远，而人之所罕至焉，故非有志者不能至也。

有时候就算找到了渔父，也带我们站在了波涛之前，可是这样就能领略大海的美了吗？很可能只有感受而无法理解。这也是后面我们要走的路。

在学习最小必要知识的时候，我一般是囫囵吞枣的，像骆驼一样先把内容连嚼带咽地吞下去，再后面的学习过程中不断反刍。所以有些不求甚解。这当然是有弊端的，益处是能获得全局观，尽管有些模糊。这也是为什么能够在一个月的时间里，从出现学习动机，找到学习材料（这得益于囤书的习惯），最后完成内容模仿（复制黏贴）。

书中印象最深的是网络数据统计分析笔记|| 网络图上的过程建模与预测使用最邻近方法预测蛋白质功能的演示。因为之前也接触过KNN之类的算法，所以有的概念不陌生，也因为自己是做生物信息的，这类问题比较常见。刚好作者介绍了如何在网络图上应用近邻算法做预测，所以cover到了我的点。但是书中的数据集是有点多了，有来ppi蛋白网络，有传染病数据，有律师数据，有教练数据，有政客数据，有计算机网路数据，这样看来就像一部剧的故事线太多了。有时候为了讲一个知识点需要切换不同的描述环境。虽然在操作上只要data()一下载入数据就好了，对读者却带来了不小的切换成本。但是二刷的时候会好很多。

进入新的领域，当然离不开不断地检索。提到检索，我们会吐槽某度。这次在检索的过程中，一个体会是：真的是某度的算法导致我们找不到有价值的信息吗，还是中文世界的信息在质量上就没有外文的多？

同样用必应浏览器，同样的问题在用汉字检索的时候，一般是CNDS，某书，某度百科，某乎，有的会有我国某岛科学家的（繁体字）博客，当然他们后面会跟着一系列的英文链接。但是用有道翻译成英语后，搜到的大部分是相关的wiki，课程，博客，基本是你想要找的内容。为什么？恐怕不只是浏览器排序算法的问题。就拿我们的网络数据分析来说吧，连用的教材都是翻译的，很多基本的概念也是翻译过来的（有的词汇还无法翻译），当然更容易在英语的世界里找到相关的内容了。检索文献，优秀的文章也都是用英语写就的。

中文世界的科普，学术圈，科技文化，我们还有距离的。

我不由得加快了脚步。

网络数据统计分析笔记||读书笔记跋

猜你喜欢

热点阅读