Python数据科学Web前端之路Android开发经验谈

Python数据科学(四)- 数据收集系列

2017-11-01  本文已影响137人  一只写程序的猿

传送门:

收集正确的数据是我们完成数据分析的前提.

1.数据型态

  • 定性分析与定量分析应该是统一的,相互补充的;定性分析是定量分析的基本前提,没有定性的定量是一种盲目的、毫无价值的定量;定量分析使定性分析更加科学、准确,它可以促使定性分析得出广泛而深入的结论。

  • 定量分析是依据统计数据,建立数学模型,并用数学模型计算出分析对象的各项指标及其数值的一种方法。定性分析则是主要凭分析者的直觉、经验,凭分析对象过去和现在的延续状况及最新的信息资料,对分析对象的性质、特点、发展变化规律作出判断的一种方法。

  • 相比而言,前一种方法更加科学,但需要较高深的数学知识,而后一种方法虽然较为粗糙,但在数据资料不够充分或分析者数学基础较为薄弱时比较适用,更适合于一般的投资者与经济工作者。但是必须指出,两种分析方法对数学知识的要求虽然有高有低,但并不能就此把定性分析与定量分析截然划分开来。事实上,现代定性分析方法同样要采用数学工具进行计算,而定量分析则必须建立在定性预测基础上,二者相辅相成,定性是定量的依据,定量是定性的具体化,二者结合起来灵活运用才能取得最佳效果。

  • 不同的分析方法各有其不同的特点与性能,但是都具有一个共同之处,即它们一般都是通过比较对照来分析问题和说明问题的。正是通过对各种指标的比较或不同时期同一指标的对照才反映出数量的多少、质量的优劣、效率的高低、消耗的大小、发展速度的快慢等等,才能作为鉴别、下判断提供确凿有据的信息。

举个例子:

◆ 定性分析:
分析: _ 知几写了很多篇文章
◆ 定量分析:
分析:_ 知几写了107篇文章。

我的理解是定量分析主要关注的是频率;定性分析关注的是意义。

定量数据又可分为:

2.结构化vs半结构化vs非结构化数据

1.结构化数据

2.半结构化数据 - XML

<users>
    <user>
        <name>xsl</name>
        <gender>boy</gender>
        <age>23</age>
    </user>
    <user>
      <name>xlm</name>
      <gender>girl</gender>
    </user>
</users>

3.半结构化数据 - JSON

[
  user:{
    name:xsl,
    gender:boy,
    age:12,
},
  user:{
    name:xsl,
    gender:girl,
}
]

4.非结构化数据

由于我们常见的数据是非结构化数据,为了进行数据分析,我们就需要从非结构化数据中挖掘数据,我们就需要先把非结构化数据转换成结构化数据,此时我们就可以使用ETL工具。

数据抽取、转换、存储过程

3.Python IO与档案处理

Python提供了默认操作文件所必需的基本功能和方法。可以使用文件对象执行大部分文件操作。

打开文件

在读取或写入文件之前,需要使用Python的内置open()函数打开文件。此函数创建一个文件对象,该对象将用于调用与其相关联的其他支持方法。

语法:

f = open(file_name [, access_mode][, buffering])
编号 模式 描述
1 r 打开的文件为只读模式。文件指针位于文件的开头,这是默认模式。
2 rb 打开仅用二进制格式读取的文件。文件指针位于文件的开头,这是默认模式。
3 r+ 打开读写文件。文件指针放在文件的开头。
4 rb+ 以二进制格式打开一个用于读写文件。文件指针放在文件的开头。
5 w 打开仅供写入的文件。 如果文件存在,则覆盖该文件。 如果文件不存在,则创建一个新文件进行写入。
6 wb 打开仅用二进制格式写入的文件。如果文件存在,则覆盖该文件。 如果文件不存在,则创建一个新文件进行写入。
7 w+ 打开写入和取读的文件。如果文件存在,则覆盖现有文件。 如果文件不存在,创建一个新文件进行阅读和写入。
8 wb+ 打开一个二进制格式的写入和读取文件。 如果文件存在,则覆盖现有文件。 如果文件不存在,创建一个新文件进行阅读和写入。
9 a 打开一个文件进行追加。 如果文件存在,则文件指针位于文件末尾。也就是说,文件处于追加模式。如果文件不存在,它将创建一个新文件进行写入。
10 ab 打开一个二进制格式的文件。如果文件存在,则文件指针位于文件末尾。 也就是说,文件处于追加模式。如果文件不存在,它将创建一个新文件进行写入。
11 a+ 打开一个文件,用于追加和阅读。 如果文件存在,则文件指针位于文件末尾。 文件以附加模式打开。 如果文件不存在,它将创建一个新文件进行阅读和写入。
12 ab+ 打开一个二进制格式的附加和读取文件。 如果文件存在,则文件指针位于文件末尾。文件以附加模式打开。如果文件不存在,它将创建一个新文件进行读取和写入。
f =open('zj.txt', 'w')  #读写模式
f.write('hello xlm') #写入 hello xlm
f.close() 关闭文件

#用with写
with open('zj.txt', 'r') as f:
    print(f.read()) #全部读取

with open('zj.txt', 'r') as f:
    for line in f.readlines():
        print(line)   #分行打印出来
        print(line.strip())  #去除多余的换行
打开本地文件,可以看到`hello xlm` 已经写入文件
上一篇下一篇

猜你喜欢

热点阅读