数据产品经理该懂的python技术

2018-05-21 本文已影响196人 PMskill产品社区

小奈：其实你们写的代码好像有不同派系的？
大仁：你是说编程语言？我来介绍下吧，我们来看下GitHub（程序员同城交友、代码协作平台）的数据，看下各种编程语言 Pull Requst的数据, Javascript的提交量最高，前端的鼎盛时期，python则处于飞速上升中，很有潜力。Java一直很稳，常年占据了后端主流编程语言第一。

image.png

python热度为何持续上涨？

高富帅

python可以用来干什么呢？

后端开发语言，常见开发架构django；
数据分析，常用库，pandas；
爬虫，scrapy；
人工智能，tensorflow。

人工智能和数据分析，近年来需求持续攀升，这方面人才待遇也是水涨船高，既然python那么能干，热度自然飞速上涨。

爬虫

说到数据分析，我们不得不说下数据来源，一般是内部数据，也有外部数据，外部数据的获取有很多种，最常见的方式就是爬虫了。
爬虫基于robots协议可以公开爬去网络上的信息。

python的工作原理

爬虫工作原理

python中有成熟的爬虫框架（scrapy、bs4），只要你给爬虫一个网址，它就可以去爬取，和输入url类似却又不同，不同的是爬虫会把这些html文件里有用的信息抓取回来，而且爬虫可以爬取该网站相关的其它链接，像是daquan里的abc、123、456等。

小奈：爬取别人的信息会不会违法？
大仁：看你怎么爬取，其实有个爬虫协议（robots），每个网站都可以声明，其实就是声明那些文件可以、那些不可以，下面以淘宝网的robots.txt为例：

User-agent: Baiduspider
Allow: /article
Allow: /oshtml
Disallow: /product/
Disallow: /

遵循robots协议前后

遵循robots协议后，爬取的数据不用于商用，基本上没事，商用的话目前还是灰色地带，混沌蛮荒阶段。

淘宝对百度的屏蔽

当年还可以在百度里搜索到淘宝商品信息，后来淘宝决定对搜索引擎实施不同程度的屏蔽，那时候淘宝体量还没那么大，屏蔽百度，会少了很多站外流量。但是这个关键性的决定，让用户心智统一（淘宝里才可以搜索商品），后面现金流般的淘宝广告就更不说了，站在当时，很考验产品决策人。

搜索引擎

爬虫似乎和搜索引擎密切相关，是的，是时候来科普下，搜索引擎的工作原理。

搜索引擎工作原理

假如你在“JackSearch”，这个搜索引擎里，输入“产品经理”，那么当你点击搜索时，服务器就会去数据库查找，返回相关的文件信息，那么你就会问，这些文件是哪来的？
是爬虫们去网页世界里爬取的。

当然，搜索引擎远比这个复杂，爬虫抓取回来的信息，还需要存储，建立索引，这个推荐一本书，luence.

image.png

ide

数据产品经理常用工具

pycharm

爬虫框架scrapy

Scrapy: Python开发的一个快速、高层次的屏幕抓取和web抓取框架，用于抓取web站点并从页面中提取结构化的数据。Scrapy用途广泛，可以用于数据挖掘、监测和自动化测试。

201805110249301526021370827_small.gif

数据存储

mysql存储

又双叒叕到了520

520？谁爱我？

天龙八部

大家好，不知道大家看过，天龙八部没？
“天龙八部”是哪八部？“天龙八部”都是“非人”，包括八种神道怪物，因为以“天”及“龙”为首，所以称为“天龙八部”。
八部者，一天，二龙，三夜叉，四乾达婆，五阿修罗，六迦楼罗，七紧那罗，八摩呼罗迦。

看完介绍，还是不懂，没关系，今天主要讲的是，用数据分析，天龙八部里，高频词语，人物关系，以及为什么你还是单身？

自己？

看到下面的词云，为什么”自己“这个词，那么高频？

天龙八部词频

乍看之下，段誉词频（1551）最高。其实要结合“业务”，实则乔峰才是正主。要从乔峰的身世说起，开头中，乔峰是丐帮帮主，后身世揭破，契丹人也，改名萧峰。
所以乔峰的词频（1900+）=乔峰（963）+萧峰（966）

南慕容，北乔峰

段誉

从词语中，我们可以看出，写作手法，乔峰(段誉)听/笑/呆/动词，所以人物+动词。

人物关系图

故事有好多条主线。
一、寻仇：其中虚竹和乔峰，为什么关系最亲密？因为虚竹的爸是杀死乔峰的爸的带头大哥，寻仇是小说的主线之一。

小说主线一寻仇
二、段正淳恋爱史：从另一角度看，可以说是，大理镇南王，段正淳恋爱史，他和几位女人谈恋爱，并生下的都全都是女儿，女儿再一个个，和段誉谈恋爱，搞得段誉很痛苦，最后发现自己，不是亲生的故事。

段正淳的恋爱史

总结来说

故事是由“慕容博”和“段正淳”，两位大Boss挑起的,各负责一条主线。

那就要看阁下有几斤几两了

慕容博想光复燕国，才策划杀死萧家，企图引起两国战乱，引起萧父报仇；

镇南王，则是负责拈花若草，一身情债，一个人很爽，搞得很多人很痛苦，最后自杀，搞得王夫人、马夫人，各种痛苦，阿朱得替父挡仇，被乔峰错手打死，乔峰痛苦，和段誉谈恋爱有都是自己的妹妹，妹妹、段誉都很痛苦，最后发现自己不是亲生的，释然了。

520又到了，为什么你还单身？

拈花若草大boss

段正淳：拈花若草，大boss，没你就没那么多破事了，魅力指数10000。
虚竹：憨厚老实，杀人有艳福，从和尚到灵鹫宫主到附马，屌丝逆袭的故事，艳福指数1000；
段誉：始终如一，追了王姑娘，几十集电视剧，最后真情打动王语嫣，另一角度看，有点“备胎上位”的感觉，对么？幸福指数，500；
王语嫣：从小爱慕表哥，最后被拒，被段誉打动，幸福指数，400；
乔峰：丐帮帮主，侠之大者，身世悲惨，想和阿朱牧马放羊，却一掌错杀阿朱，为和平而死，幸福指数，100；
阿朱：小婢，从小没有父爱、母爱，一直崇拜乔峰，大英雄，为父挡仇，为“孝”牺“爱”，幸福指数，100；
啊紫：执着，只爱乔峰一人，最后很痛苦就是了，痛苦指数5000；

看了那么多故事，依然谈不好恋爱，你们呢？

实战分割线

一、词云

这里主要用到了两个库，jieba分词用的，wordcloud词云用，matplib显示用。

下载小说txt文件；
准备一张mask（遮罩）图片；
字体；

#coding:utf-8

from os import path
from collections import Counter
import jieba
from PIL import Image
import numpy as np
import matplotlib.pyplot as plt
from wordcloud import WordCloud, STOPWORDS

if __name__=='__main__':

    #读取文件
    d = path.dirname(__file__)
    pardir = path.dirname(d)
    pardir2 = path.dirname(pardir)

    cyqf = path.join(pardir2,'tlbbqf/')

    text = open(path.join(d,'tlbb.txt'), encoding="utf-8", errors="surrogateescape").read()
    jieba_word = jieba.cut(text, cut_all=False)   #cut_all 分词模式
    data = []
    for word in jieba_word:
        data.append(word)
    dataDict = Counter(data)

    with open('./词频统计.csv', 'w',  encoding='utf-8') as fw:
        for k,v in dataDict.items():
            fw.write("%s,%d\n" % (k,v))

    mask = np.array(Image.open(path.join(d, "mask.png")))
    font_path=path.join(d,"font.ttf")
    stopwords = set(STOPWORDS)
    wc = WordCloud(background_color="white",
                   max_words=2000, 
                   mask=mask,
                   stopwords=stopwords, 
                   font_path=font_path)
    # 生成词云
    wc.generate(text)
    # 生成的词云图像保存到本地
    wc.to_file(path.join(d, "wordcloud.png"))
    # 显示图像
    plt.imshow(wc, interpolation='bilinear')
    plt.axis("off")
    plt.show()

二、人物关系图

统计词频

  text = open(path.join(d,'tlbb.txt'), encoding="utf-8", errors="surrogateescape").read()
    jieba_word = jieba.cut(text, cut_all=False)   #cut_all 分词模式
    data = []
    for word in jieba_word:
        data.append(word)
    dataDict = Counter(data)