大数据py爬虫

开放爬取NBA竞彩数据的爬虫

2014-11-06  本文已影响1621人  紫松

紫松竞彩主攻竞彩NBA。有一份原始的赛程赛果数据很重要,原因我这目前有两点。

1.方便自动化展示每日对阵球队的各项数据对比

NBA常规赛日每天多则8、9场比赛,少则也2、3场比赛。一场比赛还要去看两只球队的情况。如果选择投注时实时地去NBA联赛资料库里查看球队的战绩情况,会非常耗时。不看数据选,风险太大,找数据又太耗时,所以玩竞彩最好能用程序自动地跑出当天对阵双方的各项数据对比。

2.方便灵活统计,验证想法和挖掘规律

按总体,东西部和主客场不同划分纬度去统计球队胜率排行。按照球队排名分区间再统计球队战绩。去看强弱球队的连胜场次和连败场次规律。去挖掘一些球风相克的球队。去验证这些细致的统计或是奇思妙想,去网页上浏览的方法一定会折磨死人。所以,拥有一份全面的原始数据,用一个强大的统计工具(比如R,Excel),是很有必要的。

「紫松竞彩」现在已开放了一个NBA竞彩数据的爬虫程序。托管在了github。需要系统安装Python和Python的一个爬虫框架scrapy。数据来源是500彩票网联赛资料库。使用帮助见github地址。如有使用疑问,或者希望提供其他类型的数据的爬虫,请联系我。

功能介绍

  1. 可通过配置,选择爬取不同赛季不同系列赛事的某几月份或全程竞彩NBA数据。数据来源:http://liansai.500.com/lq/215/proc/
    比如2013/2014赛季的季后赛全部数据,2014/2015赛季的常规赛10月和11月数据。
  2. 可爬取最近一天的NBA球员伤病数据。数据来源:http://www.yingjia8.com/shangbing/nba.html
  3. 可爬取历史赔率数据。数据来源:http://trade.500.com/jclq/index.php

所爬取的赛程数据字段示例

panlu rangfen kedui zhudui_score result date kedui_score zhudui
-10.5 奥兰多魔术 101 2014-10-29 84 新奥尔良鹈鹕
-4.5 达拉斯小牛 101 2014-10-29 100 圣安东尼奥马刺
8.5 休斯顿火箭 90 2014-10-29 108 洛杉矶湖人
-8.5 密尔沃基雄鹿 108 2014-10-30 106 夏洛特黄蜂
-6.5 费城76人 103 2014-10-30 91 印第安纳步行者

所爬取的伤病数据字段示例

player absence role team date injury
勒布朗-詹姆斯 12日缺战雷霆 小前锋 骑士 2014-12-12 膝盖
麦克-米勒 12日缺战雷霆 小前锋 骑士 2014-12-12 脑震荡
大卫-李 14日缺战小牛 大前锋 勇士 2014-12-12 腿筋
乔金姆-诺阿 13日战开拓者成疑 中锋 公牛 2014-12-12 膝盖
道格-迈克德莫特 13日战开拓者成疑 小前锋 公牛 2014-12-12 膝盖
泰-吉布森 13日战开拓者成疑 大前锋 公牛 2014-12-12 脚踝
托尼-帕克 13日战湖人成疑 后卫 马刺 2014-12-12 腿筋
凯文-加内特 13日战76人成疑 大前锋 篮网 2014-12-12
卡梅隆-安东尼 13日战凯尔特人成疑 小前锋 尼克斯 2014-12-11 脚踵
雷吉-布洛克 13日战奇才成疑 得分后卫 快船 2014-12-11 脚踝
克里斯-道格拉斯-罗伯茨 13日战奇才成疑 得分后卫 快船 2014-12-11 跟腱
乔-约翰逊 13日战76人成疑 小前锋 篮网 2014-12-11 生病

所爬取的赔率数据字段示例

zhu_range zhu_bet rangfen ke_range kedui rangfen_result ke_bet zhu_odds rangfen_odds result ke_odds date zhudui
东15 14% +10.5 西1 火箭 主负 85% 5.10 1.72 1.05 2014-11-03 76人
东2 32% -7.5 西13 雷霆 主胜 67% 1.21 1.77 3.10 2014-11-03 篮网
西2 67% -3.5 西11 鹈鹕 主胜 32% 1.42 1.72 2.25 2014-11-03 灰熊
西6 84% -9.5 东12 凯尔特人 主负 15% 1.06 1.71 4.85 2014-11-04 小牛
西10 49% -6.5 西4 国王 主负 50% 1.27 1.72 2.76 2014-11-04 掘金
西5 90% -10.5 西14 爵士 主负 9% 1.08 1.80 4.47 2014-11-04 快船
西2 65% -6.5 西6 马刺 主胜 34% 1.23 1.76 主胜 2.98 2014-11-06 火箭

windows下详细安装和使用方法

  1. 下载并安装Python2.7 地址:https://www.python.org/ftp/python/2.7.9/python-2.7.9.msi。假设最后Python安装在目录:D:\Python27(就是python.exe所在的目录)
  2. 配置Python的环境变量,见教程http://jingyan.baidu.com/article/b0b63dbff271e24a4830708d.html
  3. 下载并安装easy_install,见教程http://jingyan.baidu.com/article/b907e627e78fe146e7891c25.html
  4. 下载并安装pip,见教程http://jingyan.baidu.com/article/e73e26c0d94e0524adb6a7ff.html
  5. 使用pip按照scrapy,进入windows系统的cmd命令框,输入:pip install scrapy
  6. 下载我写好的爬虫程序,并解压缩,https://github.com/tracl01/zisongjingcai/archive/master.zip。假设解压在了C:\zisongjingcai
  7. 从cmd里进入C:\zisongjingc\crawlers\nba
  8. 运行命令:scrapy crawl nba_lottery -o nba-data.csv -t csv即可将数据爬取下来,并存在当前目录下的nba-data.csv文件中。
上一篇下一篇

猜你喜欢

热点阅读