爬虫初试－股票数据爬取

2016-11-04 本文已影响225人帝Bug

问题：最近在做股票数据的一些东西，由于多音字的问题，股票的一些拼音缩写搞不定！看到网上专业股票网站上都有现成的数据，于是看了看爬虫的一些东西！简单的写了个python脚本，用来爬取数据！

解决：1:选取专业股票网站，获取股票数据访问链接地址

推荐使用chrome浏览器，内置的调试工具很强大，通过调试工具，找到访问时所需数据发起的请求地址

谢谢网站数据提供

2.找到地址后，例如http://suggest.eastmoney.com/suggest/default.aspx?name=sData&input=600265

里面所需参数保留，没用的参数去除，访问一下试试，能正常获取数据，说明网址获取OK

3.写python脚本，最简单的就是写个for循环，变更参数，不停的去请求该接口，获取不同的数据，然后把有用的数据以特定格式存储，这样一个简单的爬虫脚本就实现了！

以下是我自己写的脚本，仅供参考

# coding=utf-8

importurllib

importurllib2

importdatetime

# url地址http://suggest.eastmoney.com/suggest/default.aspx?name=sData&input=600029&type=

# 参数

defmain():

startime = datetime.datetime.now()

# 测试数据

symbols = [600029,600028,600027]

i =0

forsymbolinsymbols:

values = {

'input': symbol

}

# 进行参数封装

data = urllib.urlencode(values)

# 组装完整url

url ='http://suggest.eastmoney.com/suggest/default.aspx'

# req=urllib2.Request(url,data)

url = url +'?'+ data

# 访问完整url

response = urllib2.urlopen(url)

name = response.read()

name= name.split(',')[3]

# updateStockName(name, sym)

i +=1

endtime = datetime.datetime.now()

printi

printendtime - startime

if__name__ =='__main__':

main()

再次对数据提供网站表示感谢！！！！！！