我爱编程

作业笔记11_selenium

2017-02-07  本文已影响159人  ChZ_CC
  1. 查找tesseract训练的相关资料,尝试训练tesseract
  2. 尝试使用selenium爬取京东上某商品的价格与名称

笔记

动态网页爬虫

【这部分笔记参考了静觅这个博客,有一系列关于Python爬虫的文章,值得一看】

文字图像识别:验证码

Tesseract的使用


作业

1. 尝试训练tesseract

训练步骤:

combine_tessdata orderNo.

以上是老师给的资料中的训练步骤,然而我尝试之后并没有成功。GitHub文档所介绍的像是用Linux系统做的,究竟也没有搞明白。

2. 使用selenium爬取京东上某商品的价格与名称

代码部分:

from selenium import webdriver
import time

driver = webdriver.PhantomJS()
driver.get("http://item.jd.com/3438929.html#")
#driver.page_source
time.sleep(1)
price = driver.find_element_by_class_name("p-price").text
print('商品名称:', driver.title, '\n', '商品价格:', price)
driver.close()

结果输出:

商品名称: 【JDtabJ01】JDtab 魅族 哈曼 富士康 乐视 京东联袂打造7.9英寸平板电脑 2K视网膜屏 4GB+64GB 香槟金 J01 【行情 报 价 价格 评测】-京东
商品价格: ¥1499.00

做的很勉强,用selenium提取信息不太熟练,总是出现InvalidSelectorException这个错误。

上一篇 下一篇

猜你喜欢

热点阅读