PyQuery和多线程
2019-02-24 本文已影响0人
姓高名旭升
- PyQuery简介 pyquery相当于jQuery的python实现,可以用于解析HTML网页等
初始化 有 4 种方法可以进行初始化: 可以通过传入 字符串、lxml、文件 或者 url 来使用PyQuery。
from pyquery import PyQuery as pq
from lxml import etree
#传入字符串
d = pq("<html></html>")
#传入lxml
d = pq(etree.fromstring("<html></html>"))
#传入url
d = pq(url='http://google.com/')
#传入文件
d = pq(filename=path_to_html_file)
现在,d 就像 jQuery 中的 $ 一样了。
- 1、.html()和.text() 获取相应的 HTML 块或者文本内容,
p=pq("<head><title>Hello World!</title></head>")
# 获取相应的 HTML 块
print (p('head').html())
# 获取相应的文本内容
print (p('head').text())
输出:
'''
<title>hello Word</title>
Hello World!
'''
- 2、(selector):通过选择器来获取目标内容
d = pq(
"<div><p id='item-0'>test 1</p><p class='item-1'>test 2</p></div>"
)
# 获取 <div> 元素内的 HTML 块
print (d('div').html())
# 获取 id 为 item-0 的元素内的文本内容
print (d('#item-0').text())
# 获取 class 为 item-1 的元素的文本内容
print (d('.item-1').text())
'''输出:
<p id="item-0">test 1</p><p class="item-1">test 2</p>
test 1
test 2
'''
- 3、.eq(index):根据索引号获取指定元素(index 从 0 开始)
d = pq(
"<div><p id='item-0'>test 1</p><p class='item-1'>test 2</p></div>"
)
# 获取第二个 p 元素的文本内容
print (d('p').eq(1).text())
'''输出
test 2
- 4、.find():查找嵌套元素
d = pq("<div><p id='item-0'>test 1</p><p class='item-1'>test 2</p></div>")
# 查找 <div> 内的 p 元素
print d('div').find('p')
# 查找 <div> 内的 p 元素,输出第一个 p 元素
print d('div').find('p').eq(0)
'''输出:
<p id="item-0">test 1</p><p class="item-1">test 2</p>
<p id="item-0">test 1</p>
'''
- 5、.filter():根据 class、id 筛选指定元素
d = pq("<div><p id='item-0'>test 1</p><p class='item-1'>test 2</p></div>")
# 查找 class 为 item-1 的 p 元素
print d('p').filter('.item-1')
# 查找 id 为 item-0 的 p 元素
print d('p').filter('#item-0')
'''输出:
<p class="item-1">test 2</p>
<p id="item-0">test 1</p>
- 6.attr():获取、修改属性值
d = pq("<div><p id='item-0'>test 1</p><a class='item-1'>test 2</p></div>")
# 获取 <p> 标签的属性 id
print(d('p').attr('id'))
# 修改 <a> 标签的 class 属性为 new
print(d('a').attr('class','new'))
'''输出:
item-0
<a class="new">test 2</a>
- 7、其他操作:
#添加 class
.addClass(value):
#判断是否包含指定的 class,返回 True 或 False
.hasClass(value):
#获取子元素
.children():
#获取父元素
.parents():
#获取下一个元素
.next():
#获取后面全部元素块
.nextAll():
#获取所有不匹配该选择器的元素
.not_(selector):
什么是多任务?
- 简单的说,就是操作系统可以同时运行多个任务
threading.Thread参数介绍
- target:线程执行的函数
- name:线程名称
- args:执行函数中需要传递的参数,元组类型 另外:注意daemon参数
- 如果某个子线程的daemon属性为False,主线程结束时会检测该子线程是否结束,如果该子线程还在运行,则主线程会等待它完成后再退出;
- 如果某个子线程的daemon属性为True,主线程运行结束时不对这个子线程进行检查而直接退出,同时所有daemon值为True的子线程将随主线程一起结束,而不论是否运行完成。
- 属性daemon的值默认为False,如果需要修改,必须在调用start()方法启动线程之前进行设置
主线程与子线程的执行顺序
#coding=utf-8
import threading
from time import sleep,ctime
def sing():
for i in range(3):
print("正在唱歌...%d"%i)
sleep(1)
def dance():
for i in range(3):
print("正在跳舞...%d"%i)
sleep(1)
if __name__ == '__main__':
print('---开始---:%s'%ctime())
t1 = threading.Thread(target=sing)
t2 = threading.Thread(target=dance)
t1.start()
t2.start()
t1.join()
t2.join()
#sleep(5) # 屏蔽此行代码,试试看,程序是否会立马结束?
print('---结束---:%s'%ctime())
互斥锁
- 当多个线程几乎同时修改某一个共享数据的时候,需要进行同步控制
- 线程同步能够保证多个线程安全访问竞争资源,最简单的同步机制是引入互斥锁。
- 互斥锁为资源引入一个状态:锁定/非锁定
- 某个线程要更改共享数据时,先将其锁定,此时资源的状态为“锁定”,其他线程不能更改;直到该线程释放资源,将资源的状态变成“非锁定”,其他的线程才能再次锁定该资源。互斥锁保证了每次只有一个线程进行写入操作,从而保证了多线程情况下数据的正确性
1.创建锁
lock = threading.Lock()
2.锁定
lock.acquire()
2.释放
lock.release()
锁的好处
确保了某段关键代码只能由一个线程从头到尾完整地执行
锁的坏处:
阻止了多线程并发执行,包含锁的某段代码实际上只能以单线程模式执行,效率就大大地下降了。
由于可以存在多个锁,不同的线程持有不同的锁,并试图获取对方持有的锁时,可能会造成死锁。
死锁问题
在线程间共享多个资源的时候,如果两个线程分别占有一部分资源并且同时等待对方的资源,就会造成死锁。