爬虫_007_集合set
2023-01-10 本文已影响0人
为宇绸缪
set集合
集合:集合当中的元素不能重复。重复的数据进不去,可以用来去重
下面代码当中,只要是相同的元素就无法加入集合当中
s = set()
s.add("韩菱纱")
s.add("柳梦璃")
s.add("云天河")
s.add("慕容紫英")
s.add("慕容紫英")
s.add("慕容紫英")
print(s)
# 结果
# {'云天河', '韩菱纱', '柳梦璃', '慕容紫英'}
使用集合对列表进行去重
lst = [11, 22, 33, 44, 11, 22, 33]
result = set(lst)
print(result)
# 结果
# {33, 11, 44, 22}
练习:请输入所有人的名字,重复的不进行添加
s = set() # 存储所有不重复的名字
while True:
name = input("请输入你的名字: ").strip()
s_len = len(s) # 计算长度
s.add(name) # 执行增加
new_len = len(s) # 计算新长度
if s_len == new_len:
print("重复的")
else:
print("不重复的")
# 结果
"""
请输入你的名字: ywj
不重复的
请输入你的名字: ywj
重复的
请输入你的名字:
"""
未来在爬虫的时候,可以使用集合存放url。url如果访问过,就不访问了。如果没有访问过,就继续访问