5. 短视频App数据抓取

2020-12-16  本文已影响0人  BeautifulSoulpy

5-1 抖音短视频抓取需求分析

1.需求分析
1.1 模拟滑动视频和发布者点击发布者

1.2 通过mitmproxy抓取并解析数据
import uiautomator2 as u2
import time

class Douyin(object):
    def __init__(self, serial="192.168.0.101"):
        # 连接
        self.d = u2.connect(serial)
        # 调用方法
        self.start_app()        # 启动
        self.handle_watcher()  # 监控器
        self.size = self.get_windowsize()
        # 获取初始时间
        self.t0 = time.perf_counter()

    def start_app(self):
        self.d.app_start(package_name="com.ss.android.ugc.aweme")

    def stop_app(self):
        """退出逻辑"""
        self.d.watcher.stop()
        self.d.app_stop("com.ss.android.ugc.aweme")
        self.d.app_clear("com.ss.android.ugc.aweme")



    def stop_time(self):
        if time.perf_counter() - self.t0 > 20:  # s
            return True

    def handle_watcher(self):
        # 通知权限
        self.d.watcher.when('//*[@resource-id="com.ss.android.ugc.aweme:id/a4r"]').click()
        # 发现滑动查看更多
        self.d.watcher.when('//*[@text="滑动查看更多"]').click()
        self.d.watcher.when('//*[@text="快速进入TA的个人中心"]').click()
        self.d.watcher.start(interval=1)

    def get_windowsize(self):
        return self.d.window_size()


    def swipe_douyin(self):
        '''滑动抖音短视频 点击视频发布者头像的操作'''
        # 判断是否正常进入抖音界面
        if self.d(resourceId="com.ss.android.ugc.aweme:id/yy", text="我").exists(timeout=20):
            while True:
                if self.stop_time():
                    self.stop_app()
                    return

                # 查看 是不是正常的发布者(不是广告)
                if self.d(resourceId="com.ss.android.ugc.aweme:id/u0").exists:
                    # 是不是正常的 发布者,点击头像
                    self.d(resourceId="com.ss.android.ugc.aweme:id/tw").click()
                    # 返回
                    self.d(resourceId="com.ss.android.ugc.aweme:id/et").click()

                # 判断是否正常进入抖音界面
                if self.d(resourceId="com.ss.android.ugc.aweme:id/yy", text="我").exists:
                    # 滑动: 由下向上滑动;
                    x1 = int(self.size[0]*0.5)
                    y1 = int(self.size[1]*0.9)
                    y2 = int(self.size[1]*0.15)
                    self.d.swipe(x1, y1, x1, y2)

if __name__ == '__main__':
    d = Douyin()
    d.swipe_douyin()

5-6 通过mitmproxy解析短视频App返回数据-接口分析

先保证WIN和手机IP地址的一致性


确保 手机上安装fiddle证书

先点掉 Capturing, 抓取的数据包就是连到手机上的数据包


有两个JS文件,先看第一个
特别注意

在新版本的抖音里,我们是找到的是加密的数据返回;低版本在豌豆荚中可以下载,得到没有加密的数据;


# 个人信息页接口
# https://aweme-eagle.snssdk.com/aweme/v1/user/?user_id

# 滑动视频接口
# https://aweme-eagle.snssdk.com/aweme/v1/feed
1. 个人信息页接口

第一个JS文件


# json格式文件

"wx_nickname_replace":"开心锤锤♪","replaced":false},
"ky_only_predict":0,"school_auth":0,"is_star":false,"general_permission":{"following_follower_list_toast":1},
"share_weibo_desc":"在抖音,记录美好生活!","share_desc":"在抖音,记录美好生活!",
"share_title":"快来加入抖音,让你发现最有趣的我!","share_qrcode_url":{"uri":"671f001b2afba0ae78dc","url_list":["https://p9-dy.byteimg.com/obj/671f001b2afba0ae78dc","https://p6-dy-ipv6.byteimg.com/obj/671f001b2afba0ae78dc","https://p3-dy-ipv6.byteimg.com/obj/671f001b2afba0ae78dc"]}},"activity":{"use_music_count":0,"digg_count":0},"follower_status":0,"duet_setting":0,"unique_id":"2B2B2","geofencing":


2. 滑动视频接口

点击 滑动按钮,重新抓取数据;


5-7 通过mitmproxy解析短视频App返回数据-编写mitmdump解析文件

确保安装好了手机mitmproxy 以及证书(IP变化就要重新安装)

# decode_douyin.py
import json

def response(flow):
    """解析10版本抖音app返回数据"""
    # 视频
    if 'https://aweme-eagle.snssdk.com/aweme/v1/feed' in flow.request.url:
        # 使用json来loads response.text
        video_response = json.loads(flow.response.text)
        video_list = video_response.get("aweme_list", [])
        for item in video_list:
            print(item.get("desc"), "")   # 视频标题

    # 发布者页面
    if 'https://aweme-eagle.snssdk.com/aweme/v1/user/?user_id' in flow.request.url:
        person_response = json.loads(flow.response.text)
        person_info = person_response.get("user", "")
        if person_info:
            info = {
                'nickname': person_info.get("nickname", ""),   # 名称
                'total_favorited': person_info.get("total_favorited", 0),  # 点赞数
                'following_count': person_info.get("following_count", 0),  # 关注着数量
                'douyin_id': person_info.get("unique_id", ""),               # 抖音ID
                'folllower_count': person_info.get("follower_count", 0)    # 粉丝数量
            }
            print('--------------------------------------------------------------------')
            print(info)


启动 mitmdump

(venv) user1@imooc:~/u2_project/douyin$ mitmdump -s decode_douyin.py -p 8889
Loading script decode_douyin.py
Proxy server listening at http://*:8889

# run handle_douyin.py
import uiautomator2 as u2
import time

class Douyin(object):
    def __init__(self, serial="192.168.0.101"):
        # 连接
        self.d = u2.connect(serial)
        # 调用方法
        self.start_app()        # 启动
        self.handle_watcher()  # 监控器
        self.size = self.get_windowsize()
        # 获取初始时间
        self.t0 = time.perf_counter()

    def start_app(self):
        self.d.app_start(package_name="com.ss.android.ugc.aweme")

    def stop_app(self):
        """退出逻辑"""
        self.d.watcher.stop()
        self.d.app_stop("com.ss.android.ugc.aweme")
        self.d.app_clear("com.ss.android.ugc.aweme")

    def stop_time(self):
        if time.perf_counter() - self.t0 > 20:  # s
            return True

    def handle_watcher(self):
        # 通知权限
        self.d.watcher.when('//*[@resource-id="com.ss.android.ugc.aweme:id/a4r"]').click()
        # 发现滑动查看更多
        self.d.watcher.when('//*[@text="滑动查看更多"]').click()
        self.d.watcher.when('//*[@text="快速进入TA的个人中心"]').click()
        self.d.watcher.start(interval=1)

    def get_windowsize(self):
        return self.d.window_size()


    def swipe_douyin(self):
        '''滑动抖音短视频 点击视频发布者头像的操作'''
        # 判断是否正常进入抖音界面
        if self.d(resourceId="com.ss.android.ugc.aweme:id/yy", text="我").exists(timeout=20):
            while True:
                if self.stop_time():
                    self.stop_app()
                    return

                # 查看 是不是正常的发布者(不是广告)
                if self.d(resourceId="com.ss.android.ugc.aweme:id/u0").exists:
                    # 是不是正常的 发布者,点击头像
                    self.d(resourceId="com.ss.android.ugc.aweme:id/tw").click()
                    # 返回
                    self.d(resourceId="com.ss.android.ugc.aweme:id/et").click()

                # 判断是否正常进入抖音界面
                if self.d(resourceId="com.ss.android.ugc.aweme:id/yy", text="我").exists:
                    # 滑动: 由下向上滑动;
                    x1 = int(self.size[0]*0.5)
                    y1 = int(self.size[1]*0.9)
                    y2 = int(self.size[1]*0.15)
                    self.d.swipe(x1, y1, x1, y2)

if __name__ == '__main__':
    d = Douyin()
    d.swipe_douyin()


--------------------------------------------------------------------
{'nickname': '七猫探长', 'total_favorited': 4012853, 'following_count': 89, 'douyin_id': 'qimao2021', 'folllower_count': 550240}

实战2:小红书

1.抓取需求分析

抓取 推荐也文章基本信息(文章标题、类型、基本描述、用户信息等)

文章详细内容

文章评论

2. 滑动视频接口
import uiautomator2 as u2
import time, datetime
import adbutils, multiprocessing
from elasticsearch import Elasticsearch, helpers

es = Elasticsearch(hosts="192.168.0.101:9200")
class Xiaohongshu(object):
    def __init__(self, serial="192.168.0.103:5555"):
        '''
        手机IP:192.168.0.103
        Linux系统IP : 192.168.0.101
        desc: V1:刷新新的内容, V2:下一版本功能:爬取文章详细内容和评论数
        :param serial:
        '''
        self.d = u2.connect(serial)
        self.size = self.get_window_size()
        self.start_app()


    def start_app(self, name='com.xingin.xhs'):
        self.d.app_start(package_name=name)

    def get_window_size(self):
        return self.d.window_size()

    def swipe_screen(self):
        x1 = int(self.size[0] * 0.5)
        y1 = int(self.size[1] * 0.9)
        y2 = int(self.size[1] * 0.25)
        self.d.swipe(x1, y2, x1, y1)


if __name__ == '__main__':
    d = Xiaohongshu()
    time.sleep(3)
    flag = True
    while flag:
        d.swipe_screen()
        # time.sleep(1)
    print(es.search(index="xiaohongshu_2021-03-17"))

3.mitmproxy解析短视频App返回数据
import json
import time
import datetime

from elasticsearch import Elasticsearch, helpers

es = Elasticsearch(hosts="192.168.0.101:9200")

def handle_date(key):
    """处理时间方法"""
    date_touple = time.localtime()
    date = None
    if key == "hms":
        date = time.strftime("%Y-%m-%d %H:%M:%S", date_touple)
        date = date.replace(' ', 'T')
    elif key == "bir":
        date = time.strftime("%Y-%m-%d", date_touple)
    return date


def response(flow):
    '''
    解析 小红书 最新版本 app 的 目录页数据;
    每次滑动拿到 10条数据;
    '''

    if 'https://edith.xiaohongshu.com/api/sns/v6/homefeed' in flow.request.url:
        article_response = json.loads(flow.response.text)

        article_list = article_response.get('data', [])
        data_list = []
        for item in article_list:
            info ={
                "_index": "xiaohongshu_%s" % handle_date(key="bir"),
                "_source": {
                    "@timestamp": handle_date(key="hms"),
                    "birthday": handle_date(key="bir"),
                    "title": item.get("display_title", ""),
                    "name": item.get("user", "").get("nickname", ""),
                    "userid": item.get("user", "").get("userid", ""),
                    "type": item.get("type", ""),
                    "display_image":item.get("images_list", "").get("url_size_large", "")
                    "desc": item.get("desc", ""),
                    "likes": item.get("likes", "")
                }
            }
            print(info)
            data_list.append(info)
        # 通过helpers插入数据
        helpers.bulk(es, data_list)


5. 查看10分钟爬取效果

3284/10m

get xiaohongshu_2021-03-17/_search
#---------------------------------------------------------
{
  "took" : 2,
  "timed_out" : false,
  "_shards" : {
    "total" : 1,
    "successful" : 1,
    "skipped" : 0,
    "failed" : 0
  },
  "hits" : {
    "total" : {
      "value" : 3284,
      "relation" : "eq"
    },
    "max_score" : 1.0,
    "hits" : [
      {
        "_index" : "xiaohongshu_2021-03-17",
        "_type" : "_doc",
        "_id" : "4d3sPXgBy2dlyd-YuFIb",
        "_score" : 1.0,
        "_source" : {
          "@timestamp" : "2021-03-17T10:03:47",
          "birthday" : "2021-03-17",
          "title" : "考研复试简历模板大放送,请查收㊙️",
          "name" : "研学长",
          "userid" : "5d8f85a600000000010036ac",
          "type" : "normal",
          "desc" : """🌈哈喽,各位21/22考研的小伙伴们
❤️在考研复试中,我们为了让导师更加快速全面的了解我们,通常都需要准备一份精美的简历进行自我介绍,一份好的模板通常能让导师对你有更好的印象与了解!也是你个人形象的""",
          "likes" : 5813
        }
      },

注意
1.解决kibana 超过10000条数据无法查询的问题

get xiaohongshu_2021-03-17/_settings
{
  "max_result_window" : 200000000
} 

上一篇 下一篇

猜你喜欢

热点阅读