使用GitHub上的项目来完成微博角色的照片,视频和动态爬取

使用GitHub上的项目来完成微博角色的照片,视频和动态爬取

261 · published on 2020-08-01

0

项目来源: https://github.com/dataabc/weiboSpider 首先是Python环境的安装,这个可以见沐歌的https://mucypro.com/article/154,如果出现ModuleNotFoundError: No module named '****',模块不存在,则优先考虑 使用pip install ****或者Anaconda开发环境下的conda install **** 本人使用的并非GitHub上作者使用的安装,若使用作者方法成功则不必参考我的做法。 下载好代码之后,然后解压缩到自己想要的文件夹,然后打开weibo_spider文件夹。 然后有两种方法获得config.json。 1.复制config_sample.json 2.运行__main__.py 参照说明https://github.com/dataabc/weiboSpider/blob/master/docs/settings.md 简单来说普通用户只需要改两个地方。 设置user_id_list user_id_list是我们要爬取的微博的id,可以是一个,也可以是多个。 设置since_date since_date值可以是日期,也可以是整数。如果是日期,代表爬取该日期之后的微博,格式应为“yyyy-mm-dd”。
"since_date": "2018-01-01",
如果是整数,代表爬取最近n天的微博。
"since_date": 10,
获取cookie https://github.com/dataabc/weiboSpider/blob/master/docs/cookie.md 1.用Chrome打开https://passport.weibo.cn/signin/login; 2.输入微博的用户名、密码,登录,如图所示: 登录成功后会跳转到https://m.weibo.cn; 3.按F12键打开Chrome开发者工具,在地址栏输入并跳转到https://weibo.cn,跳转后会显示如下类似界面: 4.依此点击Chrome开发者工具中的Network->Name中的weibo.cn->Headers->Request Headers,"Cookie:"后的值即为我们要找的cookie值,复制即可,如图所示:   这里请大家务必严格按照这些步骤获取cookie,否则会出现异常
cookie错误或已过期,请按照README中方法重新获取
必须使用微博移动版来跳转,cookie的长度很长,短的一般来说肯定不对。 然后直接运行。 会出现一个weibo文件夹,然后就可以观察到我们下载好的图片和视频。   最后,我的使用方法不是最佳的使用方法,若有更好的使用方法,欢迎指导。

Related downloads

Bonnie image
261
这家伙很懒,什么都没留下

comment