采集微博某话题所有微博,某条微博所有评论 https://github.com/thunderhit/weiboa
Project description
一、简介
采集微博数据
weiboa功能(打钩的为目前实现的功能):
- 采集微博某话题对应的所有微博信息
- 数据保存输出为csv文件
- 采集某条微博对应的所有评论信息
使用演示视频
- 待更新B站视频
二、安装
pip install weiboa
三、功能说明
get_topics函数
获取微博某topic的所有相关微博内容信息
get_topics(topic, maxpage, cookies, csvf, startpage=1, encoding='utf-8')
- topic: 微博话题。比如#华为#,那么topic='华为'
- maxpage: 某微博话题最大页码数
- cookies: 自己微博的cookies,需要自己在浏览器先登录微博。之后F12开发者工具打开开发者工具network面板查找对应的cookies
- csvf: csv文件路径;保存数据到csv中
- startpage: 抓微博话题时默认从第一页开始抓。一般不设置该参数,除非爬虫爬了一部分遇到问题后, 再次启动爬虫时设置startpage参数,避免重复采集
- encoding: csv文件编码方式,默认用utf-8 (推荐); 也可以更改为gbk
四、快速入门
一定要先获得cookies后才能使用下面的所有代码,这里先直接看代码使用情况,cookies获取可见文档
以拼多多回应解约发帖员工为例, 获取该话题相关微博信息
https://s.weibo.com/hot?q=拼多多回应解约发帖员工&page=1
根据页面获得相关参数
topic='拼多多回应解约发帖员工'
maxpage=46
csvf='拼多多回应解约发帖员工.csv'
topic
from weiboa import get_topics
#换成自己的微博cookies啊
cookies = {'Cookie': '换成自己的微博cookies'}
#设置相关参数
get_topics(topic='拼多多回应解约发帖员工', maxpage=46, cookies=cookies, csvf='data.csv')
五、获取cookies
一定要先获得cookies后才能使用所有的代码,获取方法
- 浏览器访问http://www.sse.com.cn/disclosure/overview/
- 按F12(mac按option+command+I)打开开发者工具的Network
- 刷新网页,耐心寻找与www.sse.com.cn有关的任意网址,找到cookies
如果
如果您是经管人文社科专业背景,编程小白,面临海量文本数据采集和处理分析艰巨任务,个人建议学习《python网络爬虫与文本数据分析》视频课。作为文科生,一样也是从两眼一抹黑开始,这门课程是用五年时间凝缩出来的。自认为讲的很通俗易懂o( ̄︶ ̄)o,
- python入门
- 网络爬虫
- 数据读取
- 文本分析入门
- 机器学习与文本分析
- 文本分析在经管研究中的应用
感兴趣的童鞋不妨 戳一下《python网络爬虫与文本数据分析》进来看看~
更多
-
公众号:大邓和他的python
-
支持一下
Project details
Release history Release notifications | RSS feed
Download files
Download the file for your platform. If you're not sure which to choose, learn more about installing packages.
Source Distribution
Built Distribution
File details
Details for the file weiboa-0.0.2.macosx-10.9-x86_64.tar.gz
.
File metadata
- Download URL: weiboa-0.0.2.macosx-10.9-x86_64.tar.gz
- Upload date:
- Size: 4.9 kB
- Tags: Source
- Uploaded using Trusted Publishing? No
- Uploaded via: twine/3.3.0 pkginfo/1.6.1 requests/2.25.0 setuptools/51.1.2 requests-toolbelt/0.9.1 tqdm/4.54.0 CPython/3.7.5
File hashes
Algorithm | Hash digest | |
---|---|---|
SHA256 | 8a376c08507ceb808167a6be5fec83684d70b843c2715e7315d958f4c65dffb4 |
|
MD5 | 8a71dd86d505251b05f38d1643ef20c0 |
|
BLAKE2b-256 | f1899f927f2170eb0cfb3716ef3408999a99a41f9975bb678444bb5648243696 |
File details
Details for the file weiboa-0.0.2-py3-none-any.whl
.
File metadata
- Download URL: weiboa-0.0.2-py3-none-any.whl
- Upload date:
- Size: 4.5 kB
- Tags: Python 3
- Uploaded using Trusted Publishing? No
- Uploaded via: twine/3.3.0 pkginfo/1.6.1 requests/2.25.0 setuptools/51.1.2 requests-toolbelt/0.9.1 tqdm/4.54.0 CPython/3.7.5
File hashes
Algorithm | Hash digest | |
---|---|---|
SHA256 | 60ca7e875d2bbc157aaab6b7413f4dd2c7bca851441bc3c529cbdbeabe07222a |
|
MD5 | ace1e2bd6c2f8b2f874dab4182c1ea3a |
|
BLAKE2b-256 | 087581d1cb98a1daf757a72dbf81a61d6e4155bb5ba14631c7290276e034aa91 |