采集微博某话题所有微博,某条微博所有评论 https://github.com/thunderhit/weiboa
Project description
一、简介
采集微博数据
weiboa功能(打钩的为目前实现的功能):
- 采集微博某话题对应的所有微博信息
- 数据保存输出为csv文件
- 采集某条微博对应的所有评论信息
使用演示视频
- 待更新B站视频
二、安装
pip install weiboa
三、功能说明
get_topics函数
获取微博某topic的所有相关微博内容信息
get_topics(topic, maxpage, cookies, csvf, startpage=1, encoding='utf-8')
- topic: 微博话题。比如#华为#,那么topic='华为'
- maxpage: 某微博话题最大页码数
- cookies: 自己微博的cookies,需要自己在浏览器先登录微博。之后F12开发者工具打开开发者工具network面板查找对应的cookies
- csvf: csv文件路径;保存数据到csv中
- startpage: 抓微博话题时默认从第一页开始抓。一般不设置该参数,除非爬虫爬了一部分遇到问题后, 再次启动爬虫时设置startpage参数,避免重复采集
- encoding: csv文件编码方式,默认用utf-8 (推荐); 也可以更改为gbk
四、快速入门
一定要先获得cookies后才能使用下面的所有代码,这里先直接看代码使用情况,cookies获取可见文档
以拼多多回应解约发帖员工为例, 获取该话题相关微博信息
https://s.weibo.com/hot?q=拼多多回应解约发帖员工&page=1
根据页面获得相关参数
topic='拼多多回应解约发帖员工'
maxpage=46
csvf='拼多多回应解约发帖员工.csv'
topic
from weiboa import get_topics
#换成自己的微博cookies啊
cookies = {'Cookie': '换成自己的微博cookies'}
#设置相关参数
get_topics(topic='拼多多回应解约发帖员工', maxpage=46, cookies=cookies, csvf='data.csv')
五、获取cookies
一定要先获得cookies后才能使用所有的代码,获取方法
- 浏览器访问http://www.sse.com.cn/disclosure/overview/
- 按F12(mac按option+command+I)打开开发者工具的Network
- 刷新网页,耐心寻找与www.sse.com.cn有关的任意网址,找到cookies
如果
如果您是经管人文社科专业背景,编程小白,面临海量文本数据采集和处理分析艰巨任务,个人建议学习《python网络爬虫与文本数据分析》视频课。作为文科生,一样也是从两眼一抹黑开始,这门课程是用五年时间凝缩出来的。自认为讲的很通俗易懂o( ̄︶ ̄)o,
- python入门
- 网络爬虫
- 数据读取
- 文本分析入门
- 机器学习与文本分析
- 文本分析在经管研究中的应用
感兴趣的童鞋不妨 戳一下《python网络爬虫与文本数据分析》进来看看~
更多
-
公众号:大邓和他的python
-
支持一下
Project details
Release history Release notifications | RSS feed
Download files
Download the file for your platform. If you're not sure which to choose, learn more about installing packages.
Source Distribution
Built Distribution
weiboa-0.0.2-py3-none-any.whl
(4.5 kB
view hashes)
Close
Hashes for weiboa-0.0.2.macosx-10.9-x86_64.tar.gz
Algorithm | Hash digest | |
---|---|---|
SHA256 | 8a376c08507ceb808167a6be5fec83684d70b843c2715e7315d958f4c65dffb4 |
|
MD5 | 8a71dd86d505251b05f38d1643ef20c0 |
|
BLAKE2b-256 | f1899f927f2170eb0cfb3716ef3408999a99a41f9975bb678444bb5648243696 |