Skip to main content

采集微博某话题所有微博,某条微博所有评论 https://github.com/thunderhit/weiboa

Project description

一、简介

采集微博数据

weiboa功能(打钩的为目前实现的功能):

  • 采集微博某话题对应的所有微博信息
  • 数据保存输出为csv文件
  • 采集某条微博对应的所有评论信息

使用演示视频

  • 待更新B站视频

二、安装

pip install weiboa

三、功能说明

get_topics函数

获取微博某topic的所有相关微博内容信息

get_topics(topic, maxpage, cookies, csvf, startpage=1, encoding='utf-8')
- topic: 微博话题。比如#华为#,那么topic='华为'
- maxpage: 某微博话题最大页码数
- cookies: 自己微博的cookies,需要自己在浏览器先登录微博。之后F12开发者工具打开开发者工具network面板查找对应的cookies
- csvf:  csv文件路径;保存数据到csv中
- startpage: 抓微博话题时默认从第一页开始抓。一般不设置该参数,除非爬虫爬了一部分遇到问题后, 再次启动爬虫时设置startpage参数,避免重复采集
- encoding: csv文件编码方式,默认用utf-8 (推荐); 也可以更改为gbk

四、快速入门

一定要先获得cookies后才能使用下面的所有代码,这里先直接看代码使用情况,cookies获取可见文档

拼多多回应解约发帖员工为例, 获取该话题相关微博信息

https://s.weibo.com/hot?q=拼多多回应解约发帖员工&page=1

根据页面获得相关参数
topic='拼多多回应解约发帖员工'
maxpage=46
csvf='拼多多回应解约发帖员工.csv'

topic

from weiboa import get_topics
#换成自己的微博cookies啊
cookies = {'Cookie': '换成自己的微博cookies'}
#设置相关参数
get_topics(topic='拼多多回应解约发帖员工', maxpage=46, cookies=cookies, csvf='data.csv')

五、获取cookies

一定要先获得cookies后才能使用所有的代码,获取方法

  1. 浏览器访问http://www.sse.com.cn/disclosure/overview/
  2. 按F12(mac按option+command+I)打开开发者工具的Network
  3. 刷新网页,耐心寻找与www.sse.com.cn有关的任意网址,找到cookies

如果

如果您是经管人文社科专业背景,编程小白,面临海量文本数据采集和处理分析艰巨任务,个人建议学习《python网络爬虫与文本数据分析》视频课。作为文科生,一样也是从两眼一抹黑开始,这门课程是用五年时间凝缩出来的。自认为讲的很通俗易懂o( ̄︶ ̄)o,

  • python入门
  • 网络爬虫
  • 数据读取
  • 文本分析入门
  • 机器学习与文本分析
  • 文本分析在经管研究中的应用

感兴趣的童鞋不妨 戳一下《python网络爬虫与文本数据分析》进来看看~

更多

支持一下

Project details


Download files

Download the file for your platform. If you're not sure which to choose, learn more about installing packages.

Source Distribution

weiboa-0.0.2.macosx-10.9-x86_64.tar.gz (4.9 kB view hashes)

Uploaded Source

Built Distribution

weiboa-0.0.2-py3-none-any.whl (4.5 kB view hashes)

Uploaded Python 3

Supported by

AWS AWS Cloud computing and Security Sponsor Datadog Datadog Monitoring Fastly Fastly CDN Google Google Download Analytics Microsoft Microsoft PSF Sponsor Pingdom Pingdom Monitoring Sentry Sentry Error logging StatusPage StatusPage Status page