bsite是用于采集B站用户视频列表页、视频评论数据的python包。 https://github.com/thunderhit/bsite
Project description
一、简介
bsite是用于采集B站用户视频列表页、视频评论数据的python包。
二、安装
pip install bsite
三、使用方法
3.1 初始化Bsite类
需要先登录B站,使用开发者工具获取自己浏览器上的的cookies。获取方法可以参考 京东评论实战视频
from bsite import Bsite
cookies = {"cookie": "登录B站后的cookies"}
bs = Bsite(cookies=cookies)
3.2 bvid与aid转换
B站的视频链接
https://www.bilibili.com/video/BV1AE411r7ph
其中 BV1AE411r7ph 是该视频的 bvid号, 但在B站后台有一个与bvid对应的id号- aid
bvid与aid可以互相转化,Bsite内置了两个转化方法
- Bsite.aid2bvid(aid)
- Bsite.bvid2aid(bvid)
例如将BV1AE411r7ph转为aid
bs.bvid2aid(bvid="BV1AE411r7ph")
72010301
同理将 72010301 转为 bvid
bs.aid2bvid(aid=72010301)
BV1AE411r7ph
3.3 下载某用户所有视频信息
Bsite.video_list(mid, csvfpath) 获取用户的所有已上传的视频信息。
- mid 用户的id,例如我的B站视频主页https://space.bilibili.com/122592901 其中122592901就是mid
- csvfpath csv文件路径,用于存储视频信息。
注意:为了保证所有数据均能正常存储不出错,强制使用utf-8编码,微软office打开该csv会乱码,可以用记事本或者WPS打开
一般在B站查看某用户【投稿】栏,可以看到ta的所有上传视频。Bsite可以帮我们得到的信息有
- title、subtitle、author 标题、副标题、作者
- aid、bvid 视频链接的id号
- mid 用户的id。例如我的B站视频主页https://space.bilibili.com/122592901 其中122592901就是mid
- created 上传时间
- description 视频简介
- pic 视频首图
- play 播放次数
- length 视频时长
获取DJI大疆创新 https://space.bilibili.com/232472043/video 所有投稿视频相关信息。
bs.video_list(mid=232472043, csvfpath='dji_videos.csv')
3.4 获取某视频内的所有评论
Bsite.comments(aid, csvfpath)
-
aid B站视频的id号,如果只有bvid没有aid,可以先使用内置的方法把bvid转为aid
-
csvfpath csv文件路径,用于存储评论数据。
注意:为了保证所有数据均能正常存储不出错,强制使用utf-8编码,微软office打开该csv会乱码,可以用记事本或者WPS打开
采集到的评论数据包括
- content 评论内容
- device 评论者使用的设备
- like 点赞数
- rcount 该评论追评和互动数
- ctime 评论创建时间
- avatar 评论者头像
- level 评论者等级
- sex 评论者性别
- sign 评论者签名
- uname 评论者昵称
- mid 评论者的id
- diag 该评论是原始评论,还是某评论的互动
获取该视频 https://www.bilibili.com/video/BV1E54y1C7MF 所有的评论
aid = bs.bvid2aid('BV1E54y1C7MF')
bs.comments(aid=aid, csvfpath='comments.csv')
如果
如果您是经管人文社科专业背景,编程小白,面临海量文本数据采集和处理分析艰巨任务,个人建议学习《python网络爬虫与文本数据分析》视频课。作为文科生,一样也是从两眼一抹黑开始,这门课程是用五年时间凝缩出来的。自认为讲的很通俗易懂o( ̄︶ ̄)o,
- python入门
- 网络爬虫
- 数据读取
- 文本分析入门
- 机器学习与文本分析
- 文本分析在经管研究中的应用
感兴趣的童鞋不妨 戳一下《python网络爬虫与文本数据分析》进来看看~
更多
- B站:大邓和他的python
- 公众号:大邓和他的python
- 知乎专栏:数据科学家
Project details
Release history Release notifications | RSS feed
Download files
Download the file for your platform. If you're not sure which to choose, learn more about installing packages.
Source Distribution
Built Distribution
File details
Details for the file bsite-1.1.macosx-10.9-x86_64.tar.gz
.
File metadata
- Download URL: bsite-1.1.macosx-10.9-x86_64.tar.gz
- Upload date:
- Size: 7.2 kB
- Tags: Source
- Uploaded using Trusted Publishing? No
- Uploaded via: twine/3.4.1 importlib_metadata/4.0.1 pkginfo/1.7.0 requests/2.22.0 requests-toolbelt/0.9.1 tqdm/4.46.1 CPython/3.7.5
File hashes
Algorithm | Hash digest | |
---|---|---|
SHA256 | 8c38815ed5df9aab9721c19457828b139d607705ebfa0329f43b12e57b5fc5e4 |
|
MD5 | e371b1be54e84a8d37153ebeea79c428 |
|
BLAKE2b-256 | c73c1ae0c3dd84ec3e37f4c62957801daecadffcff5bd2bfca12a8f6fda1bc7e |
File details
Details for the file bsite-1.1-py3-none-any.whl
.
File metadata
- Download URL: bsite-1.1-py3-none-any.whl
- Upload date:
- Size: 5.5 kB
- Tags: Python 3
- Uploaded using Trusted Publishing? No
- Uploaded via: twine/3.4.1 importlib_metadata/4.0.1 pkginfo/1.7.0 requests/2.22.0 requests-toolbelt/0.9.1 tqdm/4.46.1 CPython/3.7.5
File hashes
Algorithm | Hash digest | |
---|---|---|
SHA256 | 874f5baf21c990d6a4610937252cd500485f4c4ffa4da67240f796410a27c561 |
|
MD5 | aafecf47b955a76f78231126a586f15a |
|
BLAKE2b-256 | ad0d2b02519a97529d9869ea40846dc47505a0e872299aba9b76649f77d411b9 |