Scrapers for Japanese boatrace websites
Project description
概要
ボートレース関連の WEB サイトのスクレイピングライブラリ
以下の機能を備える
- ボートレース公式サイト に対応する下記
- URL の生成
- スクレイピング
パッケージの構成
名前空間パッケージになっており、共通の名前空間 (metaboatrace
) を保持する同種のパッケージがある。
ボートレース公式サイトに対応する規約
名前空間は以下のように切られている。
- metaboatrace.scrapers.official.website.v1707
この v1707
の部分はボートレース公式サイトのバージョンに対応している。
バージョニングは、Ubuntu でのそれに近い。
Ubuntu は 22.04 のように年と月という形でバージョニングされている(22.04.1 のようセキュリティパッチのリビジョンも付くことがある)。
ボートレースの公式サイトが現行のものになったのは 2017 年の 7 月なので、それに合わせてここでは v1707
としている。
機能
metaboatrace/scrapers/official/website/v1707/pages
直下に、公式サイトのページに対応した名前空間がある。
例えば、公式サイトの月間スケジュールに対応するものは monthly_schedule_page
である。
これらの配下に location
と scraping
というモジュールがある。
前者は引数(日付など)をもとに公式サイトの URL を生成するような責務を負った関数が包含されている。
例えば、年と月を与えたら "https://boatrace.jp/owpc/pc/race/monthlyschedule?ym=202209" といったそのデータに対応する公式サイトの月間スケジュールの URL を返すような関数が入っている。
後者は、公式サイトの HTML ファイルをスクレイピングのモジュールである。
例えば、ここに入ってる関数は "https://boatrace.jp/owpc/pc/race/monthlyschedule?ym=202209" のファイルをスクレイピングしてエンティティを返すような処理を行う。
※ ここでいうエンティティはクリーンアーキテクチャの定義上のエンティティのことであり、metaboatrace.modelsはそういったものを提供しているパッケージ
Project details
Release history Release notifications | RSS feed
Download files
Download the file for your platform. If you're not sure which to choose, learn more about installing packages.
Source Distribution
Built Distribution
File details
Details for the file metaboatrace_scrapers-3.3.1.tar.gz
.
File metadata
- Download URL: metaboatrace_scrapers-3.3.1.tar.gz
- Upload date:
- Size: 830.4 kB
- Tags: Source
- Uploaded using Trusted Publishing? No
- Uploaded via: twine/5.1.1 CPython/3.12.3
File hashes
Algorithm | Hash digest | |
---|---|---|
SHA256 | eef678ab14fa0f76b0c6617f85cc286958f525456005bca813200360c9cd0065 |
|
MD5 | 7ce0d7edbaae18956bd830a0a55d1420 |
|
BLAKE2b-256 | bbe959464b9c0de2ca069232f0bbdff76943e8c10c93da40e3ee42d4b9925da7 |
File details
Details for the file metaboatrace_scrapers-3.3.1-py3-none-any.whl
.
File metadata
- Download URL: metaboatrace_scrapers-3.3.1-py3-none-any.whl
- Upload date:
- Size: 894.6 kB
- Tags: Python 3
- Uploaded using Trusted Publishing? No
- Uploaded via: twine/5.1.1 CPython/3.12.3
File hashes
Algorithm | Hash digest | |
---|---|---|
SHA256 | 355c826c2932cd888cdee02512bb821cc5ae77319ce7ccf900e4c0fac3a89d99 |
|
MD5 | 892cd33db1abce9e9ecd9db311e71d72 |
|
BLAKE2b-256 | c2489eb9f74a41801d5d221b1b6de0c6cc5973c0157f62b45fa40b9fd9a7683f |