Skip to main content

Scrapers for Japanese boatrace websites

Project description

GitHub Workflow Status GitHub Workflow Status GitHub Workflow Status Coverage PyPI version License: MIT Python version Code style: black

概要

ボートレース関連の WEB サイトのスクレイピングライブラリ

以下の機能を備える

パッケージの構成

名前空間パッケージになっており、共通の名前空間 (metaboatrace) を保持する同種のパッケージがある。

ボートレース公式サイトに対応する規約

名前空間は以下のように切られている。

  • metaboatrace.scrapers.official.website.v1707

この v1707 の部分はボートレース公式サイトのバージョンに対応している。

バージョニングは、Ubuntu でのそれに近い。
Ubuntu は 22.04 のように年と月という形でバージョニングされている(22.04.1 のようセキュリティパッチのリビジョンも付くことがある)。

ボートレースの公式サイトが現行のものになったのは 2017 年の 7 月なので、それに合わせてここでは v1707 としている。

機能

metaboatrace/scrapers/official/website/v1707/pages 直下に、公式サイトのページに対応した名前空間がある。
例えば、公式サイトの月間スケジュールに対応するものは monthly_schedule_page である。

これらの配下に locationscraping というモジュールがある。

前者は引数(日付など)をもとに公式サイトの URL を生成するような責務を負った関数が包含されている。
例えば、年と月を与えたら "https://boatrace.jp/owpc/pc/race/monthlyschedule?ym=202209" といったそのデータに対応する公式サイトの月間スケジュールの URL を返すような関数が入っている。

後者は、公式サイトの HTML ファイルをスクレイピングのモジュールである。
例えば、ここに入ってる関数は "https://boatrace.jp/owpc/pc/race/monthlyschedule?ym=202209" のファイルをスクレイピングしてエンティティを返すような処理を行う。

※ ここでいうエンティティはクリーンアーキテクチャの定義上のエンティティのことであり、metaboatrace.modelsはそういったものを提供しているパッケージ

Project details


Download files

Download the file for your platform. If you're not sure which to choose, learn more about installing packages.

Source Distribution

metaboatrace_scrapers-3.2.0.tar.gz (811.7 kB view hashes)

Uploaded Source

Built Distribution

metaboatrace_scrapers-3.2.0-py3-none-any.whl (874.9 kB view hashes)

Uploaded Python 3

Supported by

AWS AWS Cloud computing and Security Sponsor Datadog Datadog Monitoring Fastly Fastly CDN Google Google Download Analytics Microsoft Microsoft PSF Sponsor Pingdom Pingdom Monitoring Sentry Sentry Error logging StatusPage StatusPage Status page