ArcDLNexus: PythonからWayback Machineのアーカイブ(サイト)をダウンロードするモジュールです。
Project description
PayNexus
目次
プロジェクトについて
PythonからWayback Machineのアーカイブ(サイト)をダウンロードするモジュールです。
ベースモジュール
公式サイト
・公式Github(使い方など)はこちら
インストール方法
こちらのPyPIパッケージを、
pip install ArcDLNexus
などのコマンドでインストールしてください。
※お好みでバージョンを指定してください
環境
言語・フレームワーク | バージョン |
---|---|
Python | 3.9.19 |
モジュール(パッケージ)のバージョンは requirements.txt を参照してください
モジュールについて
タスク
- モジュールを公開する
ドキュメント
関数 | パラメータ | 説明 |
---|---|---|
download | url -- str: アーカイブのURL* | アーカイブは次のような形式で、日付が指定されている必要があります。https://web.archive.org/web/{アーカイブの日付}/{サイトのURL} |
path -- str: ファイルを保存するフォルダパス | c:\のような絶対パスではなく、OSに縛られない./などの相対パスのみサポートしています。デフォルトは「./archive_download」です。 | |
mode -- str: モード(0~2) | モードは3種類に分けられています。 | |
モード0 - アーカイブをダウンロードして復元のみ: ウェブページをアーカイブからダウンロードして元の状態に復元し、関連ファイルはダウンロードされず、ページの表示に必要なファイルやリソースはすべてアーカイブ前のURLから取得します。 | ||
モード1 - 関連ファイルを可能な限りダウンロード + モード0の機能: ウェブページのアーカイブをダウンロードし、そのページに関連するファイル(画像、スクリプト、スタイルシートなど)も可能な限りダウンロードし、ページを完全に表示するために必要なすべてのリソースが揃います(手動処理必要)。 | ||
モード2 - ダウンロードしたファイルで既存の関連ファイルURLを上書き + モード0と1の機能: ウェブページのアーカイブをダウンロードし、関連するすべてのファイルをダウンロードし、必要なファイルやリソースのURLをダウンロードしたファイルのパスに上書きし(ダウンロードできなかった場合はスルー)、ページを完全にオフラインで閲覧できるようにします。 |
使用例
import ArcDLNexus
ArcDLNexus.download(url="https://web.archive.org/web/20240204090521/https://home.disnana.com/",
path="./recovery_archive/",
mode=2)
※タスクが完了していてもモジュールが更新されていない場合がございます(その際は時間を空けてご確認ください)
Project details
Download files
Download the file for your platform. If you're not sure which to choose, learn more about installing packages.
Source Distribution
arcdlnexus-0.1.2.tar.gz
(6.1 kB
view hashes)
Built Distribution
Close
Hashes for ArcDLNexus-0.1.2-py3-none-any.whl
Algorithm | Hash digest | |
---|---|---|
SHA256 | 1eb5ff15ec4aeb2c38d7134674d217e620c0927fe6834067dc1c62be3a39c735 |
|
MD5 | 5635b03263bef5029469df2d955e8883 |
|
BLAKE2b-256 | 1b0313c16ac084eef7eea1cf7364b641dfbf1a2b2c50c9d3edeed3086549df38 |