ArcDLNexus: PythonからWayback Machineのアーカイブ(サイト)をダウンロードするモジュールです。
Project description
PayNexus
目次
プロジェクトについて
PythonからWayback Machineのアーカイブ(サイト)をダウンロードするモジュールです。
ベースモジュール
公式サイト
・公式Github(使い方など)はこちら
インストール方法
こちらのPyPIパッケージを、
pip install ArcDLNexus
などのコマンドでインストールしてください。
※お好みでバージョンを指定してください
環境
言語・フレームワーク | バージョン |
---|---|
Python | 3.9.19 |
モジュール(パッケージ)のバージョンは requirements.txt を参照してください
モジュールについて
タスク
- モジュールを公開する
ドキュメント
関数 | パラメータ | 説明 |
---|---|---|
download | url -- str: アーカイブのURL* | アーカイブは次のような形式で、日付が指定されている必要があります。https://web.archive.org/web/{アーカイブの日付}/{サイトのURL} |
path -- str: ファイルを保存するフォルダパス | c:\のような絶対パスではなく、OSに縛られない./などの相対パスのみサポートしています。デフォルトは「./archive_download」です。 | |
mode -- str: モード(0~2) | モードは3種類に分けられています。 | |
モード0 - アーカイブをダウンロードして復元のみ: ウェブページをアーカイブからダウンロードして元の状態に復元し、関連ファイルはダウンロードされず、ページの表示に必要なファイルやリソースはすべてアーカイブ前のURLから取得します。 | ||
モード1 - 関連ファイルを可能な限りダウンロード + モード0の機能: ウェブページのアーカイブをダウンロードし、そのページに関連するファイル(画像、スクリプト、スタイルシートなど)も可能な限りダウンロードし、ページを完全に表示するために必要なすべてのリソースが揃います(手動処理必要)。 | ||
モード2 - ダウンロードしたファイルで既存の関連ファイルURLを上書き + モード0と1の機能: ウェブページのアーカイブをダウンロードし、関連するすべてのファイルをダウンロードし、必要なファイルやリソースのURLをダウンロードしたファイルのパスに上書きし(ダウンロードできなかった場合はスルー)、ページを完全にオフラインで閲覧できるようにします。 |
使用例
import ArcDLNexus
ArcDLNexus.download(url="https://web.archive.org/web/20240204090521/https://home.disnana.com/",
path="./recovery_archive/",
mode=2)
※タスクが完了していてもモジュールが更新されていない場合がございます(その際は時間を空けてご確認ください)
Project details
Download files
Download the file for your platform. If you're not sure which to choose, learn more about installing packages.
Source Distribution
arcdlnexus-0.1.4.tar.gz
(6.7 kB
view hashes)
Built Distribution
Close
Hashes for ArcDLNexus-0.1.4-py3-none-any.whl
Algorithm | Hash digest | |
---|---|---|
SHA256 | dee5191c9f05c20f06a242b05f54aacd2adb70337cc57df824e5bb2cb4fd5d0e |
|
MD5 | 7c6c050ae62111f52fdc28a0a8b8482e |
|
BLAKE2b-256 | d6c79814a13191ed156c729173e67f6a75f5526ff1b747a2b6359b1f0944e3a5 |