amazon web scraping library.
Project description
amazonpy
Amazon scraping library
Description
Amazonアソシエイトアカウントの申請が3回も落ちてムカついたので、スクレイピングライブラリを作成しました()
APIではないので、アクセスキーやトークンは必要ありません。
Latest information
v1.0.5 Release
使用したプロキシを表示するコードを削除。
また、imgタグのUS40
で製品の画像を絞り込んでいましたが、SR38,50
などの製品もあり、画像取得ができなかったため、config.py
に新しくimage_parts
というリストを追加しました。
このリストの中にある文字列とマッチしたものが製品画像に絞り込まれます。
他にも製品画像が[]
になった場合の絞り込み要素を見つけ次第アップデートします。
気づき次第、プルクエストください。
Installation
pip install amazonpy
Upgrade
pip install --upgrade amazonpy
How to use
from amazonpy import Amazon
amazon = Amazon('B07T17NSJH', proxy=True)
print(amazon.get_title()) # タイトルの取得
# [コーチ] COACH バッグ ショルダーバッグ 斜めがけ MAE CROSSBODY レザー F34823 アウトレット [並行輸入品]
print(amazon.get_description()) # 製品の説明を取得
# ■品 番:F34823 SV/XR ■サイズ:約高さ27.5x幅30xマチ7cm ショルダー約103-119cm(3cm間隔で7段階調節可) ■重 さ:約600g ■仕 様:開閉 :ファスナー式 内側 :ホックポケット1 外側 :ファスナーポケット1 ■素 材:レザー ■カラー:Carnation 金具シルバー ■付 属:箱なし、保存袋なし ■画像のお財布はサンプルにつき、付属しておりません。
print(amazon.get_url()) # 製品のURLを取得
# https://www.amazon.co.jp/dp/B07T17NSJH/
print(amazon.get_product_image_urls()) # 製品の画像を取得
# ['https://images-na.ssl-images-amazon.com/images/I/41VXva6p65L._AC_.jpg', 'https://images-na.ssl-images-amazon.com/images/I/41eyyUG0IEL._AC_.jpg', 'https://images-na.ssl-images-amazon.com/images/I/41pavjZNA5L._AC_.jpg', 'https://images-na.ssl-images-amazon.com/images/I/31EM6kp5xrL._AC_.jpg']
print(amazon.get_price()) # 販売価格の取得
# 17800
print(amazon.get_ref_price()) # 参考価格の取得、参考価格が無い場合、Noneが返る
# 68040
print(amazon.get_down_ratio()) # 参考価格に対しての値引き率を取得、参考価格が無い場合、0が返る
# 74
print(amazon.get_another_type())
# ['B07MDJ5KG3', 'B07T17NSJH', 'B07PZJYLM7', 'B07Y57C6QZ', 'B07ZYFV9ZW', 'B07PZKPS68', 'B07Y4ZGWC9']
Caution
v1.0.2からアクセス禁止回避のため、fake_useragentを追加しました。
このため、予期せぬUAを取得した場合、titleやdescriptionがNoneになってしまう場合があります。
今の所、safariでのUAはNoneになっていません。
v1.0.4からアクセス禁止回避のため、proxy設定を追加しました。
デフォルトでFalse
になっていますが、無料プロキシ総当たりなので、稼働しているプロキシに接続できるまで時間がかかってしまう場合があります。
False
でtime.sleep()
などを挟み、低速で使う事をオススメします。
Update information
version | information |
---|---|
1.0.0 | release. |
1.0.1 | Add 2 functions. ・get_description() ・get_another_type() |
1.0.2 | Add fake-useragent. For avoid access prohibition. |
1.0.3 | Change default values. price , ref_price default value is 0 . |
1.0.4 | Add proxy setting. For avoid access prohibition. |
1.0.5 | Add config img part. For avoid access prohibition. |
Project details
Download files
Download the file for your platform. If you're not sure which to choose, learn more about installing packages.