Skip to main content

amazon web scraping library.

Project description

amazonpy

PyPi Supported python versions: 3.x GitHub Donate

Amazon scraping library

Description

Amazonアソシエイトアカウントの申請が3回も落ちてムカついたので、スクレイピングライブラリを作成しました()
APIではないので、アクセスキーやトークンは必要ありません。

Latest information

v1.0.5 Release
使用したプロキシを表示するコードを削除。
また、imgタグのUS40で製品の画像を絞り込んでいましたが、SR38,50などの製品もあり、画像取得ができなかったため、config.pyに新しくimage_partsというリストを追加しました。
このリストの中にある文字列とマッチしたものが製品画像に絞り込まれます。
他にも製品画像が[]になった場合の絞り込み要素を見つけ次第アップデートします。
気づき次第、プルクエストください。

Installation

pip install amazonpy

Upgrade

pip install --upgrade amazonpy

How to use

from amazonpy import Amazon

amazon = Amazon('B07T17NSJH', proxy=True)

print(amazon.get_title()) # タイトルの取得
# [コーチ] COACH バッグ ショルダーバッグ 斜めがけ MAE CROSSBODY レザー F34823 アウトレット [並行輸入品]

print(amazon.get_description()) # 製品の説明を取得
#  ■品 番:F34823 SV/XR ■サイズ:約高さ27.5x幅30xマチ7cm ショルダー約103-119cm(3cm間隔で7段階調節可)  ■重 さ:約600g ■仕 様:開閉 :ファスナー式 内側 :ホックポケット1 外側 :ファスナーポケット1 ■素 材:レザー ■カラー:Carnation 金具シルバー ■付 属:箱なし、保存袋なし ■画像のお財布はサンプルにつき、付属しておりません。

print(amazon.get_url()) # 製品のURLを取得
# https://www.amazon.co.jp/dp/B07T17NSJH/

print(amazon.get_product_image_urls()) # 製品の画像を取得
# ['https://images-na.ssl-images-amazon.com/images/I/41VXva6p65L._AC_.jpg', 'https://images-na.ssl-images-amazon.com/images/I/41eyyUG0IEL._AC_.jpg', 'https://images-na.ssl-images-amazon.com/images/I/41pavjZNA5L._AC_.jpg', 'https://images-na.ssl-images-amazon.com/images/I/31EM6kp5xrL._AC_.jpg']

print(amazon.get_price()) # 販売価格の取得
# 17800

print(amazon.get_ref_price()) # 参考価格の取得、参考価格が無い場合、Noneが返る
# 68040

print(amazon.get_down_ratio()) # 参考価格に対しての値引き率を取得、参考価格が無い場合、0が返る
# 74

print(amazon.get_another_type())
# ['B07MDJ5KG3', 'B07T17NSJH', 'B07PZJYLM7', 'B07Y57C6QZ', 'B07ZYFV9ZW', 'B07PZKPS68', 'B07Y4ZGWC9']

Caution

v1.0.2からアクセス禁止回避のため、fake_useragentを追加しました。
このため、予期せぬUAを取得した場合、titleやdescriptionがNoneになってしまう場合があります。 今の所、safariでのUAはNoneになっていません。


v1.0.4からアクセス禁止回避のため、proxy設定を追加しました。
デフォルトでFalseになっていますが、無料プロキシ総当たりなので、稼働しているプロキシに接続できるまで時間がかかってしまう場合があります。
Falsetime.sleep()などを挟み、低速で使う事をオススメします。

Update information

version information
1.0.0 release.
1.0.1 Add 2 functions.
・get_description()
・get_another_type()
1.0.2 Add fake-useragent.
For avoid access prohibition.
1.0.3 Change default values.
price, ref_price default value is 0.
1.0.4 Add proxy setting.
For avoid access prohibition.
1.0.5 Add config img part.
For avoid access prohibition.

Project details


Download files

Download the file for your platform. If you're not sure which to choose, learn more about installing packages.

Source Distributions

No source distribution files available for this release.See tutorial on generating distribution archives.

Built Distribution

amazonpy-1.0.5-py3-none-any.whl (6.8 kB view hashes)

Uploaded Python 3

Supported by

AWS AWS Cloud computing and Security Sponsor Datadog Datadog Monitoring Fastly Fastly CDN Google Google Download Analytics Microsoft Microsoft PSF Sponsor Pingdom Pingdom Monitoring Sentry Sentry Error logging StatusPage StatusPage Status page