A web scraping library based on LangChain which uses LLM and direct graph logic to create scraping pipelines.

These details have not been verified by PyPI

Project description

🕷️ ScrapeGraphAI: You Only Scrape Once

ScrapeGraphAI is a web scraping python library that uses LLM and direct graph logic to create scraping pipelines for websites and local documents (XML, HTML, JSON, Markdown, etc.).

Just say which information you want to extract and the library will do it for you!

ScrapeGraphAI Hero

🚀 Quick install

The reference page for Scrapegraph-ai is available on the official page of PyPI: pypi.

pip install scrapegraphai

playwright install

Note: it is recommended to install the library in a virtual environment to avoid conflicts with other libraries 🐱

Optional Dependencies

Additional dependecies can be added while installing the library:

More Language Models: additional language models are installed, such as Fireworks, Groq, Anthropic, Hugging Face, and Nvidia AI Endpoints.

This group allows you to use additional language models like Fireworks, Groq, Anthropic, Together AI, Hugging Face, and Nvidia AI Endpoints.
```
pip install scrapegraphai[other-language-models]
```
Semantic Options: this group includes tools for advanced semantic processing, such as Graphviz.
```
pip install scrapegraphai[more-semantic-options]
```
Browsers Options: this group includes additional browser management tools/services, such as Browserbase.
```
pip install scrapegraphai[more-browser-options]
```

💻 Usage

There are multiple standard scraping pipelines that can be used to extract information from a website (or local file).

The most common one is the SmartScraperGraph, which extracts information from a single page given a user prompt and a source URL.

import json
from scrapegraphai.graphs import SmartScraperGraph

# Define the configuration for the scraping pipeline
graph_config = {
    "llm": {
        "api_key": "YOUR_OPENAI_APIKEY",
        "model": "openai/gpt-4o-mini",
    },
    "verbose": True,
    "headless": False,
}

# Create the SmartScraperGraph instance
smart_scraper_graph = SmartScraperGraph(
    prompt="Find some information about what does the company do, the name and a contact email.",
    source="https://scrapegraphai.com/",
    config=graph_config
)

# Run the pipeline
result = smart_scraper_graph.run()
print(json.dumps(result, indent=4))

The output will be a dictionary like the following:

{
    "company": "ScrapeGraphAI",
    "name": "ScrapeGraphAI Extracting content from websites and local documents using LLM",
    "contact_email": "contact@scrapegraphai.com"
}

There are other pipelines that can be used to extract information from multiple pages, generate Python scripts, or even generate audio files.

Pipeline Name	Description
SmartScraperGraph	Single-page scraper that only needs a user prompt and an input source.
SearchGraph	Multi-page scraper that extracts information from the top n search results of a search engine.
SpeechGraph	Single-page scraper that extracts information from a website and generates an audio file.
ScriptCreatorGraph	Single-page scraper that extracts information from a website and generates a Python script.
SmartScraperMultiGraph	Multi-page scraper that extracts information from multiple pages given a single prompt and a list of sources.
ScriptCreatorMultiGraph	Multi-page scraper that generates a Python script for extracting information from multiple pages and sources.

For each of these graphs there is the multi version. It allows to make calls of the LLM in parallel.

It is possible to use different LLM through APIs, such as OpenAI, Groq, Azure and Gemini, or local models using Ollama.

Remember to have Ollama installed and download the models using the ollama pull command, if you want to use local models.

🔍 Demo

Official streamlit demo:

Try it directly on the web using Google Colab:

📖 Documentation

The documentation for ScrapeGraphAI can be found here.

Check out also the Docusaurus here.

🏆 Sponsors

🤝 Contributing

Feel free to contribute and join our Discord server to discuss with us improvements and give us suggestions!

Please see the contributing guidelines.

📈 Telemetry

We collect anonymous usage metrics to enhance our package's quality and user experience. The data helps us prioritize improvements and ensure compatibility. If you wish to opt-out, set the environment variable SCRAPEGRAPHAI_TELEMETRY_ENABLED=false. For more information, please refer to the documentation here.

❤️ Contributors

🎓 Citations

If you have used our library for research purposes please quote us with the following reference:

  @misc{scrapegraph-ai,
    author = {Marco Perini, Lorenzo Padoan, Marco Vinciguerra},
    title = {Scrapegraph-ai},
    year = {2024},
    url = {https://github.com/VinciGit00/Scrapegraph-ai},
    note = {A Python library for scraping leveraging large language models}
  }

Authors

Authors_logos

	Contact Info
Marco Vinciguerra
Marco Perini
Lorenzo Padoan

📜 License

ScrapeGraphAI is licensed under the MIT License. See the LICENSE file for more information.

Acknowledgements

We would like to thank all the contributors to the project and the open-source community for their support.
ScrapeGraphAI is meant to be used for data exploration and research purposes only. We are not responsible for any misuse of the library.

Project details

These details have not been verified by PyPI

Release history Release notifications | RSS feed

1.32.0b2 pre-release

Nov 25, 2024

1.32.0b1 pre-release

Nov 24, 2024

1.31.1

Nov 22, 2024

1.31.1b4 pre-release

Nov 21, 2024

1.31.1b3 pre-release

Nov 21, 2024

1.31.1b2 pre-release

Nov 20, 2024

1.31.1b1 pre-release

Nov 20, 2024

1.31.0

Nov 19, 2024

1.31.0b1 pre-release

Nov 19, 2024

1.30.0

Nov 6, 2024

1.30.0b5 pre-release

Nov 18, 2024

1.30.0b4 pre-release

Nov 16, 2024

1.30.0b3 pre-release

Nov 15, 2024

1.30.0b2 pre-release

Nov 9, 2024

1.30.0b1 pre-release

Nov 5, 2024

1.29.0

Nov 4, 2024

1.29.0b1 pre-release

Nov 4, 2024

1.28.0

Nov 1, 2024

1.28.0b4 pre-release

Nov 3, 2024

1.28.0b3 pre-release

Nov 2, 2024

1.28.0b2 pre-release

Oct 31, 2024

1.28.0b1 pre-release

Oct 30, 2024

1.27.0

Oct 26, 2024

1.27.0b13 pre-release

Oct 29, 2024

This version

1.27.0b12 pre-release

Oct 28, 2024

1.27.0b11 pre-release

Oct 27, 2024

1.27.0b10 pre-release

Oct 25, 2024

1.27.0b9 pre-release

Oct 24, 2024

1.27.0b8 pre-release

Oct 24, 2024

1.27.0b7 pre-release

Oct 24, 2024

1.27.0b6 pre-release

Oct 23, 2024

1.27.0b5 pre-release

Oct 22, 2024

1.27.0b4 pre-release

Oct 21, 2024

1.27.0b3 pre-release

Oct 20, 2024

1.27.0b2 pre-release

Oct 18, 2024

1.27.0b1 pre-release

Oct 16, 2024

1.26.7

Oct 19, 2024

1.26.6

Oct 18, 2024

1.26.6b1 pre-release

Oct 14, 2024

1.26.5

Oct 13, 2024

1.26.4

Oct 13, 2024

1.26.3

Oct 13, 2024

1.26.2

Oct 13, 2024

1.26.1

Oct 13, 2024

1.26.0

Oct 13, 2024

1.26.0b17 pre-release

Oct 12, 2024

1.26.0b16 pre-release

Oct 11, 2024

1.26.0b15 pre-release

Oct 11, 2024

1.26.0b14 pre-release

Oct 10, 2024

1.26.0b13 pre-release

Oct 10, 2024

1.26.0b12 pre-release

Oct 9, 2024

1.26.0b11 pre-release

Oct 9, 2024

1.26.0b10 pre-release

Oct 9, 2024

1.26.0b9 pre-release

Oct 8, 2024

1.26.0b8 pre-release

Oct 8, 2024

1.26.0b7 pre-release

Oct 7, 2024

1.26.0b6 pre-release

Oct 7, 2024

1.26.0b5 pre-release

Oct 5, 2024

1.26.0b4 pre-release

Oct 5, 2024

1.26.0b3 pre-release

Oct 4, 2024

1.26.0b2 pre-release

Oct 1, 2024

1.26.0b1 pre-release

Sep 29, 2024

1.25.2

Oct 3, 2024

1.25.1

Sep 29, 2024

1.25.0

Sep 27, 2024

1.24.1

Sep 26, 2024

1.24.0

Sep 26, 2024

1.23.1

Sep 24, 2024

1.23.0

Sep 23, 2024

1.22.0

Sep 22, 2024

1.22.0b6 pre-release

Sep 28, 2024

1.22.0b5 pre-release

Sep 27, 2024

1.22.0b4 pre-release

Sep 27, 2024

1.22.0b3 pre-release

Sep 25, 2024

1.22.0b2 pre-release

Sep 25, 2024

1.22.0b1 pre-release

Sep 24, 2024

1.21.2b2 pre-release

Sep 23, 2024

1.21.2b1 pre-release

Sep 22, 2024

1.21.1

Sep 21, 2024

1.21.0

Sep 19, 2024

1.20.1

Sep 16, 2024

1.20.0

Sep 16, 2024

1.20.0b5 pre-release

Sep 18, 2024

1.20.0b4 pre-release

Sep 18, 2024

1.20.0b3 pre-release

Sep 18, 2024

1.20.0b2 pre-release

Sep 17, 2024

1.20.0b1 pre-release

Sep 14, 2024

1.19.0

Sep 13, 2024

1.19.0b12 pre-release

Sep 14, 2024

1.19.0b11 pre-release

Sep 13, 2024

1.19.0b10 pre-release

Sep 13, 2024

1.19.0b9 pre-release

Sep 13, 2024

1.19.0b8 pre-release

Sep 12, 2024

1.19.0b7 pre-release

Sep 12, 2024

1.19.0b6 pre-release

Sep 12, 2024

1.19.0b5 pre-release

Sep 10, 2024

1.19.0b4 pre-release

Sep 10, 2024

1.19.0b3 pre-release

Sep 10, 2024

1.19.0b2 pre-release

Sep 9, 2024

1.19.0b1 pre-release

Sep 8, 2024

1.18.3

Sep 11, 2024

1.18.2

Sep 10, 2024

1.18.1

Sep 8, 2024

1.18.0

Sep 8, 2024

1.17.0

Sep 8, 2024

1.17.0b11 pre-release

Sep 7, 2024

1.17.0b10 pre-release

Sep 7, 2024

1.17.0b9 pre-release

Sep 6, 2024

1.17.0b8 pre-release

Sep 6, 2024

1.17.0b7 pre-release

Sep 5, 2024

1.17.0b6 pre-release

Sep 4, 2024

1.17.0b5 pre-release

Sep 2, 2024

1.17.0b4 pre-release

Sep 2, 2024

1.17.0b3 pre-release

Sep 2, 2024

1.17.0b2 pre-release

Sep 2, 2024

1.17.0b1 pre-release

Sep 2, 2024

1.16.0

Sep 1, 2024

1.16.0b4 pre-release

Sep 2, 2024

1.16.0b3 pre-release

Sep 1, 2024

1.16.0b2 pre-release

Aug 31, 2024

1.16.0b1 pre-release

Aug 28, 2024

1.15.2

Sep 1, 2024

1.15.1

Aug 28, 2024

1.15.1b1 pre-release

Aug 28, 2024

1.15.0

Aug 26, 2024

1.15.0b8 pre-release

Aug 28, 2024

1.15.0b7 pre-release

Aug 27, 2024

1.15.0b6 pre-release

Aug 27, 2024

1.15.0b5 pre-release

Aug 26, 2024

1.15.0b4 pre-release

Aug 26, 2024

1.15.0b3 pre-release

Aug 24, 2024

1.15.0b2 pre-release

Aug 23, 2024

1.15.0b1 pre-release

Aug 23, 2024

1.14.1

Aug 24, 2024

1.14.1b1 pre-release

Aug 21, 2024

1.14.0

Aug 20, 2024

1.14.0b13 pre-release

Aug 20, 2024

1.14.0b12 pre-release

Aug 20, 2024

1.14.0b11 pre-release

Aug 19, 2024

1.14.0b10 pre-release

Aug 19, 2024

1.14.0b9 pre-release

Aug 17, 2024

1.14.0b8 pre-release

Aug 17, 2024

1.14.0b7 pre-release

Aug 16, 2024

1.14.0b6 pre-release

Aug 16, 2024

1.14.0b5 pre-release

Aug 16, 2024

1.14.0b4 pre-release

Aug 15, 2024

1.14.0b3 pre-release

Aug 13, 2024

1.14.0b2 pre-release

Aug 12, 2024

1.14.0b1 pre-release

Aug 11, 2024

1.13.3

Aug 10, 2024

1.13.2

Aug 10, 2024

1.13.1

Aug 9, 2024

1.13.0

Aug 9, 2024

1.13.0b9 pre-release

Aug 10, 2024

1.13.0b8 pre-release

Aug 9, 2024

1.13.0b7 pre-release

Aug 9, 2024

1.13.0b6 pre-release

Aug 9, 2024

1.13.0b5 pre-release

Aug 8, 2024

1.13.0b4 pre-release

Aug 7, 2024

1.13.0b3 pre-release

Aug 7, 2024

1.13.0b2 pre-release

Aug 7, 2024

1.13.0b1 pre-release

Aug 6, 2024

1.12.2

Aug 7, 2024

1.12.1

Aug 7, 2024

1.12.0

Aug 6, 2024

1.11.3

Jul 25, 2024

1.11.2

Jul 23, 2024

1.11.1

Jul 23, 2024

1.11.0

Jul 23, 2024

1.11.0b12 pre-release

Aug 6, 2024

1.11.0b11 pre-release

Aug 6, 2024

1.11.0b10 pre-release

Aug 2, 2024

1.11.0b9 pre-release

Aug 2, 2024

1.11.0b8 pre-release

Aug 1, 2024

1.11.0b7 pre-release

Aug 1, 2024

1.11.0b6 pre-release

Jul 31, 2024

1.11.0b5 pre-release

Jul 30, 2024

1.11.0b4 pre-release

Jul 25, 2024

1.11.0b3 pre-release

Jul 25, 2024

1.11.0b2 pre-release

Jul 24, 2024

1.11.0b1 pre-release

Jul 23, 2024

1.10.4

Jul 22, 2024

1.10.3

Jul 22, 2024

1.10.2

Jul 21, 2024

1.10.1

Jul 21, 2024

1.10.0

Jul 20, 2024

1.10.0b8 pre-release

Jul 23, 2024

1.10.0b7 pre-release

Jul 23, 2024

1.10.0b6 pre-release

Jul 22, 2024

1.10.0b5 pre-release

Jul 20, 2024

1.10.0b4 pre-release

Jul 20, 2024

1.10.0b3 pre-release

Jul 20, 2024

1.10.0b2 pre-release

Jul 19, 2024

1.10.0b1 pre-release

Jul 19, 2024

1.9.2

Jul 20, 2024

1.9.1

Jul 12, 2024

1.9.0

Jul 9, 2024

1.9.0b6 pre-release

Jul 17, 2024

1.9.0b5 pre-release

Jul 15, 2024

1.9.0b4 pre-release

Jul 14, 2024

1.9.0b3 pre-release

Jul 12, 2024

1.9.0b2 pre-release

Jul 5, 2024

1.9.0b1 pre-release

Jul 4, 2024

1.8.1b1 pre-release

Jul 4, 2024

1.8.0

Jun 30, 2024

1.8.0b1 pre-release

Jun 25, 2024

1.7.5

Jun 28, 2024

1.7.4

Jun 21, 2024

1.7.3

Jun 19, 2024

1.7.2

Jun 18, 2024

1.7.1

Jun 18, 2024

1.7.0

Jun 17, 2024

1.7.0b14 pre-release

Jun 19, 2024

1.7.0b13 pre-release

Jun 18, 2024

1.7.0b12 pre-release

Jun 17, 2024

1.7.0b11 pre-release

Jun 17, 2024

1.7.0b10 pre-release

Jun 17, 2024

1.7.0b9 pre-release

Jun 16, 2024

1.7.0b8 pre-release

Jun 16, 2024

1.7.0b7 pre-release

Jun 14, 2024

1.7.0b6 pre-release

Jun 13, 2024

1.7.0b5 pre-release

Jun 12, 2024

1.7.0b4 pre-release

Jun 12, 2024

1.7.0b3 pre-release

Jun 11, 2024

1.7.0b2 pre-release

Jun 10, 2024

1.7.0b1 pre-release

Jun 9, 2024

1.6.1

Jun 15, 2024

1.6.0

Jun 9, 2024

1.6.0b11 pre-release

Jun 9, 2024

1.6.0b10 pre-release

Jun 8, 2024

1.6.0b9 pre-release

Jun 7, 2024

1.6.0b8 pre-release

Jun 5, 2024

1.6.0b7 pre-release

Jun 5, 2024

1.6.0b6 pre-release

Jun 4, 2024

1.6.0b5 pre-release

Jun 4, 2024

1.6.0b4 pre-release

Jun 3, 2024

1.6.0b3 pre-release

Jun 3, 2024

1.6.0b2 pre-release

Jun 3, 2024

1.6.0b1 pre-release

Jun 2, 2024

1.5.7

Jun 6, 2024

1.5.6

Jun 5, 2024

1.5.5

Jun 5, 2024

1.5.5b1 pre-release

May 31, 2024

1.5.4

May 31, 2024

1.5.3b2 pre-release

May 30, 2024

1.5.3b1 pre-release

May 29, 2024

1.5.2

May 26, 2024

1.5.1

May 26, 2024

1.5.0

May 26, 2024

1.5.0b5 pre-release

May 26, 2024

1.5.0b4 pre-release

May 25, 2024

1.5.0b3 pre-release

May 24, 2024

1.5.0b2 pre-release

May 24, 2024

1.5.0b1 pre-release

May 24, 2024

1.4.0

May 22, 2024

1.4.0b2 pre-release

May 19, 2024

1.4.0b1 pre-release

May 19, 2024

1.3.2

May 22, 2024

1.3.1

May 21, 2024

1.3.0

May 19, 2024

1.3.0b1 pre-release

May 17, 2024

1.2.4

May 17, 2024

1.2.3

May 15, 2024

1.2.2

May 15, 2024

1.2.1

May 15, 2024

1.2.0

May 15, 2024

1.2.0b1 pre-release

May 15, 2024

1.1.0

May 15, 2024

1.0.1

May 15, 2024

1.0.0

May 15, 2024

0.11.1

May 14, 2024

0.11.0

May 14, 2024

0.11.0b11 pre-release

May 14, 2024

0.11.0b10 pre-release

May 14, 2024

0.11.0b9 pre-release

May 14, 2024

0.11.0b8 pre-release

May 13, 2024

0.11.0b7 pre-release

May 13, 2024

0.11.0b6 pre-release

May 13, 2024

0.11.0b5 pre-release

May 13, 2024

0.11.0b4 pre-release

May 12, 2024

0.11.0b3 pre-release

May 12, 2024

0.11.0b2 pre-release

May 10, 2024

0.11.0b1 pre-release

May 10, 2024

0.10.1

May 11, 2024

0.10.0

May 8, 2024

0.10.0b6 pre-release

May 9, 2024

0.10.0b5 pre-release

May 9, 2024

0.10.0b4 pre-release

May 9, 2024

0.10.0b3 pre-release

May 9, 2024

0.10.0b2 pre-release

May 8, 2024

0.10.0b1 pre-release

May 6, 2024

0.9.0

May 4, 2024

0.9.0b8 pre-release

May 6, 2024

0.9.0b7 pre-release

May 6, 2024

0.9.0b6 pre-release

May 6, 2024

0.9.0b5 pre-release

May 6, 2024

0.9.0b4 pre-release

May 5, 2024

0.9.0b3 pre-release

May 5, 2024

0.9.0b2 pre-release

May 5, 2024

0.9.0b1 pre-release

May 4, 2024

0.8.0

May 3, 2024

0.8.0b2 pre-release

May 4, 2024

0.8.0b1 pre-release

May 3, 2024

0.7.0

May 3, 2024

0.7.0b3 pre-release

May 3, 2024

0.7.0b2 pre-release

May 3, 2024

0.7.0b1 pre-release

May 3, 2024

0.6.2

May 2, 2024

0.6.1

May 2, 2024

0.6.1b1 pre-release

May 2, 2024

0.6.0

May 2, 2024

0.5.2

May 2, 2024

0.5.1

May 2, 2024

0.5.0

Apr 30, 2024

0.5.0b8 pre-release

May 2, 2024

0.5.0b7 pre-release

May 1, 2024

0.5.0b6 pre-release

Apr 30, 2024

0.5.0b5 pre-release

Apr 30, 2024

0.5.0b4 pre-release

Apr 30, 2024

0.5.0b3 pre-release

Apr 30, 2024

0.5.0b2 pre-release

Apr 30, 2024

0.5.0b1 pre-release

Apr 30, 2024

0.4.2

Apr 29, 2024

0.4.1

Apr 28, 2024

0.4.0

Apr 28, 2024

0.4.0b3 pre-release

Apr 27, 2024

0.4.0b2 pre-release

Apr 27, 2024

0.4.0b1 pre-release

Apr 27, 2024

0.3.0

Apr 26, 2024

0.3.0b2 pre-release

Apr 26, 2024

0.3.0b1 pre-release

Apr 26, 2024

0.2.8

Apr 25, 2024

0.2.7

Apr 25, 2024

0.2.6

Apr 21, 2024

0.2.5

Apr 21, 2024

0.2.4

Apr 21, 2024

0.2.3

Apr 19, 2024

0.2.2

Apr 19, 2024

0.2.1

Apr 19, 2024

0.2.0

Apr 17, 2024

0.1.5

Apr 11, 2024

0.1.4

Apr 10, 2024

0.1.3

Apr 10, 2024

0.1.2

Apr 9, 2024

0.1.1

Apr 9, 2024

0.1.0

Apr 8, 2024

0.0.16

Apr 6, 2024

0.0.14

Apr 2, 2024

0.0.13

Apr 2, 2024

0.0.12

Mar 25, 2024

0.0.11

Mar 18, 2024

0.0.10

Mar 18, 2024

0.0.9

Mar 14, 2024

0.0.8

Mar 12, 2024

0.0.7

Feb 23, 2024

0.0.6

Feb 23, 2024

0.0.6a0 pre-release

Feb 23, 2024

0.0.5

Feb 23, 2024

0.0.4

Feb 21, 2024

0.0.3

Feb 19, 2024

0.0.2

Feb 17, 2024

0.0.1

Feb 17, 2024

Download files

Download the file for your platform. If you're not sure which to choose, learn more about installing packages.

Source Distribution

scrapegraphai-1.27.0b12.tar.gz (3.5 MB view details)

Uploaded Oct 28, 2024 Source

Built Distribution

scrapegraphai-1.27.0b12-py3-none-any.whl (166.8 kB view details)

Uploaded Oct 28, 2024 Python 3

File details

Details for the file scrapegraphai-1.27.0b12.tar.gz.

File metadata

Download URL: scrapegraphai-1.27.0b12.tar.gz
Upload date: Oct 28, 2024
Size: 3.5 MB
Tags: Source
Uploaded using Trusted Publishing? No
Uploaded via: twine/5.1.1 CPython/3.10.12

File hashes

Hashes for scrapegraphai-1.27.0b12.tar.gz
Algorithm	Hash digest
SHA256	`0f6d5c08a2d59da8ba6dd9aa248920ed8fdb9a8e96e92f791425b208e6c1e206`
MD5	`205d302c8bac2c99abac6326c6eca52a`
BLAKE2b-256	`3903459ad520f12bcdbd5ecb81af95137c4d44b717b21836cecc9fec1ddc6650`

See more details on using hashes here.

File details

Details for the file scrapegraphai-1.27.0b12-py3-none-any.whl.

File metadata

Download URL: scrapegraphai-1.27.0b12-py3-none-any.whl
Upload date: Oct 28, 2024
Size: 166.8 kB
Tags: Python 3
Uploaded using Trusted Publishing? No
Uploaded via: twine/5.1.1 CPython/3.10.12

File hashes

Hashes for scrapegraphai-1.27.0b12-py3-none-any.whl
Algorithm	Hash digest
SHA256	`22428883ba1d8b905f1aea1cd08ab95deab53fa72104b24543948fda60986d8b`
MD5	`369e53f2e3511b13857303083e45eabc`
BLAKE2b-256	`2024a3799ab7dbaa8b63e18cc5f26e1c79e6a356594051359ea09617a8a762d3`