Skip to main content

🌐 Um simples scraper que retorna o HTML completo de uma URL usando BeautifulSoup

Project description

🚀 README.md

# 🌐 Scrapy-HTML

🔍 **Scrapy-HTML** é um pacote Python simples e eficiente que faz scraping do conteúdo HTML completo de qualquer página web fornecida. Ele utiliza as bibliotecas **BeautifulSoup4** e **Requests** para realizar a raspagem e retornar o HTML de forma estruturada e legível.

---

## ✨ **Características Principais**

- 🌎 Faz scraping de qualquer página web com uma URL válida.
- ⚡ Retorna o HTML formatado e legível usando `BeautifulSoup.prettify()`.
- 🔒 Tratamento de erros robusto para URLs inválidas ou problemas de rede.
- 💡 Leve e fácil de usar, com dependências mínimas.

---

## ⚡ **Instalação**

Para instalar o pacote diretamente do **PyPI**, execute:

```bash
pip install scrapy-html

💻 Como Usar

🔥 Exemplo básico de uso:

from scrapy_html.scraper import get_html_content

# 🌐 URL da página que deseja raspar
url = "https://www.example.com"

# 🔄 Obtendo o conteúdo HTML da página
html = get_html_content(url)

# 📝 Exibindo o HTML formatado
print(html)

🔍 Saída esperada:

<html>
  <head>
    <title>Example Domain</title>
  </head>
  <body>
    <div>
      <h1>Example Domain</h1>
      <p>This domain is for use in illustrative examples in documents.</p>
    </div>
  </body>
</html>

🛠 Requisitos

As dependências são instaladas automaticamente com o comando pip install scrapy-html.


🧪 Testes

Este projeto inclui testes básicos usando pytest. Para rodar os testes localmente:

pip install pytest
pytest tests/

🎨 Recursos Futuros

  • 🌐 Suporte a diferentes parsers (lxml, html5lib).
  • 🔄 Scraping assíncrono para maior desempenho.
  • ⚡ Download de recursos estáticos (imagens, CSS, JS).
  • 🎛 Parâmetros adicionais para scraping parcial.
  • 🧪 Testes automatizados avançados com requests-mock.

🏗 Estrutura do Projeto

scrapy_html/
│
├── scrapy_html/             # 📦 Código principal
│   ├── __init__.py
│   └── scraper.py           # ⚡ Função principal do scraper
│
├── tests/                   # 🧪 Testes automatizados
│   └── test_scraper.py
│
├── setup.py                 # ⚙️ Configuração para PyPI
├── pyproject.toml           # 📦 Configuração moderna
├── README.md                # 📚 Documentação do projeto
├── LICENSE                  # 📜 Licença MIT
└── MANIFEST.in              # 📋 Inclusão de arquivos extras

🔧 Contribuindo

Contribuições são bem-vindas! 🚀
Para contribuir, siga estas etapas:

  1. Fork este repositório.
  2. Crie uma nova branch:
    git checkout -b minha-nova-funcionalidade
    
  3. Faça suas alterações e faça commit:
    git commit -m "✨ Adicionando nova funcionalidade incrível"
    
  4. Envie para o branch:
    git push origin minha-nova-funcionalidade
    
  5. Abra um Pull Request. 💡

📝 Licença

Distribuído sob a Licença MIT. Veja o arquivo LICENSE para mais informações.


👨‍💻 Autor

Desenvolvido com 💙 por Seu Nome 🚀✨


💬 Contato


Gostou do projeto?

Deixe uma ⭐ no repositório e compartilhe com a comunidade! 🚀✨


---

## 🌟 **O que este README oferece?**
- 🎯 **Descrição clara** do projeto e seu propósito.  
- 🛠 **Instruções detalhadas de instalação** e **uso prático**.  
- 🧪 **Guia de testes** para garantir que o código funciona.  
- 🏗 **Estrutura do projeto** para facilitar a navegação.  
- 🔄 **Seção de contribuição** para quem deseja ajudar no desenvolvimento.  
- 📝 **Licença e informações do autor** para transparência.

---

Se quiser **melhorias adicionais**, como **badges do PyPI**, **GitHub Actions para CI/CD**, ou um **GIF de demonstração**, é só pedir! 🚀✨✅

Project details


Download files

Download the file for your platform. If you're not sure which to choose, learn more about installing packages.

Source Distribution

scrapy-html-0.1.1.tar.gz (4.4 kB view details)

Uploaded Source

Built Distribution

If you're not sure about the file name format, learn more about wheel file names.

scrapy_html-0.1.1-py3-none-any.whl (4.3 kB view details)

Uploaded Python 3

File details

Details for the file scrapy-html-0.1.1.tar.gz.

File metadata

  • Download URL: scrapy-html-0.1.1.tar.gz
  • Upload date:
  • Size: 4.4 kB
  • Tags: Source
  • Uploaded using Trusted Publishing? No
  • Uploaded via: twine/6.1.0 CPython/3.11.7

File hashes

Hashes for scrapy-html-0.1.1.tar.gz
Algorithm Hash digest
SHA256 7c7e706642e959fda1b0d9cf45703c57d69ced98e845e9163d2ba5f120ed1a28
MD5 0b3636bfa186707a17226cddac82ac30
BLAKE2b-256 8413f15040d783f99d86f8535494a8a6585082d89ba3f68e963a3dbdf7b49b09

See more details on using hashes here.

File details

Details for the file scrapy_html-0.1.1-py3-none-any.whl.

File metadata

  • Download URL: scrapy_html-0.1.1-py3-none-any.whl
  • Upload date:
  • Size: 4.3 kB
  • Tags: Python 3
  • Uploaded using Trusted Publishing? No
  • Uploaded via: twine/6.1.0 CPython/3.11.7

File hashes

Hashes for scrapy_html-0.1.1-py3-none-any.whl
Algorithm Hash digest
SHA256 fbe96c2bd268807644090854259f6303cbad91bacae07136c8f30caf94f1a5e9
MD5 c9563831e6a9d6ec969d5289af8e3845
BLAKE2b-256 9abc3eb8c425b221b8a5990f3484cf138d7d5082142f209ddefd630e981c39e4

See more details on using hashes here.

Supported by

AWS Cloud computing and Security Sponsor Datadog Monitoring Depot Continuous Integration Fastly CDN Google Download Analytics Pingdom Monitoring Sentry Error logging StatusPage Status page