🌐 Um simples scraper que retorna o HTML completo de uma URL usando BeautifulSoup
Project description
🚀 README.md
🌐 Scrapy-HTML
🔍 Scrapy-HTML é um pacote Python simples e eficiente que faz scraping do conteúdo HTML completo de qualquer página web fornecida. Ele utiliza as bibliotecas BeautifulSoup4 e Requests para realizar a raspagem e retornar o HTML de forma estruturada e legível.
✨ Características Principais
- 🌎 Faz scraping de qualquer página web com uma URL válida.
- ⚡ Retorna o HTML formatado e legível usando
BeautifulSoup.prettify(). - 🔒 Tratamento de erros robusto para URLs inválidas ou problemas de rede.
- 💡 Leve e fácil de usar, com dependências mínimas.
⚡ Instalação
Para instalar o pacote diretamente do PyPI, execute:
pip install scrapy_html
💻 Como Usar
🔥 Exemplo básico de uso:
from scrapy_html.scraper import get_html_content
# 🌐 URL da página que deseja raspar
url = "https://www.example.com"
# 🔄 Obtendo o conteúdo HTML da página
html = get_html_content(url)
# 📝 Exibindo o HTML formatado
print(html)
🔍 Saída esperada:
<html>
<head>
<title>Example Domain</title>
</head>
<body>
<div>
<h1>Example Domain</h1>
<p>This domain is for use in illustrative examples in documents.</p>
</div>
</body>
</html>
🛠 Requisitos
- Python >= 3.6
- beautifulsoup4
- requests
As dependências são instaladas automaticamente com o comando pip install scrapy-html.
🧪 Testes
Este projeto inclui testes básicos usando pytest. Para rodar os testes localmente:
pip install pytest
pytest tests/
🎨 Recursos Futuros
- 🌐 Suporte a diferentes parsers (
lxml,html5lib). - 🔄 Scraping assíncrono para maior desempenho.
- ⚡ Download de recursos estáticos (imagens, CSS, JS).
- 🎛 Parâmetros adicionais para scraping parcial.
- 🧪 Testes automatizados avançados com
requests-mock.
🏗 Estrutura do Projeto
scrapy_html/
│
├── scrapy_html/ # 📦 Código principal
│ ├── __init__.py
│ └── scraper.py # ⚡ Função principal do scraper
│
├── tests/ # 🧪 Testes automatizados
│ └── test_scraper.py
│
├── setup.py # ⚙️ Configuração para PyPI
├── pyproject.toml # 📦 Configuração moderna
├── README.md # 📚 Documentação do projeto
├── LICENSE # 📜 Licença MIT
└── MANIFEST.in # 📋 Inclusão de arquivos extras
🔧 Contribuindo
Contribuições são bem-vindas! 🚀
Para contribuir, siga estas etapas:
- Fork este repositório.
- Crie uma nova branch:
git checkout -b minha-nova-funcionalidade
- Faça suas alterações e faça commit:
git commit -m "✨ Adicionando nova funcionalidade incrível"
- Envie para o branch:
git push origin minha-nova-funcionalidade
- Abra um Pull Request. 💡
📝 Licença
Distribuído sob a Licença MIT. Veja o arquivo LICENSE para mais informações.
👨💻 Autor
Desenvolvido por Roberto Lima 🚀✨
💬 Contato
- 📧 Email: robertolima.izphera@gmail.com
- 💼 LinkedIn: Roberto Lima
⭐ Gostou do projeto?
Deixe uma ⭐ no repositório e compartilhe com a comunidade! 🚀✨
---
## 🌟 **O que este README oferece?**
- 🎯 **Descrição clara** do projeto e seu propósito.
- 🛠 **Instruções detalhadas de instalação** e **uso prático**.
- 🧪 **Guia de testes** para garantir que o código funciona.
- 🏗 **Estrutura do projeto** para facilitar a navegação.
- 🔄 **Seção de contribuição** para quem deseja ajudar no desenvolvimento.
- 📝 **Licença e informações do autor** para transparência.
Project details
Release history Release notifications | RSS feed
Download files
Download the file for your platform. If you're not sure which to choose, learn more about installing packages.
Source Distribution
Built Distribution
Filter files by name, interpreter, ABI, and platform.
If you're not sure about the file name format, learn more about wheel file names.
Copy a direct link to the current filters
File details
Details for the file scrapy_html-0.1.4.tar.gz.
File metadata
- Download URL: scrapy_html-0.1.4.tar.gz
- Upload date:
- Size: 4.3 kB
- Tags: Source
- Uploaded using Trusted Publishing? No
- Uploaded via: twine/6.1.0 CPython/3.11.7
File hashes
| Algorithm | Hash digest | |
|---|---|---|
| SHA256 |
95a8e5362353e2b181c12f0517aa0af926632313884ce790d00ef9eb1fc2e485
|
|
| MD5 |
971c35f88068a6a060d6d2d395a024c9
|
|
| BLAKE2b-256 |
7165151b645d07dea9ead6a0dec427ae95e33ac253a173871b54fc69c52ba3a1
|
File details
Details for the file scrapy_html-0.1.4-py3-none-any.whl.
File metadata
- Download URL: scrapy_html-0.1.4-py3-none-any.whl
- Upload date:
- Size: 4.3 kB
- Tags: Python 3
- Uploaded using Trusted Publishing? No
- Uploaded via: twine/6.1.0 CPython/3.11.7
File hashes
| Algorithm | Hash digest | |
|---|---|---|
| SHA256 |
8971b63a3e6eead6bc4168bc725d2559e54777eb6a49123a4e66961ebce6236b
|
|
| MD5 |
530b8a736279b6919ed91b3f3d852dc3
|
|
| BLAKE2b-256 |
2161dd222d540907d0eb94199f491e6624f7558b4c568428abed7cded8439927
|