Scrape news as PDF.
Project description
news-scraper-pdf
Ce script récupère la dernière édition depuis Europresse au format PDF avec un compte BNF.
Il vient palier à l'interface d'Europresse non optimisée pour lire facilement un journal.
Description
Il est nécessaire de posséder un compte BNF pour s'y connecter.
Le script est développé en python en se basant sur Selenium.
Différentes options existent pour écrire le fichier PDF dans un dossier spécifique, ou directement dans un répertoire Nextcloud.
Installation
Installation via pip (recommandée)
Méthode d'installation simple qui convient à un usage normal.
[!NOTE] Pré-requis :
- python3
- pip
Installation depuis pip :
pip install news-scraper-pdf
Installation localement depuis git
[!NOTE] Pré-requis :
- python3
- pip
- git
- virtual env via
pip install virtualenv(seulement avec un installation depuis git)
- Ouvrir un terminal.
- Récupérer le projet.
git clone https://github.com/pressomanic/news-scraper-pdf.git - Se placer dans le répertoire du projet.
cd news-scraper-pdf - Construire le projet avec venv. Recommandé pour tester. [Option 1]
- Créer le venv.
python3 -m venv venv - Se sourcer sur venv.
- windows
.\venv\Scripts\Activate.bat - linux
source venv/bin/activate
- windows
- Installer les requirements.
pip install -r requiements.txt - Créer un package pour être disponible directement dans le pip du venv.
pip install -e .
- Créer le venv.
- Construire directement le projet avec la configuration globale python du système (no venv). [Option 2]
- Installer les requirements.
pip install -r requiements.txt - Créer un package pour être disponible directement dans le pip du venv.
pip install -e .
- Installer les requirements.
- Le package est maintenant disponible localement dans pip. Tester avec
news-scraper-pdf -hpour afficher l'aide.
Utilisation
Squelette
$ news-scraper-pdf --help
usage: get_edition.py [-h] [-e ENV] [-f FIRST_PAGES] [-v] [-n NEXTCLOUD_PATH]
[-o OUTPUT_PATH]
source
positional arguments:
source Source of media to find latest publication.
options:
-h, --help show this help message and exit
-e ENV, --env ENV Specify the file env variables.By default taking file
referenced in os variable ENV_NEWS_SCRAPER.
-f FIRST_PAGES, --first-pages FIRST_PAGES
Get the first N pages. Useful to test a newspaper
before getting all pages.
-v, --verbose Enable verbose mode.
-n NEXTCLOUD_PATH, --nextcloud-path NEXTCLOUD_PATH
Set Nextcloud upload directory path. Need to configure
valid connection with --env
-o OUTPUT_PATH, --output-path OUTPUT_PATH
Write file to a specific path.
Chercher un journal
Le script utilise la valeur dans l'argument source.
Il essaye de trouver la meilleure correspondance parmi les journaux disponibles.
Dans les logs du script (output dans la console), le score est affichée par rapport à la source.
Par exemple, si le script est démarré avec source égale à monde.
Found better score for "01 net" with score 36.
Found better score for "20 minutes" with score 40.
Found better score for "gourmand" with score 46.
Found better score for "monde campus, le" with score 48.
Found better score for "monde, le" with score 71.
Publication identified for "Monde, Le" from the given input "monde"
Le script essaye de trouver la meilleure correspondance, ici monde correspond à monde, le avec un score de 71.
Dans le cas où le journal trouvé ne correspond, il faut vérifier la syntaxe saisie et si possible de rajouter des détails (comme "monde, le").
Configuration du fichier env
Le script a besoin d'avoir la configuration du compte BNF.
De même, si l'envoie sur nextcloud est activé via l'option -n.
Ces configurations doivent être placées dans un fichier env. Ci-dessous un exemple :
# Mandatory
BNF_LOGIN="your@email.fr"
BNF_PASSWORD="your-password"
# Optional to use nextcloud
NEXTCLOUD_URL="https://your.private.nextcloud"
NEXTCLOUD_USER="your-nextcloud-user"
NEXTCLOUD_PASSWORD="your-nextcloud-password"
Exemples
Récupérer l'édition du Monde
$ news-scraper-pdf -e .env monde
Récupérer l'édition du Monde dans un dossier spécifique
$ news-scraper-pdf -e .env -o my/specific/folder monde
Récupérer l'édition du Monde pour l'envoyer dans un répertoire Nextcloud
$ news-scraper-pdf -e .env -n my/specific/nextcloud monde
Récupérer l'édition du Monde avec seulement les 3 premières pages
$ news-scraper-pdf -e .env -f 3 monde
Liens
Disclaimer
Ce script utilise les fonctionnalités prévues nativement dans Europresse.
Il automatise certains "cliques" pour éviter des actions redondantes dans la lecture des journaux.
Aucun accès illégal à des ressources n'est réalisé.
Project details
Release history Release notifications | RSS feed
Download files
Download the file for your platform. If you're not sure which to choose, learn more about installing packages.
Source Distribution
Built Distribution
Filter files by name, interpreter, ABI, and platform.
If you're not sure about the file name format, learn more about wheel file names.
Copy a direct link to the current filters
File details
Details for the file news_scraper_pdf-1.1.2.tar.gz.
File metadata
- Download URL: news_scraper_pdf-1.1.2.tar.gz
- Upload date:
- Size: 7.4 kB
- Tags: Source
- Uploaded using Trusted Publishing? No
- Uploaded via: twine/5.1.1 CPython/3.12.4
File hashes
| Algorithm | Hash digest | |
|---|---|---|
| SHA256 |
8caefa6934670277cba30827f40668097080e0bc5e1d0a778bcdc60a8225db0e
|
|
| MD5 |
1af7a6961e491d92eab0499654e85b4a
|
|
| BLAKE2b-256 |
cfee7b4f575dafa1a7b28b21811e0a5f98426e514c463c4d0303d4dd272c7c2a
|
File details
Details for the file news_scraper_pdf-1.1.2-py3-none-any.whl.
File metadata
- Download URL: news_scraper_pdf-1.1.2-py3-none-any.whl
- Upload date:
- Size: 8.1 kB
- Tags: Python 3
- Uploaded using Trusted Publishing? No
- Uploaded via: twine/5.1.1 CPython/3.12.4
File hashes
| Algorithm | Hash digest | |
|---|---|---|
| SHA256 |
b9f52f4066c0310fa30918507af0ad3dd35332e0d694da7199286341c7161c50
|
|
| MD5 |
ef5e262d5107af35d54834382f413d77
|
|
| BLAKE2b-256 |
e430dbe5570ec6fbcb7b82977839a813771368f7ec6ef3fdedc3622251656d73
|