NewsCrawler - a library to crawl online newspaper articles
Project description
NewsCrawler
NewsCrawler is a Python library for crawling online newspaper articles. It has a minimal interface to insure maximum productivity with minimal work.
Based on the popular libraries: Newspaper3k, BeautifulSoup4 and requests
Getting Started
In order to install this library, clone the repositor, go to the project's root directory and then run:
git clone https://github.com/NewsPipe/NewsCrawler.git
pip install .
Alternatively, you can install this library from the PyPI repository with:
pip install NewsCrawler3
Examples
>>> from newscrawler import Crawler
>>> crawler = Crawler("zeit.de")
>>> crawler.get_article_information_as_dataframe()
title ... text
0 Wolf Biermann: Wolf, hast du Angst vor dem Tod? ... Dass der Liedermacher Wolf Biermann noch am Le...
1 Österreich: Sie wollen doch nur helfen ... Wenn Wien und die ÖVP aufeinandertreffen, dann...
2 Psychologie: Du darfst dich schämen ... Wozu, bitte, soll das gut sein? Das Gesicht lä...
3 Fleischindustrie in Uruguay: 150 Kilo Gewichts... ... So muss das Rinderparadies sein: saftig grüne ...
4 Homeschooling: Eine gerechte Note ist nicht mö... ... Gut zwölf Wochen Fernunterricht haben die Schü...
5 Vegane Ernährung: Fast schon so was wie Käse ... Auf einer aufgebockten Holzplatte hat Nour Akb...
6 Corona-Pandemie: Spanien will den Ausnahmezust... ... In Spanien will die Regierung den umstrittenen...
7 Bundesliga, 29. Spieltag: Gladbach klettert mi... ... Borussia Mönchengladbach — 1. FC Union Berlin ...
8 SpaceX: Crew-Dragon-Raumkapsel dockt erfolgrei... ... Nach etwa 19 Stunden Reise haben die beiden US...
9 Wetter und Viren: Hey Sommer, gib Corona den R... ... Der Sommer ist ein natürlicher Feind vieler Vi...
10 Fußball: Premier League darf Saison fortsetzen ... Die Premier League darf die Saison nach einer ...
11 Open-Source-Projekt: Entwickler veröffentliche... ... Die Entwickler der Corona-Warn-App der Bundesr...
12 Dietzenbach: Nach Angriff auf Beamte Polizei o... ... Nachdem am vergangenen Freitag Einsatzkräfte i...
13 Gymnastiklehrerin: "Meine Perspektive: stilvol... ... Der Ausbruch des Coronavirus verändert für vie...
14 Bürgerkriegsflüchtlinge: Obergrenze für Famili... ... Die Obergrenze für den Familiennachzug von sub...
[15 rows x 7 columns]
>>> crawler.get_article_information_as_dataframe().keys()
Index(['title', 'summary', 'author', 'published', 'link', 'tags', 'text'], dtype='object')
Project details
Release history Release notifications | RSS feed
Download files
Download the file for your platform. If you're not sure which to choose, learn more about installing packages.
Source Distribution
Built Distribution
Filter files by name, interpreter, ABI, and platform.
If you're not sure about the file name format, learn more about wheel file names.
Copy a direct link to the current filters
File details
Details for the file NewsCrawler3-0.1.9.tar.gz.
File metadata
- Download URL: NewsCrawler3-0.1.9.tar.gz
- Upload date:
- Size: 6.3 kB
- Tags: Source
- Uploaded using Trusted Publishing? No
- Uploaded via: twine/3.2.0 pkginfo/1.5.0.1 requests/2.24.0 setuptools/50.3.0 requests-toolbelt/0.9.1 tqdm/4.50.1 CPython/3.7.1
File hashes
| Algorithm | Hash digest | |
|---|---|---|
| SHA256 |
f935954d23e2b1f73c0e7762c7ab0879fe8fbe9f0aa4e297068a1c25245ab41f
|
|
| MD5 |
ed64a38286505cbfe4de104fc89de829
|
|
| BLAKE2b-256 |
b4dde47ffdd4f4603ca5097bf9e135ea10bca8c97913ef93a86ee1c321924b1e
|
File details
Details for the file NewsCrawler3-0.1.9-py3-none-any.whl.
File metadata
- Download URL: NewsCrawler3-0.1.9-py3-none-any.whl
- Upload date:
- Size: 7.7 kB
- Tags: Python 3
- Uploaded using Trusted Publishing? No
- Uploaded via: twine/3.2.0 pkginfo/1.5.0.1 requests/2.24.0 setuptools/50.3.0 requests-toolbelt/0.9.1 tqdm/4.50.1 CPython/3.7.1
File hashes
| Algorithm | Hash digest | |
|---|---|---|
| SHA256 |
26c7ec5b040b620110051aa2745e3e17db4ad6c963f602ac61657aa8519cb168
|
|
| MD5 |
8567c724ebb9b0215dfeb1bfc2a30d8a
|
|
| BLAKE2b-256 |
acda7208a99f4931d973d35fdee9236d656cd5b74955e00a0f428ed7bba8b409
|