NewsCrawler - a library to crawl online newspaper articles
Project description
NewsCrawler
NewsCrawler is a Python library for crawling online newspaper articles. It has a minimal interface to insure maximum productivity with minimal work.
Based on the popular libraries: Newspaper3k, BeautifulSoup4 and requests
Getting Started
In order to install this library, clone the repositor, go to the project's root directory and then run:
git clone https://github.com/NewsPipe/NewsCrawler.git
pip install .
Alternatively, you can install this library from the PyPI repository with:
pip install NewsCrawler3
Examples
>>> from newscrawler import Crawler
>>> crawler = Crawler("zeit.de")
>>> crawler.get_article_information_as_dataframe()
title ... text
0 Wolf Biermann: Wolf, hast du Angst vor dem Tod? ... Dass der Liedermacher Wolf Biermann noch am Le...
1 Österreich: Sie wollen doch nur helfen ... Wenn Wien und die ÖVP aufeinandertreffen, dann...
2 Psychologie: Du darfst dich schämen ... Wozu, bitte, soll das gut sein? Das Gesicht lä...
3 Fleischindustrie in Uruguay: 150 Kilo Gewichts... ... So muss das Rinderparadies sein: saftig grüne ...
4 Homeschooling: Eine gerechte Note ist nicht mö... ... Gut zwölf Wochen Fernunterricht haben die Schü...
5 Vegane Ernährung: Fast schon so was wie Käse ... Auf einer aufgebockten Holzplatte hat Nour Akb...
6 Corona-Pandemie: Spanien will den Ausnahmezust... ... In Spanien will die Regierung den umstrittenen...
7 Bundesliga, 29. Spieltag: Gladbach klettert mi... ... Borussia Mönchengladbach — 1. FC Union Berlin ...
8 SpaceX: Crew-Dragon-Raumkapsel dockt erfolgrei... ... Nach etwa 19 Stunden Reise haben die beiden US...
9 Wetter und Viren: Hey Sommer, gib Corona den R... ... Der Sommer ist ein natürlicher Feind vieler Vi...
10 Fußball: Premier League darf Saison fortsetzen ... Die Premier League darf die Saison nach einer ...
11 Open-Source-Projekt: Entwickler veröffentliche... ... Die Entwickler der Corona-Warn-App der Bundesr...
12 Dietzenbach: Nach Angriff auf Beamte Polizei o... ... Nachdem am vergangenen Freitag Einsatzkräfte i...
13 Gymnastiklehrerin: "Meine Perspektive: stilvol... ... Der Ausbruch des Coronavirus verändert für vie...
14 Bürgerkriegsflüchtlinge: Obergrenze für Famili... ... Die Obergrenze für den Familiennachzug von sub...
[15 rows x 7 columns]
>>> crawler.get_article_information_as_dataframe().keys()
Index(['title', 'summary', 'author', 'published', 'link', 'tags', 'text'], dtype='object')
Project details
Release history Release notifications | RSS feed
Download files
Download the file for your platform. If you're not sure which to choose, learn more about installing packages.
Source Distribution
NewsCrawler3-0.1.9.tar.gz
(6.3 kB
view details)
Built Distribution
File details
Details for the file NewsCrawler3-0.1.9.tar.gz
.
File metadata
- Download URL: NewsCrawler3-0.1.9.tar.gz
- Upload date:
- Size: 6.3 kB
- Tags: Source
- Uploaded using Trusted Publishing? No
- Uploaded via: twine/3.2.0 pkginfo/1.5.0.1 requests/2.24.0 setuptools/50.3.0 requests-toolbelt/0.9.1 tqdm/4.50.1 CPython/3.7.1
File hashes
Algorithm | Hash digest | |
---|---|---|
SHA256 | f935954d23e2b1f73c0e7762c7ab0879fe8fbe9f0aa4e297068a1c25245ab41f |
|
MD5 | ed64a38286505cbfe4de104fc89de829 |
|
BLAKE2b-256 | b4dde47ffdd4f4603ca5097bf9e135ea10bca8c97913ef93a86ee1c321924b1e |
File details
Details for the file NewsCrawler3-0.1.9-py3-none-any.whl
.
File metadata
- Download URL: NewsCrawler3-0.1.9-py3-none-any.whl
- Upload date:
- Size: 7.7 kB
- Tags: Python 3
- Uploaded using Trusted Publishing? No
- Uploaded via: twine/3.2.0 pkginfo/1.5.0.1 requests/2.24.0 setuptools/50.3.0 requests-toolbelt/0.9.1 tqdm/4.50.1 CPython/3.7.1
File hashes
Algorithm | Hash digest | |
---|---|---|
SHA256 | 26c7ec5b040b620110051aa2745e3e17db4ad6c963f602ac61657aa8519cb168 |
|
MD5 | 8567c724ebb9b0215dfeb1bfc2a30d8a |
|
BLAKE2b-256 | acda7208a99f4931d973d35fdee9236d656cd5b74955e00a0f428ed7bba8b409 |