Skip to main content

NewsCrawler - a library to crawl online newspaper articles

Project description

NewsCrawler

Build Status PyPI version Coverage Status

NewsCrawler is a Python library for crawling online newspaper articles. It has a minimal interface to insure maximum productivity with minimal work.

Based on the popular libraries: Newspaper3k, BeautifulSoup4 and requests

Getting Started

In order to install this library, clone the repositor, go to the project's root directory and then run:

git clone https://github.com/NewsPipe/NewsCrawler.git
pip install .

Alternatively, you can install this library from the PyPI repository with:

pip install NewsCrawler3

Examples

>>> from newscrawler import Crawler

>>> crawler = Crawler("zeit.de")
>>> crawler.get_article_information_as_dataframe()
                                        title  ...                                               text
0     Wolf Biermann: Wolf, hast du Angst vor dem Tod?  ...  Dass der Liedermacher Wolf Biermann noch am Le...
1              Österreich: Sie wollen doch nur helfen  ...  Wenn Wien und die ÖVP aufeinandertreffen, dann...
2                 Psychologie: Du darfst dich schämen  ...  Wozu, bitte, soll das gut sein? Das Gesicht lä...
3   Fleischindustrie in Uruguay: 150 Kilo Gewichts...  ...  So muss das Rinderparadies sein: saftig grüne ...
4   Homeschooling: Eine gerechte Note ist nicht mö...  ...  Gut zwölf Wochen Fernunterricht haben die Schü...
5        Vegane Ernährung: Fast schon so was wie Käse  ...  Auf einer aufgebockten Holzplatte hat Nour Akb...
6   Corona-Pandemie: Spanien will den Ausnahmezust...  ...  In Spanien will die Regierung den umstrittenen...
7   Bundesliga, 29. Spieltag: Gladbach klettert mi...  ...  Borussia Mönchengladbach — 1. FC Union Berlin ...
8   SpaceX: Crew-Dragon-Raumkapsel dockt erfolgrei...  ...  Nach etwa 19 Stunden Reise haben die beiden US...
9   Wetter und Viren: Hey Sommer, gib Corona den R...  ...  Der Sommer ist ein natürlicher Feind vieler Vi...
10     Fußball: Premier League darf Saison fortsetzen  ...  Die Premier League darf die Saison nach einer ...
11  Open-Source-Projekt: Entwickler veröffentliche...  ...  Die Entwickler der Corona-Warn-App der Bundesr...
12  Dietzenbach: Nach Angriff auf Beamte Polizei o...  ...  Nachdem am vergangenen Freitag Einsatzkräfte i...
13  Gymnastiklehrerin: "Meine Perspektive: stilvol...  ...  Der Ausbruch des Coronavirus verändert für vie...
14  Bürgerkriegsflüchtlinge: Obergrenze für Famili...  ...  Die Obergrenze für den Familiennachzug von sub...
[15 rows x 7 columns]


>>> crawler.get_article_information_as_dataframe().keys()
Index(['title', 'summary', 'author', 'published', 'link', 'tags', 'text'], dtype='object')

Project details


Download files

Download the file for your platform. If you're not sure which to choose, learn more about installing packages.

Source Distribution

NewsCrawler3-0.1.9.tar.gz (6.3 kB view details)

Uploaded Source

Built Distribution

NewsCrawler3-0.1.9-py3-none-any.whl (7.7 kB view details)

Uploaded Python 3

File details

Details for the file NewsCrawler3-0.1.9.tar.gz.

File metadata

  • Download URL: NewsCrawler3-0.1.9.tar.gz
  • Upload date:
  • Size: 6.3 kB
  • Tags: Source
  • Uploaded using Trusted Publishing? No
  • Uploaded via: twine/3.2.0 pkginfo/1.5.0.1 requests/2.24.0 setuptools/50.3.0 requests-toolbelt/0.9.1 tqdm/4.50.1 CPython/3.7.1

File hashes

Hashes for NewsCrawler3-0.1.9.tar.gz
Algorithm Hash digest
SHA256 f935954d23e2b1f73c0e7762c7ab0879fe8fbe9f0aa4e297068a1c25245ab41f
MD5 ed64a38286505cbfe4de104fc89de829
BLAKE2b-256 b4dde47ffdd4f4603ca5097bf9e135ea10bca8c97913ef93a86ee1c321924b1e

See more details on using hashes here.

File details

Details for the file NewsCrawler3-0.1.9-py3-none-any.whl.

File metadata

  • Download URL: NewsCrawler3-0.1.9-py3-none-any.whl
  • Upload date:
  • Size: 7.7 kB
  • Tags: Python 3
  • Uploaded using Trusted Publishing? No
  • Uploaded via: twine/3.2.0 pkginfo/1.5.0.1 requests/2.24.0 setuptools/50.3.0 requests-toolbelt/0.9.1 tqdm/4.50.1 CPython/3.7.1

File hashes

Hashes for NewsCrawler3-0.1.9-py3-none-any.whl
Algorithm Hash digest
SHA256 26c7ec5b040b620110051aa2745e3e17db4ad6c963f602ac61657aa8519cb168
MD5 8567c724ebb9b0215dfeb1bfc2a30d8a
BLAKE2b-256 acda7208a99f4931d973d35fdee9236d656cd5b74955e00a0f428ed7bba8b409

See more details on using hashes here.

Supported by

AWS AWS Cloud computing and Security Sponsor Datadog Datadog Monitoring Fastly Fastly CDN Google Google Download Analytics Microsoft Microsoft PSF Sponsor Pingdom Pingdom Monitoring Sentry Sentry Error logging StatusPage StatusPage Status page