Skip to main content

Scraper news article in Viet Nam

Project description

newsfx

Dự án đang trong quá trình thực hiện

Bắt đầu nhanh

Cài đặt

pip install newsfx

Thực hiện

import newsfx
data = newsfx('https://vnexpress.net/thoi-su/nguoi-dan-un-un-tro-lai-sai-gon-ha-noi-sau-ky-nghi-le-3917122.html')
print(data) # return dictionary

Trang tin hỗ trợ

news site title published_date summary content author top_image
VnExpress ✔️
Tuổi Trẻ Online ✔️
Thanh Niên
Tiền Phong
Lao Động
Báo mới
Người Lao Động
Nhân Dân
Đời Sống Pháp Luật
Vietnamnet
Zing News
Dân Trí
Nhịp Sống Số
Tri Thức Trẻ
Vietnam Plus

TODO

  • Tự động nhận dạng url đầu vào
  • Định dạng kết quả trả về trong dictionary
Tên Kiểu trả về Mô tả Hỗ trợ
title string Tiêu đề bài viết
html string Code html bài viết
text string Nội dung bài viết chưa được xử lý
clean_text string Nội dung bài viết đã được xử lý
author list Tác giả bài viết
published date Ngày đăng bài viết
top_image string Hình ảnh đặc trưng của bài viết
images list Danh sách hình ảnh có trong bài viết
keywords list Từ khóa bài viết (có sẵn từ bài viết)

Project details


Download files

Download the file for your platform. If you're not sure which to choose, learn more about installing packages.

Source Distribution

newsfx-0.0.1.tar.gz (2.1 kB view hashes)

Uploaded Source

Built Distribution

newsfx-0.0.1-py3-none-any.whl (2.0 kB view hashes)

Uploaded Python 3

Supported by

AWS AWS Cloud computing and Security Sponsor Datadog Datadog Monitoring Fastly Fastly CDN Google Google Download Analytics Microsoft Microsoft PSF Sponsor Pingdom Pingdom Monitoring Sentry Sentry Error logging StatusPage StatusPage Status page