Skip to main content

Scraper news article in Viet Nam

Project description

newsfx

Dự án đang trong quá trình thực hiện

Bắt đầu nhanh

Cài đặt

Chỉ support Python 3.6+

pip install newsfx

Thực hiện

from newsfx import NewsFX
run = NewsFX('https://vnexpress.net/thoi-su/nguoi-dan-un-un-tro-lai-sai-gon-ha-noi-sau-ky-nghi-le-3917122.html')
run.parser()
print(run.get_title) # Người dân ùn ùn trở lại Sài Gòn, Hà Nội sau kỳ nghỉ lễ

lấy hình

#lấy link của hình 
print(run.get_top_image_link) #https://link_dan_toi_file.jpg

# save hình 
run.save_top_image_link(name='ten_file_anh.jpg')

Trang tin hỗ trợ

news site title published_date summary content author top_image
VnExpress ✔️ ✔️ ✔️ ✔️ ✔️ ✔️
Tuổi Trẻ Online ✔️ ✔️ ✔️ ✔️ ✔️ ️️️️️️✔️
Thanh Niên ✔️ ✔️ ✔️ ✔️ ✔️ ✔️
Tiền Phong
Lao Động
Báo mới
Người Lao Động
Nhân Dân
Đời Sống Pháp Luật
Vietnamnet
Zing News
Dân Trí
Nhịp Sống Số
Tri Thức Trẻ
Vietnam Plus

TODO

  • Tự động nhận dạng url đầu vào
  • Định dạng kết quả trả về trong dictionary
Tên Kiểu trả về Mô tả Hỗ trợ
title string Tiêu đề bài viết ✔️
html string Code html bài viết ✔️
text string Nội dung bài viết chưa được xử lý ✔️
clean_text string Nội dung bài viết đã được xử lý
author list Tác giả bài viết ✔️
published date Ngày đăng bài viết ✔️
top_image string Hình ảnh đặc trưng của bài viết ✔️
images list Danh sách hình ảnh có trong bài viết ✔️
keywords list Từ khóa bài viết (có sẵn từ bài viết)

Project details


Download files

Download the file for your platform. If you're not sure which to choose, learn more about installing packages.

Source Distribution

newsfx-0.0.9.tar.gz (2.3 kB view hashes)

Uploaded Source

Built Distribution

newsfx-0.0.9-py3-none-any.whl (2.2 kB view hashes)

Uploaded Python 3

Supported by

AWS AWS Cloud computing and Security Sponsor Datadog Datadog Monitoring Fastly Fastly CDN Google Google Download Analytics Microsoft Microsoft PSF Sponsor Pingdom Pingdom Monitoring Sentry Sentry Error logging StatusPage StatusPage Status page