Skip to main content

Sort description

Project description

Infra Analytics

Package Python để xử lý và phân tích dữ liệu hạ tầng, đặc biệt tập trung vào dữ liệu phường xã Việt Nam.

Tính năng

  • Crawl và xử lý thông tin phường xã từ Wikipedia
  • Làm sạch và chuẩn hóa văn bản tiếng Việt
  • Lưu trữ và quản lý dữ liệu trong PostgreSQL
  • Xử lý dữ liệu đa luồng để tăng hiệu suất

Cài đặt

Cài đặt từ PyPI

pip install infra-analytics

Sử dụng

Sử dụng trong code Python

from infra_analytics.crawler import process_ward_data
from infra_analytics.database import get_db_connection

# Xử lý dữ liệu phường xã
process_ward_data()

# Hoặc xử lý với kết nối DB tùy chỉnh
conn = get_db_connection()
process_ward_data(conn)

Sử dụng Command Line

# Chạy crawler
infra-crawler

# Chạy với cấu hình tùy chỉnh
infra-crawler --config path/to/config.yaml

Ví dụ xử lý dữ liệu

from infra_analytics.utils import clean_ward_name, get_province_short
from infra_analytics.database import upsert_ward_info

# Chuẩn hóa tên phường
ward_name = clean_ward_name("Phường 1, Quận 1")
print(ward_name)  # Output: Phường 1

# Lấy tên tỉnh ngắn gọn
province = get_province_short("Thành phố Hồ Chí Minh")
print(province)  # Output: Hồ Chí Minh

# Cập nhật thông tin phường
ward_data = (12345, "Phường 1", "Phường", "Quận 1", "Hồ Chí Minh", 10000, 2.5, 4000, "https://wikipedia.org/...")
upsert_ward_info(conn, ward_data)

Cấu trúc Project

infra_analytics/
├── __init__.py
├── config.py          # Cấu hình
├── crawler.py         # Module crawler chính
├── database.py        # Xử lý database
└── utils.py          # Các hàm tiện ích

Yêu cầu hệ thống

  • Python >= 3.8
  • PostgreSQL >= 12
  • Đủ quyền truy cập database
  • Kết nối internet để crawl Wikipedia

Xử lý lỗi thường gặp

  1. Lỗi kết nối database:

    • Kiểm tra thông tin kết nối trong file .env
    • Đảm bảo PostgreSQL đang chạy
    • Kiểm tra quyền truy cập
  2. Lỗi crawl Wikipedia:

    • Kiểm tra kết nối internet
    • Đảm bảo URL Wikipedia hợp lệ
    • Thử lại sau nếu bị rate limit
  3. Lỗi xử lý dữ liệu:

    • Kiểm tra định dạng file Excel
    • Đảm bảo encoding UTF-8
    • Kiểm tra dữ liệu đầu vào

License

Project này được cấp phép theo MIT License - xem file LICENSE để biết thêm chi tiết.

Author: Hautx2.fpt.com

Project details


Download files

Download the file for your platform. If you're not sure which to choose, learn more about installing packages.

Source Distribution

infra_analytics-0.1.1.tar.gz (94.9 kB view details)

Uploaded Source

Built Distribution

If you're not sure about the file name format, learn more about wheel file names.

infra_analytics-0.1.1-py3-none-any.whl (104.2 kB view details)

Uploaded Python 3

File details

Details for the file infra_analytics-0.1.1.tar.gz.

File metadata

  • Download URL: infra_analytics-0.1.1.tar.gz
  • Upload date:
  • Size: 94.9 kB
  • Tags: Source
  • Uploaded using Trusted Publishing? No
  • Uploaded via: twine/6.1.0 CPython/3.10.11

File hashes

Hashes for infra_analytics-0.1.1.tar.gz
Algorithm Hash digest
SHA256 2047cde52157b2c9b00cb71fd11ea2c94fc5e565b97194d3e49332de918d7c97
MD5 ed22fe131842819e944f7261fdd0ccf8
BLAKE2b-256 859180564c9f758b20891cc9c4b1cfc5c51dbba3c7a6b82cb77074aac26c00a8

See more details on using hashes here.

File details

Details for the file infra_analytics-0.1.1-py3-none-any.whl.

File metadata

File hashes

Hashes for infra_analytics-0.1.1-py3-none-any.whl
Algorithm Hash digest
SHA256 7a266861985d5ab5a602fcd186606f64ccf39ffee99bd5f94b95497e89eea900
MD5 7708b8ce6f6c6065a6fb096c3218e402
BLAKE2b-256 eb0852783e908cd19e9911c15c88a4e8b8ba73b9b6041d92a45092085f8f425e

See more details on using hashes here.

Supported by

AWS Cloud computing and Security Sponsor Datadog Monitoring Depot Continuous Integration Fastly CDN Google Download Analytics Pingdom Monitoring Sentry Error logging StatusPage Status page