Skip to main content

Sort description

Project description

Infra Analytics

Package Python để xử lý và phân tích dữ liệu hạ tầng, đặc biệt tập trung vào dữ liệu phường xã Việt Nam.

Tính năng

  • Crawl và xử lý thông tin phường xã từ Wikipedia
  • Làm sạch và chuẩn hóa văn bản tiếng Việt
  • Lưu trữ và quản lý dữ liệu trong PostgreSQL
  • Xử lý dữ liệu đa luồng để tăng hiệu suất

Cài đặt

Cài đặt từ PyPI

pip install infra-analytics

Sử dụng

Sử dụng trong code Python

from infra_analytics.crawler import process_ward_data
from infra_analytics.database import get_db_connection

# Xử lý dữ liệu phường xã
process_ward_data()

# Hoặc xử lý với kết nối DB tùy chỉnh
conn = get_db_connection()
process_ward_data(conn)

Sử dụng Command Line

# Chạy crawler
infra-crawler

# Chạy với cấu hình tùy chỉnh
infra-crawler --config path/to/config.yaml

Ví dụ xử lý dữ liệu

from infra_analytics.utils import clean_ward_name, get_province_short
from infra_analytics.database import upsert_ward_info

# Chuẩn hóa tên phường
ward_name = clean_ward_name("Phường 1, Quận 1")
print(ward_name)  # Output: Phường 1

# Lấy tên tỉnh ngắn gọn
province = get_province_short("Thành phố Hồ Chí Minh")
print(province)  # Output: Hồ Chí Minh

# Cập nhật thông tin phường
ward_data = (12345, "Phường 1", "Phường", "Quận 1", "Hồ Chí Minh", 10000, 2.5, 4000, "https://wikipedia.org/...")
upsert_ward_info(conn, ward_data)

Cấu trúc Project

infra_analytics/
├── __init__.py
├── config.py          # Cấu hình
├── crawler.py         # Module crawler chính
├── database.py        # Xử lý database
└── utils.py          # Các hàm tiện ích

Yêu cầu hệ thống

  • Python >= 3.8
  • PostgreSQL >= 12
  • Đủ quyền truy cập database
  • Kết nối internet để crawl Wikipedia

Xử lý lỗi thường gặp

  1. Lỗi kết nối database:

    • Kiểm tra thông tin kết nối trong file .env
    • Đảm bảo PostgreSQL đang chạy
    • Kiểm tra quyền truy cập
  2. Lỗi crawl Wikipedia:

    • Kiểm tra kết nối internet
    • Đảm bảo URL Wikipedia hợp lệ
    • Thử lại sau nếu bị rate limit
  3. Lỗi xử lý dữ liệu:

    • Kiểm tra định dạng file Excel
    • Đảm bảo encoding UTF-8
    • Kiểm tra dữ liệu đầu vào

License

Project này được cấp phép theo MIT License - xem file LICENSE để biết thêm chi tiết.

Author: Hautx2.fpt.com

Project details


Download files

Download the file for your platform. If you're not sure which to choose, learn more about installing packages.

Source Distribution

infra_analytics-0.1.2.tar.gz (94.9 kB view details)

Uploaded Source

Built Distribution

If you're not sure about the file name format, learn more about wheel file names.

infra_analytics-0.1.2-py3-none-any.whl (104.3 kB view details)

Uploaded Python 3

File details

Details for the file infra_analytics-0.1.2.tar.gz.

File metadata

  • Download URL: infra_analytics-0.1.2.tar.gz
  • Upload date:
  • Size: 94.9 kB
  • Tags: Source
  • Uploaded using Trusted Publishing? No
  • Uploaded via: twine/6.1.0 CPython/3.10.11

File hashes

Hashes for infra_analytics-0.1.2.tar.gz
Algorithm Hash digest
SHA256 d4fe072a4fd41d170fa42656f9aba2ef212b39fecbb7018d1a1fea7f884e58de
MD5 0bbfad77922be470d1c8d00609b6eac5
BLAKE2b-256 a15739e6ac588c347c3d1b43f0a44e3599e203c82779423248f2371dec36b9ab

See more details on using hashes here.

File details

Details for the file infra_analytics-0.1.2-py3-none-any.whl.

File metadata

File hashes

Hashes for infra_analytics-0.1.2-py3-none-any.whl
Algorithm Hash digest
SHA256 395e7d44c244d16a34688efd3e4ec896b25d4547744e0e196fa4d0bc6b5882b9
MD5 4339cd0b4569dc92e07701d83c8cb3fe
BLAKE2b-256 9dea90976c2a31654df84ef72b54b11c11fd5d3c779986f5f6cafa70bfe095a0

See more details on using hashes here.

Supported by

AWS Cloud computing and Security Sponsor Datadog Monitoring Depot Continuous Integration Fastly CDN Google Download Analytics Pingdom Monitoring Sentry Error logging StatusPage Status page