Skip to main content

Sort description

Project description

Infra Analytics

Package Python để xử lý và phân tích dữ liệu hạ tầng, đặc biệt tập trung vào dữ liệu phường xã Việt Nam.

Tính năng

  • Crawl và xử lý thông tin phường xã từ Wikipedia
  • Làm sạch và chuẩn hóa văn bản tiếng Việt
  • Lưu trữ và quản lý dữ liệu trong PostgreSQL
  • Xử lý dữ liệu đa luồng để tăng hiệu suất

Cài đặt

Cài đặt từ PyPI

pip install infra-analytics

Sử dụng

Sử dụng trong code Python

from infra_analytics.crawler import process_ward_data
from infra_analytics.database import get_db_connection

# Xử lý dữ liệu phường xã
process_ward_data()

# Hoặc xử lý với kết nối DB tùy chỉnh
conn = get_db_connection()
process_ward_data(conn)

Sử dụng Command Line

# Chạy crawler
infra-crawler

# Chạy với cấu hình tùy chỉnh
infra-crawler --config path/to/config.yaml

Ví dụ xử lý dữ liệu

from infra_analytics.utils import clean_ward_name, get_province_short
from infra_analytics.database import upsert_ward_info

# Chuẩn hóa tên phường
ward_name = clean_ward_name("Phường 1, Quận 1")
print(ward_name)  # Output: Phường 1

# Lấy tên tỉnh ngắn gọn
province = get_province_short("Thành phố Hồ Chí Minh")
print(province)  # Output: Hồ Chí Minh

# Cập nhật thông tin phường
ward_data = (12345, "Phường 1", "Phường", "Quận 1", "Hồ Chí Minh", 10000, 2.5, 4000, "https://wikipedia.org/...")
upsert_ward_info(conn, ward_data)

Cấu trúc Project

infra_analytics/
├── __init__.py
├── config.py          # Cấu hình
├── crawler.py         # Module crawler chính
├── database.py        # Xử lý database
└── utils.py          # Các hàm tiện ích

Yêu cầu hệ thống

  • Python >= 3.8
  • PostgreSQL >= 12
  • Đủ quyền truy cập database
  • Kết nối internet để crawl Wikipedia

Xử lý lỗi thường gặp

  1. Lỗi kết nối database:

    • Kiểm tra thông tin kết nối trong file .env
    • Đảm bảo PostgreSQL đang chạy
    • Kiểm tra quyền truy cập
  2. Lỗi crawl Wikipedia:

    • Kiểm tra kết nối internet
    • Đảm bảo URL Wikipedia hợp lệ
    • Thử lại sau nếu bị rate limit
  3. Lỗi xử lý dữ liệu:

    • Kiểm tra định dạng file Excel
    • Đảm bảo encoding UTF-8
    • Kiểm tra dữ liệu đầu vào

License

Project này được cấp phép theo MIT License - xem file LICENSE để biết thêm chi tiết.

Author: Hautx2.fpt.com

Project details


Download files

Download the file for your platform. If you're not sure which to choose, learn more about installing packages.

Source Distribution

infra_analytics-0.0.6.tar.gz (92.7 kB view details)

Uploaded Source

Built Distribution

If you're not sure about the file name format, learn more about wheel file names.

infra_analytics-0.0.6-py3-none-any.whl (101.6 kB view details)

Uploaded Python 3

File details

Details for the file infra_analytics-0.0.6.tar.gz.

File metadata

  • Download URL: infra_analytics-0.0.6.tar.gz
  • Upload date:
  • Size: 92.7 kB
  • Tags: Source
  • Uploaded using Trusted Publishing? No
  • Uploaded via: twine/6.1.0 CPython/3.10.11

File hashes

Hashes for infra_analytics-0.0.6.tar.gz
Algorithm Hash digest
SHA256 79e01ed0acabd7cfc96ce86d7db2f8a9c1fa3921053241f0d3b251610539afc9
MD5 88810e172c8b2d87a7e440ff798767ca
BLAKE2b-256 9d2f4175191cbff38f5ea87f74fd518be21796a4f65dcf3a3c3c011a02a4a2ca

See more details on using hashes here.

File details

Details for the file infra_analytics-0.0.6-py3-none-any.whl.

File metadata

  • Download URL: infra_analytics-0.0.6-py3-none-any.whl
  • Upload date:
  • Size: 101.6 kB
  • Tags: Python 3
  • Uploaded using Trusted Publishing? No
  • Uploaded via: twine/6.1.0 CPython/3.10.11

File hashes

Hashes for infra_analytics-0.0.6-py3-none-any.whl
Algorithm Hash digest
SHA256 f620437421aa0c104aa0e7bbc6464b7e644287a9128dee58402f708b0ac7090c
MD5 1612d90fb66bc8aec3d1047f00288308
BLAKE2b-256 0a3bea71339693a8d0cecb98ad1f38ef6a95e115dde5409c03fe37474699892f

See more details on using hashes here.

Supported by

AWS Cloud computing and Security Sponsor Datadog Monitoring Depot Continuous Integration Fastly CDN Google Download Analytics Pingdom Monitoring Sentry Error logging StatusPage Status page