Skip to main content

Парсер данных NSPD.GOV.RU/ЕГРН для работы с кадастровыми номерами

Project description

EGRN Data Parser

Этот скрипт предназначен для парсинга данных ЕГРН по кадастровым номерам. На вход подается JSON-файл, содержащий список кадастровых номеров, а на выходе можно получить данные в формате XLSX или JSON.

Требования

  • Python 3.6+
  • Selenium
    pip install selenium
    
  • OpenPyXL
    pip install openpyxl
    
  • ChromeDriver для Google Chrome
    Убедитесь, что версия ChromeDriver соответствует установленной версии браузера и он находится в PATH.

Структура файлов

  • bot.py: Содержит функцию nspd_bot, которая открывает сайт, осуществляет необходимые действия и возвращает текстовое содержимое страницы.
  • config.py: Файл конфигурации, содержащий, например, переменную fields — список ключевых полей для парсинга.
  • script.py: Основной скрипт, который осуществляет чтение входных данных, обработку и сохранение результатов.

Формат входного файла

Входной файл должен быть в формате JSON и содержать список кадастровых номеров. Пример файла cad_numbers.json:

[
  "31:05:1901001:831",
  "31:05:1901001:832",
  "31:05:1901001:978",
  "31:05:1901001:982",
  "31:05:1901001:985"
]

Аргументы командной строки

  • input_file: Путь к входному файлу JSON с кадастровыми номерами.
  • -o, --output: Путь к выходному файлу (по умолчанию: земельный_участок.xlsx).
  • -f, --format: Выходной формат данных. Допустимые значения:
    • xlsx – сохранение в Excel (по умолчанию)
    • json – сохранение в JSON

Примеры использования

Сохранение в Excel:

python script.py cad_numbers.json -o result.xlsx -f xlsx

Сохранение в JSON:

python script.py cad_numbers.json -o result.json -f json

Как работает скрипт

  1. Чтение входного файла: Скрипт считывает список кадастровых номеров из указанного JSON-файла.
  2. Обработка данных: Для каждого кадастрового номера:
    • Инициализируется Selenium WebDriver
    • Вызывается функция nspd_bot, которая взаимодействует с сайтом и возвращает текстовую информацию
    • Полученный текст парсится функцией parse_egrn_data, которая извлекает необходимые поля
  3. Сохранение результатов: Собранные данные сохраняются в указанный файл в формате XLSX или JSON.

Примечания

  • Для работы в headless-режиме можно модифицировать инициализацию драйвера в скрипте, добавив соответствующие опции.
  • Убедитесь, что все зависимости установлены, а ChromeDriver настроен корректно.

Project details


Download files

Download the file for your platform. If you're not sure which to choose, learn more about installing packages.

Source Distribution

nspd_parser-0.1.0.tar.gz (4.9 kB view details)

Uploaded Source

Built Distribution

If you're not sure about the file name format, learn more about wheel file names.

nspd_parser-0.1.0-py3-none-any.whl (5.8 kB view details)

Uploaded Python 3

File details

Details for the file nspd_parser-0.1.0.tar.gz.

File metadata

  • Download URL: nspd_parser-0.1.0.tar.gz
  • Upload date:
  • Size: 4.9 kB
  • Tags: Source
  • Uploaded using Trusted Publishing? No
  • Uploaded via: twine/6.1.0 CPython/3.11.0

File hashes

Hashes for nspd_parser-0.1.0.tar.gz
Algorithm Hash digest
SHA256 8030272be4dd025235a579168e9faa0635ce1ab3d5a87ed0a5221e0d64a20337
MD5 c01a45c16dba24f92c3a4e4f68244d28
BLAKE2b-256 04ca58931674db6d98a417b4d7423abcf0da40b79a03c6c28a6ea0971fb8e4df

See more details on using hashes here.

File details

Details for the file nspd_parser-0.1.0-py3-none-any.whl.

File metadata

  • Download URL: nspd_parser-0.1.0-py3-none-any.whl
  • Upload date:
  • Size: 5.8 kB
  • Tags: Python 3
  • Uploaded using Trusted Publishing? No
  • Uploaded via: twine/6.1.0 CPython/3.11.0

File hashes

Hashes for nspd_parser-0.1.0-py3-none-any.whl
Algorithm Hash digest
SHA256 96d4354bbb5267f1fee40414c88cb31f0169c2fd1c8cf0c1fb8409d80ee9f6d9
MD5 2d887813256b84d6d8c83c8486358d3e
BLAKE2b-256 69d1e4674b7600154d32c06c07970a3d96ec9c72fbcb52218da24510c231f3d4

See more details on using hashes here.

Supported by

AWS Cloud computing and Security Sponsor Datadog Monitoring Depot Continuous Integration Fastly CDN Google Download Analytics Pingdom Monitoring Sentry Error logging StatusPage Status page