Библиотека для работы с файлами во время парсинга

Project description

Библиотека для работы с файлами во время парсинга

Во время парсинга часто приходится скачивать html-страницы, работать с json- и csv-файлами. Эта библиотека призвана облегчить написание кода для такого рода задач. Библиотека создавалась для удобства работы во время парсинга, но ничто не мешает использовать её просто для работы с json и csv.

В библиотеке есть три класса для отдельных работ: Pars для работы с запросами и bs4, JsonManager для работы с json и CsvManager для работы с csv.

Установить библиотеку:

pip install ipars

Работа с Pars

Класс Pars не принимает никаких данных для конструкторов.

from ipars import Pars

p = Pars()

Коротко о методах:

Метод getStaticPage принимает url страницы, путь, по которому сохранится страница, метод записи и заголовки запроса. Метод записи «wb» используется для сохранения картинок, по умолчанию writeMethod установлен как «w», что используется для html-страниц. Если заголовки запросов не указаны, то будут использоваться встроенные, но при желании можно указать свои. Метод возвращает статус ответа сайта, что должно использоваться для введения проверок
Метод getDynamicPage с помощью библиотеки Selenium получает динамически обновляемую страницу. Это помогает, когда контент на странице подгружается динамически. Принимает url страницы, путь сохранения, closeWindow и timeSleep. По умолчанию браузер Selenium открывается в фоновом режиме, и работу браузера не видно, но если closeWindow указать как False, то будет виден процесс выполнения кода. С помощью timeSleep можно увеличить время загрузки страницы если контент на ней долго подгружается
Метод returnBs4Object возвращает объект beautifulsoup4. Принимает путь до html-страницы, содержимое которой преобразует в объект beautifulsoup, кодировку открытия файла (по умолчанию UTF-8) и тип парсера (по умолчанию lxml).
Метод getAttributes нужена чтобы получить список атрибутов из списка объектов bs4. Принимает список объектов bs4 и название атрибута который будет извлекаться из элементов списка
Метод getTexts нужена чтобы получить список текста из списка объектов bs4. Принимает список объектов bs4 и параметр needFix. Если этот параметр установлен как True, то из текста будут удалены \n, \t и пробелы с концов
Метод pprint используется для вывода значений переменных у которых большая вложеность. Например, если у Вас есть массив объектов, где в качестве значения ключа используется другой массив объектов

Пример скачивания html-страницы:

from ipars import Pars
p = Pars()

# Заголовки для запроса
headers = {
    "Accept": "*/*",
    "User-Agent": "Mozilla/5.0 (iPad; CPU OS 11_0 like Mac OS X) AppleWebKit/604.1.34 (KHTML, like Gecko) Version/11.0 Mobile/15A5341f Safari/604.1"
}
p.getStaticPage('./index.html', 'https://google.com', headers=headers)

# Получаем объект beautifulsoup из полученной страницы
soup = p.returnBs4Object('./index.html')

# Используем методы beautifulsoup
allImage = soup.find_all('img')
print('-----начало-----')
for image in allImage:
    p.pprint(image.get('src'))
print('-----конец------')

Пример скачивания фотографии:

from ipars import Pars
p = Pars()

# Получаем картинку
p.getStaticPage(
    pathToSaveFile="./logo.png",
    # Возможно в будущем, эта картинка переместится в другое место и пример перестанет работать 👉👈
    url="https://cdn.sstatic.net/Sites/stackoverflow/Img/icon-48.png?v=b7e36f88ff92",
    writeMethod='wb'
)

Пример использование методов getAttributes и getTexts

from ipars import Pars
p = Pars()

p.getStaticPage('./index.html', 'https://google.com')
soup = p.returnBs4Object('./index.html')

allTegA = soup.find_all('a')
a1 = p.getTexts(allTegA, needFix=1)
p.pprint(a1)

a2 = p.getAttributes(allTegA, 'href')
p.pprint(a2)

Работа с JsonManager

JsonManager принимает принимает только один аргумент — кодировку в которой будут читаться файлы. По умолчанию это UTF-8

from ipars import JsonManager

j = JsonManager()

Коротко о методах

Метод load используется для получения данных из json-файла по указанному пути
Метод dump используется для записи данных в json-файл. Принимает путь до файла и данные для записи
Метод pprint такой же как и у Pars

from ipars import JsonManager
j = JsonManager()

# Записываем данные
j.dump('./data.json', [1, 2, 3, 4, 5, 6, 7])

# Получаем данные
data = j.load('./data.json')
j.pprint(data) # [1, 2, 3, 4, 5, 6, 7]

Работа с CsvManager

Класс CsvManager принимает три аргумента: символ переноса на новую строку newline (по умолчанию — это пустая строка), кодировку открываемых файлов encoding (по умолчанию UTF-8) и разделитель который используется в csv файле delimiter (по умолчанию ";")

from ipars import CsvManager

c = CsvManager()

Коротко о методах

Метод writerow записывает строку с csv файл. Метод принимает путь до csv файла, метод записи и список данных которые будут записанн в строку файла
Метод writerows принимает теже самые аргументы что и writerow, только row должен быть двойным списком с данными для записи. Разница между этими методами в том что writerow записывает одну, а writerows столько сколько есть в двойном списке
Метод getRows используется для получения списка строк в csv файле. Метод принимает путь до файла откуда будут получены строки
Метод pprint такой же как и у Pars

from ipars import CsvManager
c = CsvManager()

# записываем заголовки
writer = c.writerow('./data.csv', 'w', ['Количество', 'Цена', 'Итог'])

# записываем данные
writer = c.writerows('./data.csv', 'a', [
    ["5", "5", "25"],
    ["6", "6", "36"],
    ["7", "7", "49"],
])

# получаем строки из таблицы
rows = c.getRows('./data.csv')

# выводим строки таблицы
c.pprint(rows)

Project details

Release history Release notifications | RSS feed

3.9.2

Jan 6, 2026

3.9.1

Nov 14, 2025

3.9.0

Nov 14, 2025

3.8.2

Nov 12, 2025

3.8.1

Nov 12, 2025

3.8.0

Nov 11, 2025

3.7.3

Nov 10, 2025

3.7.1

Oct 24, 2025

3.7.0

Oct 13, 2025

3.6.0

Oct 1, 2025

3.5.2

Sep 30, 2025

3.5.1

Jul 19, 2025

3.5.0

Jul 18, 2025

3.4.1

Jul 2, 2025

3.4.0

Jul 2, 2025

3.3.1

Jun 28, 2025

3.3.0

Jun 28, 2025

This version

3.2.1

May 29, 2025

3.2.0

May 22, 2025

3.1.6

May 17, 2025

3.1.5

May 17, 2025

3.1.4

May 17, 2025

3.1.3

May 17, 2025

3.1.2

May 11, 2025

3.1.1

May 5, 2025

3.1.0

May 5, 2025

3.0.1

May 4, 2025

3.0.0

May 3, 2025

0.1.0

May 3, 2025

Download files

Download the file for your platform. If you're not sure which to choose, learn more about installing packages.

Source Distribution

ipars-3.2.1.tar.gz (7.5 kB view details)

Uploaded May 29, 2025 Source

Built Distribution

If you're not sure about the file name format, learn more about wheel file names.

The dropdown lists show the available interpreters, ABIs, and platforms. Enable javascript to be able to filter the list of wheel files.

ipars-3.2.1-py3-none-any.whl (8.9 kB view details)

Uploaded May 29, 2025 Python 3

File details

Details for the file ipars-3.2.1.tar.gz.

File metadata

Download URL: ipars-3.2.1.tar.gz
Upload date: May 29, 2025
Size: 7.5 kB
Tags: Source
Uploaded using Trusted Publishing? No
Uploaded via: twine/6.1.0 CPython/3.11.4

File hashes

Hashes for ipars-3.2.1.tar.gz
Algorithm	Hash digest
SHA256	`aab128f47990c381ee02b47d9bae053c24e64fe59b82f7ae28f73b31b75fc0f6`
MD5	`454585c6d9ac177add74b0bc0b711f7c`
BLAKE2b-256	`38e7762448fd85388611a440815aa1cf17b179873a9490fc00453db194b2e605`

See more details on using hashes here.

File details

Details for the file ipars-3.2.1-py3-none-any.whl.

File metadata

Download URL: ipars-3.2.1-py3-none-any.whl
Upload date: May 29, 2025
Size: 8.9 kB
Tags: Python 3
Uploaded using Trusted Publishing? No
Uploaded via: twine/6.1.0 CPython/3.11.4

File hashes

Hashes for ipars-3.2.1-py3-none-any.whl
Algorithm	Hash digest
SHA256	`7e2aa89fecab684f9e9335d2a0b20339ef76483d1d0f90c5e0e94d19295a024f`
MD5	`812363f8207969ef9472f16c2d55e8be`
BLAKE2b-256	`30f683f06715d260a00a819ec6879a435417d0116cc2d23f4b01653bd27e6a5d`

See more details on using hashes here.

ipars 3.2.1

Navigation

Verified details

Maintainers

Unverified details

Meta

Project description

Библиотека для работы с файлами во время парсинга

Работа с Pars

Коротко о методах:

Работа с JsonManager

Коротко о методах

Работа с CsvManager

Коротко о методах

Project details

Verified details

Maintainers

Unverified details

Meta

Release history Release notifications | RSS feed

Download files

Source Distribution

Built Distribution

File details

File metadata

File hashes

File details

File metadata

File hashes