Morphological analyzer (POS tagger + inflection engine) for Russian and English (+perhaps German) languages.
Project description
Morphological analyzer for Russian and English languages using converted AOT (http://www.aot.ru/download.php) dictionaries.
Documentation (mostly in Russian): http://pymorphy.rtfd.org/
Author: Mikhail Korobov <kmike84@gmail.com>, License: MIT.
Морфологический анализатор для русского и английского (возможно, еще немецкого) языка.
Документация: http://pymorphy.rtfd.org/
Обсуждение: http://groups.google.com/group/pymorphy
Репозиторий: https://bitbucket.org/kmike/pymorphy/
История изменений
0.5.4 (2011-07-15)
Убрано предупреждение при одновременном обновлении pymorphy и pymorphy-speedups (например, через файл с зависимостями pip);
файлы setup.py и скрипт запуска тестов теперь всегда используют “родной” pymorphy, а не установленный в систему.
0.5.3 (2011-07-15)
Исправлена ошибка с определением версии pymorphy-speedups;
вместо pymorphy.split теперь pymorphy.contrib.tokenizers с функциями extract_tokens и extract_words;
поправлена установка из hg-репозитория для windows.
0.5.2 (2011-04-09)
Исправлены ошибки в sqlite-словарях (внимание: скачайте новые словари для обновления);
представление данных в json теперь компактнее, поэтому при использовании новых словарей должна повыситься скорость работы (особенно при отключенном кешировании);
ускорение отключается с предупрежденем, если версия pymorphy-speedups не соответствует версии pymorphy;
исправлены опечатки в документации;
в тесты включен скрипт разбора “Золотого стандарта” с ДИАЛОГ-2010;
в скрипт для конвертации словарей добавлена перекрестная проверка их корректности.
0.5.1 (2011-02-10)
Sqlite-бэкенд теперь должен работать в многопоточном окружении;
исправлена ошибка с последовательным применением шаблонных фильтров для django.
0.5.0 (2010-11-15)
исправления и дополнения в документации
для тестов используется unittest2
поддержка опционального модуля pymorphy-speedups с расширением на Cython (туда также перенесен метод setup_psyco). При использовании pickle-словарей скорость при установке расширения должна увеличиться в 2+ раза. Для других (более медленных) вариантов словарей относительный прирост будет не таким значительным. Осторожно: при установленном модуле все строки должны передаваться как юникодные (в.т.ч. латинские и пустые).
убрана зависимость от simplejson (но его лучше все равно поставить, т.к. с simplejson работа со всеми словарями, кроме pickle, ускоряется в несколько раз)
правильное склонение слов во втором предложном, родительном или винительном падежах
метод pluralize_inflected_ru теперь поддерживает не только существительные
более правильное разбиение на слова в фильтрах
Работа со словами, записанными через дефис.
Поддержка парсинга распознанных текстов (характерные замены букв). Довольно бесполезная штука.
Убран метод get_normal_forms, т.к. метод get_gram_info и так возвращает для каждого слова нормальную форму.
0.4.3 (2010-02-06)
Устранены небольшие ошибки.
0.4.0 (2010-01-07)
Упрощена установка: добавилась поддержка кроссплатформенных словарей в sqlite
0.3.5 (2009-12-15)
Интеграция с django: добавлены шаблонные фильтры для склонения и согласования слов. Переделаны правила получения нормальных форм слова (переделка ошибочная).
0.1.0 (2009-12-07)
pymorphy почти полностью переписан, документирован, оформлен как python-пакет и загружен на pypi.python.org
0.0.1 (2009-01-18)
первая версия, которая после написания была заброшена на год
Project details
Release history Release notifications | RSS feed
Download files
Download the file for your platform. If you're not sure which to choose, learn more about installing packages.