NLP package for Vietnamese
Project description
ViNLP
All task are trained on VLSP2013 and VLSP2016
Installation
To install ViNLP:
$ pip install ViNLP
Tutorials
- 1. Word Segmentation
- 2. Sentence Segmentation
- 3. POS Tagging
- 4. Chunking
- 5. Named Entity Recognition
1. Word Segmentation
Usage
>>> from ViNLP import word_tokenize
>>> sentence = 'Hà Nội test nhanh SARS-CoV-2 cho hành khách từ TP.HCM đến sân bay Nội Bài'
>>> word_tokenize(sentence)
['Hà_Nội', 'test', 'nhanh', 'SARS-CoV-2', 'cho', 'hành_khách', 'từ', 'TP.HCM', 'đến', 'sân_bay', 'Nội_Bài']
2. Sentence Segmentation
Usage
>>> from ViNLP import sent_tokenize
>>> sentences = 'Trước đó, hồi tháng 6, qua lấy mẫu xét nghiệm tầm soát Covid-19, ngành y tế phát hiện 11 ca dương tính với SARS-CoV-2 tại công ty này. Mới đây, qua xét nghiệm ghi nhận thêm 4 công nhân nghi dương tính. Trước tình hình trên, phía công ty đã lên phương án cho công nhân tạm thời nghỉ việc.'
>>> sent_tokenize(sentence)
['Trung tâm Y tế TP Thủ Đức cho hay trước đó khi xác định được các trường hợp F0 tại công ty nói trên , các F1 , F2 đã được cách ly theo quy định .',
'Nhà xưởng nơi phát hiện ca F0 tạm thời đóng cửa .',
'Ngày 9-7 , ngành y tế tiếp tục lấy mẫu xét nghiệm tại công ty để truy tìm các ca dương tính .']
3. POS Tagging
Usage
>>> from ViNLP import pos_tag
>>> sentence = 'Bộ Y tế công bố kế hoạch phân bổ vaccine COVID-19 đợt 5, TP.HCM nhiều nhất'
>>> pos_tag(sentence)
[('Bộ', 'N'),
('Y_tế', 'N'),
('công_bố', 'V'),
('kế_hoạch', 'N'),
('phân_bổ', 'V'),
('vaccine', 'N'),
('COVID-19', 'V'),
('đợt', 'N'),
('5', 'M'),
(',', 'CH'),
('TP.HCM', 'Ny'),
('nhiều', 'A'),
('nhất', 'R')]
4. Chunking
Usage
>>> from ViNLP import chunk
>>> sentence = 'Tổng thống Nga Putin tuyên bố sẵn sàng tiếp tục đối thoại với Mỹ'
>>> chunk(sentence)
[('Tổng_thống', 'N', 'B-NP'),
('Nga', 'Np', 'B-NP'),
('Putin', 'Np', 'I-NP'),
('tuyên_bố', 'V', 'B-VP'),
('sẵn_sàng', 'A', 'B-AP'),
('tiếp_tục', 'V', 'B-VP'),
('đối_thoại', 'V', 'B-VP'),
('với', 'E', 'B-PP'),
('Mỹ', 'Np', 'B-NP')]
5. Named Entity Recognition
Usage
>>> from ViNLP import ner
>>> sentence = 'Hậu thượng đỉnh, Tổng thống Putin nói ông Biden khác xa truyền thông miêu tả'
>>> ner(sentence)
[('Hậu', 'N', 'B-NP', 'O'),
('thượng_đỉnh', 'N', 'B-NP', 'O'),
(',', 'CH', 'O', 'O'),
('Tổng_thống', 'N', 'B-NP', 'O'),
('Putin', 'Np', 'B-NP', 'B-PER'),
('nói', 'V', 'B-VP', 'O'),
('ông', 'Nc', 'B-NP', 'O'),
('Biden', 'Np', 'B-NP', 'B-PER'),
('khác', 'A', 'B-AP', 'O'),
('xa', 'A', 'B-AP', 'O'),
('truyền_thông', 'N', 'B-NP', 'O'),
('miêu_tả', 'V', 'B-VP', 'O')]
Project details
Release history Release notifications | RSS feed
Download files
Download the file for your platform. If you're not sure which to choose, learn more about installing packages.
Source Distribution
ViNLP-1.2.0.tar.gz
(3.0 MB
view hashes)
Built Distribution
ViNLP-1.2.0-py3-none-any.whl
(3.0 MB
view hashes)