Skip to main content

Named Entity Segmentation

Project description

Named Entity Segmentation

简介

本项目是字符串令牌流分割库; neseg -n 中国北京市联想科技有限公司 -d dict

功能

  • 字符串令牌解析;
  • 支持令牌流;
  • 解析器可以是自定义字典机械分割,每个token一个独立字典;
  • 解析器也可以是正则表达式;
  • 分割分正向和反向,都是从头开始;
  • 生成对应令牌名称和解析出来的字符创元组,最后剩下的归为一组;

应用场景

  • 各种名称的解析,如中文机构名、药品名称、地址的分割标注;

TODO

  • 设计参考re.scanner;
  • 可以用生成器yield来做技术实现;
  • 程序返回元组列表;

附录 - 源码文件说明

neseg
    /lib
        FMM.py  正向切词
        RMM.py  反向切词
    seg.py      
    main.py   主程序:无界面,参数命令行
changelog.md    软件更新日志
readme.md       软件使用、安装指南

Project details


Download files

Download the file for your platform. If you're not sure which to choose, learn more about installing packages.

Source Distribution

neseg-0.7.2.tar.gz (4.9 kB view hashes)

Uploaded Source

Supported by

AWS AWS Cloud computing and Security Sponsor Datadog Datadog Monitoring Fastly Fastly CDN Google Google Download Analytics Microsoft Microsoft PSF Sponsor Pingdom Pingdom Monitoring Sentry Sentry Error logging StatusPage StatusPage Status page