**DeepSE**: **Sentence Embeddings** based on Deep Nerual Networks, designed for **PRODUCTION** enviroment!
Project description
DeepSE
DeepSE: 面向生产环境的Sentence Embedding!
目录
- 安装
- 实现的模型
- 2.1 BERT和RoBERTa
- 2.2 SimCSE
安装
克隆仓库:
git clone https://github.com/luozhouyang/deepse.git
或者从pypi
安装:
pip install -U deepse
实现的模型
目前支持的模型如下:
- 原始的BERT和RoBERTa
- SimCSE
BERT和RoBERTa
TODO: 补充文档
SimCSE
SimCSE模型有多种形式,包括有监督和无监督版本,其中有监督版本又有是否包含hard negative之分。
目前实现列表如下:
- 无监督SimCSE
- 有监督SimCSE
- 有监督SimCSE with hard negative
训练一个无监督SimCSE模型,需要的训练数据格式是:每行一个句子。
然后,使用以下命令即可训练:
PRETRAINED_MODEL_PATH=/path/to/your/pretrained/bert/dir python run_simcse_unsup.py
参数可以到
run_simcse_unsup.py
直接修改。模型会同时保存成Checkpoint格式和SavedModel格式,后者你可以直接用tensorflow/serving部署在生产环境。
训练一个有监督的SimCSE模型,需要的训练数据格式是:每行两个句子,使用任意的分隔符间隔开即可(可以在Dataset的构建过程中指定分隔符sep
)。
然后,使用以下命令即可训练:
PRETRAINED_MODEL_PATH=/path/to/your/pretrained/bert/dir python run_simcse.py
参数可以到
run_simcse.py
直接修改。模型会同时保存成Checkpoint格式和SavedModel格式,后者你可以直接用tensorflow/serving部署在生产环境。
Project details
Download files
Download the file for your platform. If you're not sure which to choose, learn more about installing packages.
Source Distribution
deepse-0.0.2.tar.gz
(13.5 kB
view hashes)
Built Distribution
deepse-0.0.2-py3-none-any.whl
(15.7 kB
view hashes)