No project description provided
Project description
csv_embeddings_creator
csv_embeddings_creator
是一個 Python 套件,用於從 CSV 文件中創建句子嵌入。它使用 Hugging Face Transformers 的 paraphrase-multilingual-MiniLM-L12-v2
模型為文本生成嵌入。該套件將文本轉換為 txt 格式並將嵌入保存為 PyTorch 張量文件。
安裝
在安裝 csv_embeddings_creator
之前,請確保您的系統已安裝 Python 3.6 或更高版本。
要安裝 csv_embeddings_creator
,請運行以下命令:
pip install csv_embeddings_creator
使用方法
CLI 示範用法
您可以通過以下 CLI 呼叫方法使用 csv_embeddings_creator
:
python3 -m csv_embeddings_creator --input-folder 'input_csv_files' --output-txt-folder 'output_txt_files' --embeddings-folder 'output_embeddings' [--force]
其中:
--input-folder
:包含 CSV 文件的輸入文件夾。--output-txt-folder
:輸出 txt 文件的文件夾。--embeddings-folder
:輸出嵌入文件的文件夾。--force
(可選):強制重新創建嵌入,即使它們已經存在。
Python API 示範用法
要在 Python 腳本中使用 csv_embeddings_creator
,請按照以下步驟操作:
-
導入
csv_embeddings_creator
:import csv_embeddings_creator
-
使用
create_embeddings
函數創建嵌入:input_folder = 'input_csv_files' output_txt_folder = 'output_txt_files' output_embeddings_folder = 'output_embeddings' force = False csv_embeddings_creator.create_embeddings(input_folder, output_txt_folder, output_embeddings_folder, force)
其中:
input_folder
:包含 CSV 文件的輸入文件夾。output_txt_folder
:輸出 txt 文件的文件夾。output_embeddings_folder
:輸出嵌入文件的文件夾。force
(可選):強制重新創建嵌入,即使它們已經存在。
常見問題
如果您在使用 csv_embeddings_creator
時遇到問題,請查看以下常見問題解答。如果您仍無法解決問題,請在 GitHub 存儲庫中創建一個問題。
Q: 我可以使用其他 Transformer 模型生成嵌入嗎?
A: 是的,您可以在 csv_embeddings_creator.py
文件中修改 SentenceTransformer('paraphrase-multilingual-MiniLM-L12-v2')
以使用其他 Hugging Face Transformer 模型。確保您已安裝所需的模型及其依賴項。
Q: 句子嵌入的尺寸是多少?
A: 使用 paraphrase-multilingual-MiniLM-L12-v2
模型生成的句子嵌入的尺寸為 384。不同的 Transformer 模型可能具有不同的嵌入尺寸。
貢獻
我們歡迎您為 csv_embeddings_creator
做出貢獻!如果您有任何建議、改進或修復錯誤,請在 GitHub 存儲庫中創建一個 Pull 請求。
Project details
Release history Release notifications | RSS feed
Download files
Download the file for your platform. If you're not sure which to choose, learn more about installing packages.
Source Distribution
Built Distribution
Hashes for csv-embeddings-creator-1.0.4.tar.gz
Algorithm | Hash digest | |
---|---|---|
SHA256 | 71e46fac05a35ee78801ae2206d49c4eddba30a603eb0770f6198a1436a1a1d7 |
|
MD5 | 8b8bc412cbf03fb32e2bc84738002b76 |
|
BLAKE2b-256 | b917c65badfc3f70a379e8bcc89e4221303b036c8bf230692ce97375385ea4ba |
Hashes for csv_embeddings_creator-1.0.4-py3-none-any.whl
Algorithm | Hash digest | |
---|---|---|
SHA256 | 3dc1c457fcf7e183c87de8b2dc2bba52165ff1acaf7d294b4d4a62db6f3dd704 |
|
MD5 | 1a4288736f611996c88a6a94ac940d32 |
|
BLAKE2b-256 | c6363ff07b19f9925aa3cbdd5967a5160eb10dc2b2fa44098ddb2e86d8170878 |