No project description provided
Project description
csv_embeddings_creator v1.0.4 by Bowen Chiu
這東西可以把 google sheet 或者任意 .csv 變成知識庫,未來就能拿 .pt 檔案群來做句子相似度比對了。
csv_embeddings_creator
是一個 Python 套件,用於從 CSV 文件中創建句子嵌入。它使用 Hugging Face Transformers 的 paraphrase-multilingual-MiniLM-L12-v2
模型為文本生成嵌入。該套件將文本轉換為 txt 格式並將嵌入保存為 PyTorch 張量文件。
安裝
在安裝 csv_embeddings_creator
之前,請確保您的系統已安裝 Python 3.6 或更高版本。
要安裝 csv_embeddings_creator
,請運行以下命令:
pip install csv-embeddings-creator
使用方法
CLI 示範用法
您可以通過以下 CLI 呼叫方法使用 csv_embeddings_creator
:
python3 -m csv_embeddings_creator --input-folder 'input_csv_files' --output-txt-folder 'output_txt_files' --embeddings-folder 'output_embeddings' [--force]
其中:
--input-folder
:包含 CSV 文件的輸入文件夾。--output-txt-folder
:輸出 txt 文件的文件夾。--embeddings-folder
:輸出嵌入文件的文件夾。--force
(可選):強制重新創建嵌入,即使它們已經存在。
Python API 示範用法
要在 Python 腳本中使用 csv_embeddings_creator
,請按照以下步驟操作:
-
導入
csv_embeddings_creator
:import csv_embeddings_creator
-
使用
create_embeddings
函數創建嵌入:input_folder = 'input_csv_files' output_txt_folder = 'output_txt_files' output_embeddings_folder = 'output_embeddings' force = False csv_embeddings_creator.create_embeddings(input_folder, output_txt_folder, output_embeddings_folder, force)
其中:
input_folder
:包含 CSV 文件的輸入文件夾。output_txt_folder
:輸出 txt 文件的文件夾。output_embeddings_folder
:輸出嵌入文件的文件夾。force
(可選):強制重新創建嵌入,即使它們已經存在。
常見問題
如果您在使用 csv_embeddings_creator
時遇到問題,請查看以下常見問題解答。如果您仍無法解決問題,請在 GitHub 存儲庫中創建一個問題。
Q: 我可以使用其他 Transformer 模型生成嵌入嗎?
A: 是的,您可以在 csv_embeddings_creator.py
文件中修改 SentenceTransformer('paraphrase-multilingual-MiniLM-L12-v2')
以使用其他 Hugging Face Transformer 模型。確保您已安裝所需的模型及其依賴項。
Q: 句子嵌入的尺寸是多少?
A: 使用 paraphrase-multilingual-MiniLM-L12-v2
模型生成的句子嵌入的尺寸為 384。不同的 Transformer 模型可能具有不同的嵌入尺寸。
貢獻
我們歡迎您為 csv_embeddings_creator
做出貢獻!如果您有任何建議、改進或修復錯誤,請在 GitHub 存儲庫中創建一個 Pull 請求。
Project details
Release history Release notifications | RSS feed
Download files
Download the file for your platform. If you're not sure which to choose, learn more about installing packages.
Source Distribution
Built Distribution
Hashes for csv-embeddings-creator-1.0.9.tar.gz
Algorithm | Hash digest | |
---|---|---|
SHA256 | 66088dcac91dd18c211bf6987b09a7bbf57bdd6e90f98ef41930104f2ddaf5f1 |
|
MD5 | 387c13f7a657946359777d97f1711671 |
|
BLAKE2b-256 | d3d20d460427a64e6d589c04778faf925af45f1df7a7d6fd52b06da702cd85d9 |
Hashes for csv_embeddings_creator-1.0.9-py3-none-any.whl
Algorithm | Hash digest | |
---|---|---|
SHA256 | 07db9f92088f4f551f97133824a4acf07cba1ce6048f604280f88d367ed3f9f2 |
|
MD5 | 1fff3055b4d71f384e53530eabac7ce0 |
|
BLAKE2b-256 | 6765ba346d8235311c6b63da84bd4c1ec7bd35f016219adbfc16f6535b552c34 |