No project description provided
Project description
csv_embeddings_creator v1.0.4 by Bowen Chiu
這東西可以把 google sheet 或者任意 .csv 變成知識庫,未來就能拿 .pt 檔案群來做句子相似度比對了。
csv_embeddings_creator
是一個 Python 套件,用於從 CSV 文件中創建句子嵌入。它使用 Hugging Face Transformers 的 paraphrase-multilingual-MiniLM-L12-v2
模型為文本生成嵌入。該套件將文本轉換為 txt 格式並將嵌入保存為 PyTorch 張量文件。
安裝
在安裝 csv_embeddings_creator
之前,請確保您的系統已安裝 Python 3.6 或更高版本。
要安裝 csv_embeddings_creator
,請運行以下命令:
pip install csv-embeddings-creator
使用方法
CLI 示範用法
您可以通過以下 CLI 呼叫方法使用 csv_embeddings_creator
:
python3 -m csv_embeddings_creator --input-folder 'input_csv_files' --output-txt-folder 'output_txt_files' --embeddings-folder 'output_embeddings' [--force]
其中:
--input-folder
:包含 CSV 文件的輸入文件夾。--output-txt-folder
:輸出 txt 文件的文件夾。--embeddings-folder
:輸出嵌入文件的文件夾。--force
(可選):強制重新創建嵌入,即使它們已經存在。
Python API 示範用法
要在 Python 腳本中使用 csv_embeddings_creator
,請按照以下步驟操作:
-
導入
csv_embeddings_creator
:import csv_embeddings_creator
-
使用
create_embeddings
函數創建嵌入:input_folder = 'input_csv_files' output_txt_folder = 'output_txt_files' output_embeddings_folder = 'output_embeddings' force = False csv_embeddings_creator.create_embeddings(input_folder, output_txt_folder, output_embeddings_folder, force)
其中:
input_folder
:包含 CSV 文件的輸入文件夾。output_txt_folder
:輸出 txt 文件的文件夾。output_embeddings_folder
:輸出嵌入文件的文件夾。force
(可選):強制重新創建嵌入,即使它們已經存在。
常見問題
如果您在使用 csv_embeddings_creator
時遇到問題,請查看以下常見問題解答。如果您仍無法解決問題,請在 GitHub 存儲庫中創建一個問題。
Q: 我可以使用其他 Transformer 模型生成嵌入嗎?
A: 是的,您可以在 csv_embeddings_creator.py
文件中修改 SentenceTransformer('paraphrase-multilingual-MiniLM-L12-v2')
以使用其他 Hugging Face Transformer 模型。確保您已安裝所需的模型及其依賴項。
Q: 句子嵌入的尺寸是多少?
A: 使用 paraphrase-multilingual-MiniLM-L12-v2
模型生成的句子嵌入的尺寸為 384。不同的 Transformer 模型可能具有不同的嵌入尺寸。
貢獻
我們歡迎您為 csv_embeddings_creator
做出貢獻!如果您有任何建議、改進或修復錯誤,請在 GitHub 存儲庫中創建一個 Pull 請求。
Project details
Release history Release notifications | RSS feed
Download files
Download the file for your platform. If you're not sure which to choose, learn more about installing packages.
Source Distribution
Built Distribution
Hashes for csv-embeddings-creator-1.0.6.tar.gz
Algorithm | Hash digest | |
---|---|---|
SHA256 | 962328d9b578f2c2500e7df57193d7982793402c995fe9a1bc969e10873c1db9 |
|
MD5 | 97542839ad800d894938270fb88f4eec |
|
BLAKE2b-256 | 0b0565df5058e10c1a0f8950e81a1d1e66815059d865c1f9082a2dddfe046f2e |
Hashes for csv_embeddings_creator-1.0.6-py3-none-any.whl
Algorithm | Hash digest | |
---|---|---|
SHA256 | 284f169584217dd98b85257f9a6781dba93b44fb3a22836c89975dfdb4db1804 |
|
MD5 | 3ff797a0285a764ff435f16e397ac298 |
|
BLAKE2b-256 | 1d74f84f1b8c2da11f60697f0a23c32bfb25c6deffad99c17ecc0e2699fe1f82 |