Skip to main content

No project description provided

Project description

csv_embeddings_creator v1.0.4 by Bowen Chiu

這東西可以把 google sheet 或者任意 .csv 變成知識庫,未來就能拿 .pt 檔案群來做句子相似度比對了。

csv_embeddings_creator 是一個 Python 套件,用於從 CSV 文件中創建句子嵌入。它使用 Hugging Face Transformers 的 paraphrase-multilingual-MiniLM-L12-v2 模型為文本生成嵌入。該套件將文本轉換為 txt 格式並將嵌入保存為 PyTorch 張量文件。

安裝

在安裝 csv_embeddings_creator 之前,請確保您的系統已安裝 Python 3.6 或更高版本。

要安裝 csv_embeddings_creator,請運行以下命令:

pip install csv-embeddings-creator

使用方法

CLI 示範用法

您可以通過以下 CLI 呼叫方法使用 csv_embeddings_creator

python3 -m csv_embeddings_creator --input-folder 'input_csv_files' --output-txt-folder 'output_txt_files' --embeddings-folder 'output_embeddings' [--force]

其中:

  • --input-folder:包含 CSV 文件的輸入文件夾。
  • --output-txt-folder:輸出 txt 文件的文件夾。
  • --embeddings-folder:輸出嵌入文件的文件夾。
  • --force(可選):強制重新創建嵌入,即使它們已經存在。

Python API 示範用法

要在 Python 腳本中使用 csv_embeddings_creator,請按照以下步驟操作:

  1. 導入 csv_embeddings_creator

    import csv_embeddings_creator
    
  2. 使用 create_embeddings 函數創建嵌入:

    input_folder = 'input_csv_files'
    output_txt_folder = 'output_txt_files'
    output_embeddings_folder = 'output_embeddings'
    force = False
    
    csv_embeddings_creator.create_embeddings(input_folder, output_txt_folder, output_embeddings_folder, force)
    

    其中:

    • input_folder:包含 CSV 文件的輸入文件夾。
    • output_txt_folder:輸出 txt 文件的文件夾。
    • output_embeddings_folder:輸出嵌入文件的文件夾。
    • force(可選):強制重新創建嵌入,即使它們已經存在。

常見問題

如果您在使用 csv_embeddings_creator 時遇到問題,請查看以下常見問題解答。如果您仍無法解決問題,請在 GitHub 存儲庫中創建一個問題。

Q: 我可以使用其他 Transformer 模型生成嵌入嗎?

A: 是的,您可以在 csv_embeddings_creator.py 文件中修改 SentenceTransformer('paraphrase-multilingual-MiniLM-L12-v2') 以使用其他 Hugging Face Transformer 模型。確保您已安裝所需的模型及其依賴項。

Q: 句子嵌入的尺寸是多少?

A: 使用 paraphrase-multilingual-MiniLM-L12-v2 模型生成的句子嵌入的尺寸為 384。不同的 Transformer 模型可能具有不同的嵌入尺寸。

貢獻

我們歡迎您為 csv_embeddings_creator 做出貢獻!如果您有任何建議、改進或修復錯誤,請在 GitHub 存儲庫中創建一個 Pull 請求。

Project details


Download files

Download the file for your platform. If you're not sure which to choose, learn more about installing packages.

Source Distribution

csv-embeddings-creator-1.0.9.tar.gz (3.6 kB view details)

Uploaded Source

Built Distribution

csv_embeddings_creator-1.0.9-py3-none-any.whl (4.1 kB view details)

Uploaded Python 3

File details

Details for the file csv-embeddings-creator-1.0.9.tar.gz.

File metadata

File hashes

Hashes for csv-embeddings-creator-1.0.9.tar.gz
Algorithm Hash digest
SHA256 66088dcac91dd18c211bf6987b09a7bbf57bdd6e90f98ef41930104f2ddaf5f1
MD5 387c13f7a657946359777d97f1711671
BLAKE2b-256 d3d20d460427a64e6d589c04778faf925af45f1df7a7d6fd52b06da702cd85d9

See more details on using hashes here.

File details

Details for the file csv_embeddings_creator-1.0.9-py3-none-any.whl.

File metadata

File hashes

Hashes for csv_embeddings_creator-1.0.9-py3-none-any.whl
Algorithm Hash digest
SHA256 07db9f92088f4f551f97133824a4acf07cba1ce6048f604280f88d367ed3f9f2
MD5 1fff3055b4d71f384e53530eabac7ce0
BLAKE2b-256 6765ba346d8235311c6b63da84bd4c1ec7bd35f016219adbfc16f6535b552c34

See more details on using hashes here.

Supported by

AWS AWS Cloud computing and Security Sponsor Datadog Datadog Monitoring Fastly Fastly CDN Google Google Download Analytics Microsoft Microsoft PSF Sponsor Pingdom Pingdom Monitoring Sentry Sentry Error logging StatusPage StatusPage Status page