No project description provided
Project description
CSV 轉換為資訊區塊
🐔動機:
為了讓每個 CSV row 單獨成為語境探索的資訊區塊,需將 CSV row 轉換成 JSON 資訊區塊。
切割完畢之後,下一個階段可以針對 content 欄位計算來增添 embeddings 詞向量欄位。
💣地雷:
這個套件的輸入格式是 google-sheet-downloader 的輸出檔案群CSV and JSON。
簡介
該工具可以將 CSV 文件中的數據轉換成 JSON 形式的資訊區塊。您可以選擇強制重新生成所有 JSON 文件,或者僅生成不存在的 JSON 文件。
安裝
python3 -m pip install csv-to-info-chunks
套件用法
from csv_to_info_chunks import csv_to_info_chunks
用法的定義:
def csv_to_info_chunks(input_folder, output_folder, force=False)
CLI使用方法
- 首先,打開命令提示符或終端機,並將工作路徑切換至包含
csv_to_info_chunks.py
的文件夹。 - 然後,執行以下命令:
python csv_to_info_chunks.py --input-folder <CSV 文件夾路徑> --output-folder <JSON 文件夾路徑> [--force]
其中:
<CSV 文件夾路徑>
是存放 CSV 文件的文件夾路徑。<JSON 文件夾路徑>
是要將生成的 JSON 文件存放的文件夾路徑。- 如果要強制重新生成所有 JSON 文件,請在命令中添加
--force
選項。
- 該工具將會轉換指定文件夾中的所有 CSV 文件,並將生成的 JSON 文件存放在指定文件夾中。
輸入的 CSV 文件格式
doc-id_14GQkXftKXoaIJ_TKxtXzae1J7p10XznGgF_lg7cDG8g_sha_4e09fa0d.csv
提問,回答
知識工作者的自治和責任,"知識工作需要自治和責任..."
輸入的 JSON 文件格式
doc-id_14GQkXftKXoaIJ_TKxtXzae1J7p10XznGgF_lg7cDG8g_sha_4e09fa0d.json
{
"sheet_id": "1H0NTLvF0oyURCw_YWBQJ8CkcL7pij5D_8zO_1gXMc5k",
"sheet_name": "健康百科問答知識庫",
"worksheet_name": "工作表1",
"download_time": "2023-06-04T12:50:06.217484Z",
"download_filepath": "./data/users/bohachu_gmail_com/google_sheet_downloader/2023-06-04/doc-id_1H0NTLvF0oyURCw_YWBQJ8CkcL7pij5D_8zO_1gXMc5k_sha_0f813133.csv"
}
輸出的 JSON 文件格式
{
"id": "9b70686d-948f-4091-8564-cb4727695482_7",
"time": "2023-06-04T15:59:20.666483Z",
"content": "組織惰性 所有的組織都需要一套可以因應現實的紀律。\n\n所有的組織都要知道,天底下沒有什麼計畫或活動可以不需要調整或是重新設計,就能長期持續運作。所有的活動最終都會落伍。忽視這個事實的組織,尤以政府機關最甚。事實上,當今政府部門之所以問題重重,最主要的癥結在於,所有事物都是沿襲過去,無法適時擺脫昨日的牽絆。這方面,醫院和大學只比政府好一點。\n\n企業人士念舊的程度不下於政府官僚。如果某個產品或是計畫失敗,企業人士很可能會照樣加倍投資。不過幸好,他們無法完全照自己的意思這麼做。企業受制於一套客觀的規範,那就是市場。企業有一套客觀的外部衡量標準,那就是利潤。企業早晚得淘汰失敗或不具生產力的產品或計畫。對政府機構、醫院、軍隊等其他組織而言,經濟只是一項邊界條件。",
"embeddings": [],
"type": "google_sheet",
"sheet_id": "14GQkXftKXoaIJ_TKxtXzae1J7p10XznGgF_lg7cDG8g",
"sheet_name": "經營百科問答知識庫",
"worksheet_name": "工作表1",
"download_time": "2023-06-04T12:50:08.519968Z",
"download_filepath": "./data/users/bohachu_gmail_com/google_sheet_downloader/2023-06-04/doc-id_14GQkXftKXoaIJ_TKxtXzae1J7p10XznGgF_lg7cDG8g_sha_4e09fa0d.csv",
"row": 7
}
注意事項
- 輸入的 CSV 文件應該使用 UTF-8 字元編碼。
- 生成的 JSON 文件將使用相同的前綴名,但擴展名將替換為
.json
。例如,example.csv
將生成名為example.json
的文件。 - 若要查看轉換過程中的具體信息,您可以在終端或命令提示符窗口查看。
疑難排解
- 如果遇到任何問題,請確保您使用的是 Python 3 及相關庫的最新版本。
- 確保輸入文件夾中的 CSV 文件使用了正確的字元編碼(推薦使用 UTF-8)。
祝使用順利!
Project details
Release history Release notifications | RSS feed
Download files
Download the file for your platform. If you're not sure which to choose, learn more about installing packages.
Source Distribution
Built Distribution
Close
Hashes for csv_to_info_chunks-1.0.1-py3-none-any.whl
Algorithm | Hash digest | |
---|---|---|
SHA256 | c90163438af451d72701c6c3cf84e0bdfb068f47f3c8d63b57f2ee66f3176794 |
|
MD5 | 51cefe024e981da2fed5e251eac4c69d |
|
BLAKE2b-256 | 181454fad862c1b5a2591e8bcdb4f371827e33753908127ad726db17459353ed |