No project description provided
Project description
使用須知
-
考試試題之使用符合著作權法
根據中華民國政府的著作權法 - 第9條
- 下列各款不得為著作權之標的︰
一、憲法、法律、命令或公文。
二、中央或地方機關就前款著作作成之翻譯物或編輯物。
三、標語及通用之符號、名詞、公式、數表、表格、簿冊或時曆。
四、單純為傳達事實之新聞報導所作成之語文著作。
五、依法令舉行之各類考試試題及其備用試題。
依法舉辦的考試試題是不具備著作權的
適用該條款的考試,包含:學測、會考、學校段考試題,但是不包含補習班、出版商自製的試題
複雜情況:若學校段考考題使用了出版商的題目,那該題目仍然受到著作權的保護,為了規避法律風險,最佳實踐方案是只收集大考考試試題
該專案有調整題目敘述,即重製題目,讓資料更適合 NLP
請務必根據 Apache 2.0 許可證 使用專案程式碼
也請務必遵守資料集的 指定許可證衍生參考資料: 考試題目也有著作權嗎?-林正椈律師
- 下列各款不得為著作權之標的︰
-
基於語言模型的合成資料集 - 上下游關係
上游:正在使用該工具的你/妳,身為API呼叫者
下游:使用合成資料集的他/她,你/妳不是下游常見模型提供商的使用條款: OpenAI, Google
- 皆禁止以輸出訓練競爭模型
- 使用者皆擁有輸出。OpenAI: 可自由分發; Google: 需遵守法律,未限制分發
- 截止 2025/07/20 使用條款無直接追溯力,下游使用者可根據資料集的協議使用資料集
上游透過本工具,呼叫 Gemini API 產生合成資料集,並且上游釋出該資料集為 MIT 協議,下游使用者即可自由使用該資料集
公開資料集
台灣學測 - 中文考科(仍在繼續收錄中,從 114 學年度開始,目前到 105 學年度)
公開資料
套件支援情況
作業系統
| 作業系統 | 支援 | 備註 | 開發者情況 |
|---|---|---|---|
| Linux | ✅ | 測試時,使用 Github Action ubuntu-latest | 日常使用 Ubuntu |
| Windows | ✅ | 測試時,使用 Github Action windows-latest | 偶爾使用 |
| MacOS | ✅ | 測試時,使用 Github Action macos-13 | 沒有 Mac 裝置 |
Python 版本
這跟專案依賴套件有關
推薦: 3.10 ~ 3.12
目前較推薦: 3.11
快速安裝
生產階段(本套件可能不太適合鎖死版本)
pip install tw_textforge
開發階段(給有興趣的人自行衍生開發)
uv venv
uv pip install -e .[dev]
範本
1. 載入 CSV 檔並且上傳到 Huggice Face Hub
載入 CSV 靜態資料檔案並且上傳到 Huggice Face
後續可利用 Datasets 的流式讀取(streaming) 載入資料集,降低模型訓練硬體需求
算是 Datasets 的 "Hello World!"
2. LangGraph 單 Agent 範本
LangGraph 單 Agent 範本
3. 修改系統路徑導入模組,適合修改內部程式碼
該方法在安裝過專案包的 Docker Image 也適用,可讓開發更容易
4. 擷取學測試題的題目和選項、答案,自動複製到剪貼簿(若支援),方便放到試算表中
- 題目和選項:適合用於從 Word 手動複製文字後,透過工具過濾
- 根據文字規律提取內容
- 題號後面都有 /t
- 每個選項都是 (A) (B) (C) (D) (E),但不要把選項放同一行,暫時不支援判斷單行多選項
- 根據文字規律提取內容
- 答案:適合用於從 PDF 手動複製提取文字後,透過工具過濾
- 根據文字規律提取內容
- 題號 答案
- "題號 答案"+" "+"題號 答案"
- 根據文字規律提取內容
5. 生成學測國文考科題目分析
Project details
Release history Release notifications | RSS feed
Download files
Download the file for your platform. If you're not sure which to choose, learn more about installing packages.
Source Distribution
Built Distribution
Filter files by name, interpreter, ABI, and platform.
If you're not sure about the file name format, learn more about wheel file names.
Copy a direct link to the current filters
File details
Details for the file tw_textforge-0.0.4.tar.gz.
File metadata
- Download URL: tw_textforge-0.0.4.tar.gz
- Upload date:
- Size: 22.5 kB
- Tags: Source
- Uploaded using Trusted Publishing? No
- Uploaded via: uv/0.8.2
File hashes
| Algorithm | Hash digest | |
|---|---|---|
| SHA256 |
2ee7ab93f28d8ecf73231be7cc3877b95cb9b8fde317dadbbf6288b28ec39f2c
|
|
| MD5 |
0263e39e63acb075d6814b73995050a5
|
|
| BLAKE2b-256 |
40f16094cec15416c896331e7301af51f8a366eb3b6a82ba8322de49e72b201f
|
File details
Details for the file tw_textforge-0.0.4-py3-none-any.whl.
File metadata
- Download URL: tw_textforge-0.0.4-py3-none-any.whl
- Upload date:
- Size: 21.6 kB
- Tags: Python 3
- Uploaded using Trusted Publishing? No
- Uploaded via: uv/0.8.2
File hashes
| Algorithm | Hash digest | |
|---|---|---|
| SHA256 |
9dd04097f36bab7cae9fde0168835382e70a2c502c5f21fea23482f623673b38
|
|
| MD5 |
70c8ab7d0e27e1b2c248caa2c7b9bfdc
|
|
| BLAKE2b-256 |
0eac84b64b32aca5af390f23a25c03275b8114a62b76eadaa2de688e4e9755fb
|