Skip to main content

No project description provided

Project description

logo

GitHub last commit GitHub workflow PyPI

使用須知

  1. 考試試題之使用符合著作權法

    根據中華民國政府的著作權法 - 第9條

    1. 下列各款不得為著作權之標的︰
      一、憲法、法律、命令或公文。
      二、中央或地方機關就前款著作作成之翻譯物或編輯物。
      三、標語及通用之符號、名詞、公式、數表、表格、簿冊或時曆。
      四、單純為傳達事實之新聞報導所作成之語文著作。
      五、依法令舉行之各類考試試題及其備用試題。

    依法舉辦的考試試題是不具備著作權的
    適用該條款的考試,包含:學測、會考、學校段考試題,但是不包含補習班、出版商自製的試題
    複雜情況:若學校段考考題使用了出版商的題目,那該題目仍然受到著作權的保護,為了規避法律風險,最佳實踐方案是只收集大考考試試題
    該專案有調整題目敘述,即重製題目,讓資料更適合 NLP
    請務必根據 Apache 2.0 許可證 使用專案程式碼
    也請務必遵守資料集的 指定許可證

    衍生參考資料: 考試題目也有著作權嗎?-林正椈律師

  2. 基於語言模型的合成資料集 - 上下游關係

    上游:正在使用該工具的你/妳,身為API呼叫者
    下游:使用合成資料集的他/她,你/妳不是下游

    常見模型提供商的使用條款: OpenAI, Google

    • 皆禁止以輸出訓練競爭模型
    • 使用者皆擁有輸出。OpenAI: 可自由分發; Google: 需遵守法律,未限制分發
    • 截止 2025/07/20 使用條款無直接追溯力,下游使用者可根據資料集的協議使用資料集

    上游透過本工具,呼叫 Gemini API 產生合成資料集,並且上游釋出該資料集為 MIT 協議,下游使用者即可自由使用該資料集

公開資料集

台灣學測 - 中文考科(仍在繼續收錄中,從 114 學年度開始,目前到 105 學年度)

公開資料

學測考試試題整理

套件支援情況

作業系統

作業系統 支援 備註 開發者情況
Linux 測試時,使用 Github Action ubuntu-latest 日常使用 Ubuntu
Windows 測試時,使用 Github Action windows-latest 偶爾使用
MacOS 測試時,使用 Github Action macos-13 沒有 Mac 裝置

Python 版本

這跟專案依賴套件有關
推薦: 3.10 ~ 3.12
目前較推薦: 3.11

快速安裝

生產階段(本套件可能不太適合鎖死版本)

Pypi 套件庫

pip install tw_textforge

開發階段(給有興趣的人自行衍生開發)

uv venv
uv pip install -e .[dev]

範本

1. 載入 CSV 檔並且上傳到 Huggice Face Hub

載入 CSV 靜態資料檔案並且上傳到 Huggice Face
後續可利用 Datasets 的流式讀取(streaming) 載入資料集,降低模型訓練硬體需求
算是 Datasets 的 "Hello World!"

2. LangGraph 單 Agent 範本

LangGraph 單 Agent 範本

3. 修改系統路徑導入模組,適合修改內部程式碼

該方法在安裝過專案包的 Docker Image 也適用,可讓開發更容易

4. 擷取學測試題的題目和選項、答案,自動複製到剪貼簿(若支援),方便放到試算表中

  • 題目和選項:適合用於從 Word 手動複製文字後,透過工具過濾
    • 根據文字規律提取內容
      • 題號後面都有 /t
      • 每個選項都是 (A) (B) (C) (D) (E),但不要把選項放同一行,暫時不支援判斷單行多選項
  • 答案:適合用於從 PDF 手動複製提取文字後,透過工具過濾
    • 根據文字規律提取內容
      • 題號 答案
      • "題號 答案"+" "+"題號 答案"

5. 生成學測國文考科題目分析

Project details


Download files

Download the file for your platform. If you're not sure which to choose, learn more about installing packages.

Source Distribution

tw_textforge-0.0.4.tar.gz (22.5 kB view details)

Uploaded Source

Built Distribution

If you're not sure about the file name format, learn more about wheel file names.

tw_textforge-0.0.4-py3-none-any.whl (21.6 kB view details)

Uploaded Python 3

File details

Details for the file tw_textforge-0.0.4.tar.gz.

File metadata

  • Download URL: tw_textforge-0.0.4.tar.gz
  • Upload date:
  • Size: 22.5 kB
  • Tags: Source
  • Uploaded using Trusted Publishing? No
  • Uploaded via: uv/0.8.2

File hashes

Hashes for tw_textforge-0.0.4.tar.gz
Algorithm Hash digest
SHA256 2ee7ab93f28d8ecf73231be7cc3877b95cb9b8fde317dadbbf6288b28ec39f2c
MD5 0263e39e63acb075d6814b73995050a5
BLAKE2b-256 40f16094cec15416c896331e7301af51f8a366eb3b6a82ba8322de49e72b201f

See more details on using hashes here.

File details

Details for the file tw_textforge-0.0.4-py3-none-any.whl.

File metadata

File hashes

Hashes for tw_textforge-0.0.4-py3-none-any.whl
Algorithm Hash digest
SHA256 9dd04097f36bab7cae9fde0168835382e70a2c502c5f21fea23482f623673b38
MD5 70c8ab7d0e27e1b2c248caa2c7b9bfdc
BLAKE2b-256 0eac84b64b32aca5af390f23a25c03275b8114a62b76eadaa2de688e4e9755fb

See more details on using hashes here.

Supported by

AWS Cloud computing and Security Sponsor Datadog Monitoring Depot Continuous Integration Fastly CDN Google Download Analytics Pingdom Monitoring Sentry Error logging StatusPage Status page