Skip to main content

No project description provided

Project description

logo

GitHub last commit GitHub workflow PyPI

使用須知

  1. 考試試題之使用符合著作權法

    根據中華民國政府的著作權法 - 第9條

    1. 下列各款不得為著作權之標的︰
      一、憲法、法律、命令或公文。
      二、中央或地方機關就前款著作作成之翻譯物或編輯物。
      三、標語及通用之符號、名詞、公式、數表、表格、簿冊或時曆。
      四、單純為傳達事實之新聞報導所作成之語文著作。
      五、依法令舉行之各類考試試題及其備用試題。

    依法舉辦的考試試題是不具備著作權的
    適用該條款的考試,包含:學測、會考、學校段考試題,但是不包含補習班、出版商自製的試題
    複雜情況:若學校段考考題使用了出版商的題目,那該題目仍然受到著作權的保護,為了規避法律風險,最佳實踐方案是只收集大考考試試題
    該專案有調整題目敘述,即重製題目,讓資料更適合 NLP
    請務必根據 Apache 2.0許可證 使用專案程式碼
    也請務必遵守資料集的 指定許可證

    衍生參考資料: 考試題目也有著作權嗎?-林正椈律師

  2. 基於語言模型的合成資料集 - 上下游關係

    上游:正在使用該工具的你/妳,身為API呼叫者
    下游:使用合成資料集的他/她,你/妳不是下游

    常見模型提供商的使用條款: OpenAI, Google

    • 皆禁止以輸出訓練競爭模型
    • 使用者皆擁有輸出。OpenAI: 可自由分發; Google: 需遵守法律,未限制分發
    • 截止 2025/07/20 使用條款無直接追溯力,下游使用者可根據資料集的協議使用資料集

    上游透過本工具,呼叫 Gemini API 產生合成資料集,並且上游釋出該資料集為 MIT 協議,下游使用者即可自由使用該資料集

快速安裝 - uv 套件管理工具

生產階段(本套件可能不太適合鎖死版本)

Pypi 套件庫

pip install tw_textforge

開發階段(給有興趣的人自行衍生開發)

uv venv
uv pip install -e .[dev]

公開資料

學測考試試題整理

範本

1. 載入 CSV 檔並且上傳到 Huggice Face Hub

該專案使用 Google Sheet 並且透過網路發布的功能釋出資料
在程式中載入網路發布的資料並且上傳到 Huggice Face Hub
後續可利用流式(streaming)載入資料集,降低硬體需求

2. 使用 LLM 生成學測題目的題目解析(開發中)

生成題目解析作為訓練資料之一,讓 NLP 相關訓練效果更好

3. 修改系統路徑導入模組,適合修改內部程式碼

該方法在安裝過專案包的 Docker Image 也適用,可讓開發更容易

Project details


Download files

Download the file for your platform. If you're not sure which to choose, learn more about installing packages.

Source Distribution

tw_textforge-0.0.3.dev3.tar.gz (18.1 kB view details)

Uploaded Source

Built Distribution

If you're not sure about the file name format, learn more about wheel file names.

tw_textforge-0.0.3.dev3-py3-none-any.whl (19.1 kB view details)

Uploaded Python 3

File details

Details for the file tw_textforge-0.0.3.dev3.tar.gz.

File metadata

  • Download URL: tw_textforge-0.0.3.dev3.tar.gz
  • Upload date:
  • Size: 18.1 kB
  • Tags: Source
  • Uploaded using Trusted Publishing? No
  • Uploaded via: uv/0.8.2

File hashes

Hashes for tw_textforge-0.0.3.dev3.tar.gz
Algorithm Hash digest
SHA256 fcb3dd38bee5c10da42e53dd117d867266f7c45d761fef04a333b576bb95d097
MD5 b2a3245d81f10be791014b483943f6e4
BLAKE2b-256 81002bdfce22fb5577a91cc85807554ccc9f6336c8e3982ec4bcff4bcd237d5e

See more details on using hashes here.

File details

Details for the file tw_textforge-0.0.3.dev3-py3-none-any.whl.

File metadata

File hashes

Hashes for tw_textforge-0.0.3.dev3-py3-none-any.whl
Algorithm Hash digest
SHA256 ca1822b0b8458fc389f114c17ded57ca65eff68f4e4e6413d971ef8037165645
MD5 5da723dd63e553ec96a2a4cb594899d9
BLAKE2b-256 3c72c1054661f83679868e330a58d752b418f489b2b1e661c5c173737c8b9c9a

See more details on using hashes here.

Supported by

AWS Cloud computing and Security Sponsor Datadog Monitoring Depot Continuous Integration Fastly CDN Google Download Analytics Pingdom Monitoring Sentry Error logging StatusPage Status page