Skip to main content

個人情報マスキングツール(Web UI + CLI)

Project description

pymasking — 個人情報マスキングツール

文書・画像に含まれる個人情報を自動検出してマスキングします。
Web UI と CLI の両方で動作します。


デモ

テキストタブ — テキストを直接入力してマスキング

テキストマスキングデモ

ファイルタブ — ドラッグ&ドロップでファイルをマスキング

ファイルマスキングデモ


動作環境

項目 要件
OS Windows 10 / 11(64bit)
Python 3.9 以上

インストール

pip install pymasking

初回セットアップ(runtime 配布版)

Python runtime を展開した場合は setup.bat をダブルクリックして実行してください。

setup.bat を実行すると以下が自動で行われます:
  1. Python runtime フォルダを ユーザー PATH に追加
  2. Scripts フォルダを ユーザー PATH に追加
  3. デスクトップに masking.bat をコピー

セットアップ完了後、新しいコマンドプロンプトを開くか、デスクトップの masking.bat をダブルクリックして起動できます。


画像 OCR モデルのダウンロード(画像の OCR マスキングに必要)

画像ファイル(jpg / png / bmp)のマスキングには EasyOCR の日本語モデル(約 96 MB)が必要です。
以下のコマンドで事前にダウンロードできます。

# GitHub からダウンロード(デフォルト)
masking-download.bat

# 社内サーバー / SharePoint からダウンロード
masking-download.bat --url https://company.sharepoint.com/sites/IT/Shared%20Documents/ocr-models/

# SSL 証明書エラーが出る場合(社内プロキシ環境)
masking-download.bat --url https://... --no-verify-ssl

モデルは pymasking/data/model/ に保存され、2回目以降はオフラインで動作します。
既にダウンロード済みのファイルはスキップされます。

手動でモデルをダウンロードする場合

ネットワーク制限等でコマンドが使えない場合は、以下の手順で手動配置できます。

1. 以下の ZIP ファイルをブラウザ等でダウンロード

ファイル ダウンロード URL
craft_mlt_25k.zip https://github.com/JaidedAI/EasyOCR/releases/download/pre-v1.1.6/craft_mlt_25k.zip
japanese_g2.zip https://github.com/JaidedAI/EasyOCR/releases/download/v1.3/japanese_g2.zip
english_g2.zip https://github.com/JaidedAI/EasyOCR/releases/download/v1.3/english_g2.zip

2. ZIP を展開し、.pth ファイルを取り出す

各 ZIP を展開すると .pth ファイルが1つ含まれています。

3. pymasking/data/model/ フォルダに配置

site-packages\pymasking\data\model\
    craft_mlt_25k.pth
    japanese_g2.pth
    english_g2.pth

site-packages の場所は python -c "import site; print(site.getsitepackages()[0])" で確認できます。


起動方法

Web UI(推奨)

デスクトップの masking.bat をダブルクリック、またはコマンドプロンプトで実行します。

masking.bat

ブラウザで http://127.0.0.1:55963 が自動的に開きます。
ブラウザのタブ・ウィンドウを閉じるとサーバーも自動終了します。

CLI

mask.bat report.docx
mask.bat report.docx --mode unique

出力ファイルは元のファイルと同じフォルダに _変換後 サフィックスを付けて保存されます(例: report_変換後.docx)。


Web UI の使い方

共通操作

マスキング方式の選択

画面上部の 2 つのボタンで方式を選択します。
ボタンをクリックするとマスキング前後の例が表示されます。

ボタン 効果
伏字(●) 検出した情報を で塗りつぶす(既定)
一意性保持 人物001 のように種別+連番に置換

マスキング対象の絞り込み

「マスキング対象」をクリックすると種別チェックボックスが展開されます。
チェックした種別のみをマスクします。全て ON の場合はすべてのカテゴリを対象とします。


テキストタブ

  1. テキストエリアに文章を貼り付け(Ctrl+V 可)
  2. 必要に応じて「マスキング対象」を展開してチェックボックスを調整
  3. マスキング実行 をクリック
  4. 下の結果欄に変換後テキストが表示される
  5. 結果をコピー でクリップボードにコピー

ファイルタブ

  1. ドロップエリアにファイルをドラッグ&ドロップ、またはクリックして選択
    (対応形式: docx / xlsx / pptx / pdf / jpg / png / bmp / txt / csv / json 等)
  2. 必要に応じて「マスキング対象」を展開してチェックボックスを調整
  3. マスキング実行 をクリック
    • ボタンが赤く点滅し「実行中」と表示されます
    • 下のプログレスバーで処理状況を確認できます
  4. 処理完了後、ボタンがオレンジ色の「ダウンロード」に変わります
  5. ダウンロード をクリックするとマスキング済みファイルが保存されます(ファイル名: 元のファイル名に _変換後 を付加)

対応ファイル形式

形式 処理方法
.txt .csv .json .xml .md .log テキスト置換
.docx .xlsx .pptx テキスト置換(書式保持)
.pdf テキスト座標を検出 → 黒矩形で塗りつぶし
.jpg .jpeg .png .bmp EasyOCR で検出 → 黒矩形で塗りつぶし

マスキング方式

方式 出力例
伏字(デフォルト) ●●●
一意性保持 人物001

画像・PDF は方式に関わらず常に視覚的塗りつぶし(黒矩形)になります。


検出カテゴリ

人物名 / 組織名 / 住所 / メールアドレス / 電話番号 / 日付 / 金額 / SNS アカウント / 特許番号 / シリアル番号 / 型番


カスタム辞書

pymasking/data/dict/custom_dict.txt にタブ区切りで追加すると独自の固有名詞を検出できます:

山田太郎	person
株式会社サンプル	org

Project details


Download files

Download the file for your platform. If you're not sure which to choose, learn more about installing packages.

Source Distribution

pymasking-1.0.5.tar.gz (1.1 MB view details)

Uploaded Source

Built Distribution

If you're not sure about the file name format, learn more about wheel file names.

pymasking-1.0.5-py3-none-any.whl (469.1 kB view details)

Uploaded Python 3

File details

Details for the file pymasking-1.0.5.tar.gz.

File metadata

  • Download URL: pymasking-1.0.5.tar.gz
  • Upload date:
  • Size: 1.1 MB
  • Tags: Source
  • Uploaded using Trusted Publishing? Yes
  • Uploaded via: twine/6.1.0 CPython/3.13.12

File hashes

Hashes for pymasking-1.0.5.tar.gz
Algorithm Hash digest
SHA256 7114c2848d817c657349342635f7797db15b7d152c35c6846cf4eff1fa2d6c84
MD5 93b9a84c2e174b5712f898fb329b1988
BLAKE2b-256 b9bf2296e70deb022021d87639138132ba18c800d62948a9e6d47a6956dabd39

See more details on using hashes here.

Provenance

The following attestation bundles were made for pymasking-1.0.5.tar.gz:

Publisher: publish.yml on kirin123kirin/pymasking

Attestations: Values shown here reflect the state when the release was signed and may no longer be current.

File details

Details for the file pymasking-1.0.5-py3-none-any.whl.

File metadata

  • Download URL: pymasking-1.0.5-py3-none-any.whl
  • Upload date:
  • Size: 469.1 kB
  • Tags: Python 3
  • Uploaded using Trusted Publishing? Yes
  • Uploaded via: twine/6.1.0 CPython/3.13.12

File hashes

Hashes for pymasking-1.0.5-py3-none-any.whl
Algorithm Hash digest
SHA256 e5069e0229f9e6c327af88156c41d57e2d9594d3f1f6b4471f304403378da371
MD5 c724dc41c132f010218a95071700b756
BLAKE2b-256 227c3376199cbdef9228bc336777834cc84df2e10f884769d951f5fa122b56a1

See more details on using hashes here.

Provenance

The following attestation bundles were made for pymasking-1.0.5-py3-none-any.whl:

Publisher: publish.yml on kirin123kirin/pymasking

Attestations: Values shown here reflect the state when the release was signed and may no longer be current.

Supported by

AWS Cloud computing and Security Sponsor Datadog Monitoring Depot Continuous Integration Fastly CDN Google Download Analytics Pingdom Monitoring Sentry Error logging StatusPage Status page