Skip to main content

DSGVO-konforme Dokument-Redaktion mit KI - Erkennt und schwärzt personenbezogene Daten

Project description

German-Privacy-Shield

DSGVO-konforme Dokument-Redaktion mit KI

Erkennt und schwärzt personenbezogene Daten (PII) in deutschen Dokumenten automatisch. Läuft 100% lokal mit Ollama - keine Cloud, keine Datenübertragung.

Highlights

  • 100% Lokal - Läuft komplett auf Ihrer Hardware mit Ollama
  • DSGVO-konform - Basiert auf Art. 4 DSGVO, Art. 6 DSGVO, Par. 26 BDSG
  • Smart Knowledge Injection - DSGVO-Wissen direkt im Modell integriert
  • Multi-Mode - Drei Sicherheitsstufen (strict, balanced, loose)
  • Dokumenttyp-Erkennung - Optimiert für Rechnungen, Verträge, Ausweise, etc.
  • Nur 1.9GB - Läuft auf jeder Consumer-GPU und CPUs

Installation

pip install german-privacy-shield

Voraussetzungen

  1. Ollama installieren: https://ollama.com
  2. Modell laden:
ollama pull Keyvan/german-privacy-shield

Schnellstart

Python API

from german_privacy_shield import GermanPrivacyShield, Redactor, PrivacyMode

# PII-Erkennung
shield = GermanPrivacyShield(mode=PrivacyMode.BALANCED)
result = shield.detect_pii("rechnung.png")

for pii in result.pii_items:
    print(f"[{pii.label}] {pii.text}")

# Dokument schwärzen
redactor = Redactor(mode=PrivacyMode.STRICT)
result = redactor.redact("rechnung.png", "rechnung_redacted.png")
print(f"Geschwärzt: {result.pii_count} PIIs")

CLI

# PII-Erkennung
german-privacy-shield detect rechnung.png

# Dokument schwärzen
german-privacy-shield redact rechnung.png -o rechnung_redacted.png

# Mit strenger Sicherheitsstufe
german-privacy-shield redact dokument.png --mode strict

# Batch-Verarbeitung
german-privacy-shield batch ./input/ ./output/

Sicherheitsstufen

Modus Beschreibung Anwendungsfall
strict Alle PIIs, Unterschriften, Fotos Maximaler Datenschutz, AI-Training
balanced Namen, Adressen, Bankdaten Standard DSGVO-Compliance
loose Nur IBAN, Steuer-ID, Sozialvers. Minimale Schwärzung

Erkannte PII-Kategorien

  • Identität: Namen, Geburtsdaten, Ausweisnummern
  • Kontakt: Adressen, Telefon, E-Mail
  • Finanzen: IBAN, BIC, Kontonummern, Beträge
  • Biometrie: Unterschriften, Fotos, Gesichter
  • Gesundheit: Diagnosen, Versicherungsnummern
  • Arbeit: Personalnummern, Gehalt
  • Steuern: Steuernummern, Steuer-ID

Dokumenttypen

Das Modell ist für folgende Dokumenttypen optimiert:

  • invoice - Rechnungen
  • contract - Verträge
  • id_card - Ausweise und Reisepässe
  • tax - Steuerbescheide
  • medical - Arztbriefe und medizinische Dokumente
from german_privacy_shield import Redactor, DocumentType

redactor = Redactor()
result = redactor.redact("rechnung.png", doc_type=DocumentType.INVOICE)

API Referenz

GermanPrivacyShield

class GermanPrivacyShield:
    def __init__(
        self,
        model: str = "german-privacy-shield",
        mode: PrivacyMode = PrivacyMode.BALANCED,
        host: Optional[str] = None  # Ollama Host URL
    )

    def detect_pii(
        self,
        image_path: str,
        doc_type: Optional[DocumentType] = None,
        custom_rules: Optional[List[str]] = None
    ) -> RedactionResult

Redactor

class Redactor(GermanPrivacyShield):
    def redact(
        self,
        image_path: str,
        output_path: Optional[str] = None,
        doc_type: Optional[DocumentType] = None,
        custom_rules: Optional[List[str]] = None,
        draw_labels: bool = False
    ) -> RedactionResult

    def redact_batch(
        self,
        input_dir: str,
        output_dir: str,
        pattern: str = "*.png"
    ) -> List[RedactionResult]

Rechtlicher Hintergrund

German-Privacy-Shield basiert auf:

  • Art. 4 DSGVO - Definition personenbezogener Daten
  • Art. 6 DSGVO - Rechtmäßigkeit der Verarbeitung
  • Par. 26 BDSG - Pseudonymisierung und Anonymisierung
  • Par. 22 BDSG - Besondere Kategorien (Gesundheit, Religion)

Performance

Hardware Zeit pro Dokument
RTX 4060 8GB ~5 Sekunden
RTX 3060 12GB ~6 Sekunden
CPU (keine GPU) ~15 Sekunden

Systemanforderungen

  • Python 3.9+
  • Ollama v0.1.0+
  • 4GB+ VRAM (GPU) oder 8GB+ RAM (CPU)
  • 2GB Speicherplatz für Modell

Verwandte Projekte

Lizenz

Apache 2.0

Autor

Keyvan Hardani - keyvan.ai


Made with privacy in Germany

Project details


Download files

Download the file for your platform. If you're not sure which to choose, learn more about installing packages.

Source Distribution

german_privacy_shield-0.1.0.tar.gz (13.0 kB view details)

Uploaded Source

Built Distribution

If you're not sure about the file name format, learn more about wheel file names.

german_privacy_shield-0.1.0-py3-none-any.whl (12.9 kB view details)

Uploaded Python 3

File details

Details for the file german_privacy_shield-0.1.0.tar.gz.

File metadata

  • Download URL: german_privacy_shield-0.1.0.tar.gz
  • Upload date:
  • Size: 13.0 kB
  • Tags: Source
  • Uploaded using Trusted Publishing? Yes
  • Uploaded via: twine/6.1.0 CPython/3.13.7

File hashes

Hashes for german_privacy_shield-0.1.0.tar.gz
Algorithm Hash digest
SHA256 cf2e7f239f9a22ae01ffd41d35d4a494524d0ce6174ef452d4cf5fdb28d382c6
MD5 37197d64a5615f561970646b0b70bf76
BLAKE2b-256 c2833f1ef725c4ba43019b10eb084663b012708651c6a28d00b69885a2ac2b25

See more details on using hashes here.

Provenance

The following attestation bundles were made for german_privacy_shield-0.1.0.tar.gz:

Publisher: publish.yml on Keyvanhardani/german-privacy-shield

Attestations: Values shown here reflect the state when the release was signed and may no longer be current.

File details

Details for the file german_privacy_shield-0.1.0-py3-none-any.whl.

File metadata

File hashes

Hashes for german_privacy_shield-0.1.0-py3-none-any.whl
Algorithm Hash digest
SHA256 536716709b05601206176117cbf81af81d0effbc8244215f33055bafab4ff492
MD5 684e6d226031e8efd37c8d74bab1b327
BLAKE2b-256 97e842184dd3d3f43195e6fc98614e7e2b1c828967889d8b09834a97ab6e0589

See more details on using hashes here.

Provenance

The following attestation bundles were made for german_privacy_shield-0.1.0-py3-none-any.whl:

Publisher: publish.yml on Keyvanhardani/german-privacy-shield

Attestations: Values shown here reflect the state when the release was signed and may no longer be current.

Supported by

AWS Cloud computing and Security Sponsor Datadog Monitoring Depot Continuous Integration Fastly CDN Google Download Analytics Pingdom Monitoring Sentry Error logging StatusPage Status page