Conformal anomaly detection for insurance claims with BH FDR control

These details have not been verified by PyPI

Project links

Project description

insurance-conformal-fraud

Conformal anomaly detection for insurance claims with Benjamini-Hochberg FDR control.

The problem: Most fraud analytics teams run a machine learning model, pick a score threshold based on SIU capacity, and refer claims above it. There is no statistical basis for why the threshold is where it is. No one can say what proportion of referred customers are genuinely innocent. Under FCA Consumer Duty, that is becoming harder to defend.

This library solves it: Apply conformal prediction theory to convert any anomaly score into a valid p-value, then use the Benjamini-Hochberg procedure to produce a referral list where the expected proportion of genuine customers is at most alpha (default 5%). The guarantee holds in finite samples.

Installation

pip install insurance-conformal-fraud

Or with CatBoost support:

pip install insurance-conformal-fraud[catboost]

Quickstart

import numpy as np
from sklearn.ensemble import IsolationForest
from insurance_conformal_fraud import ConformalFraudScorer
from insurance_conformal_fraud.fdr import bh_procedure
from insurance_conformal_fraud.report import FraudReferralReport

# X_genuine_train: confirmed genuine claims for fitting the anomaly detector
# X_genuine_cal: separate held-out genuine claims for calibration
# X_test: new claims to evaluate

scorer = ConformalFraudScorer(detector=IsolationForest(n_estimators=200))
scorer.fit(X_genuine_train)
scorer.calibrate(X_genuine_cal)
p_values = scorer.predict(X_test)

result = bh_procedure(p_values, alpha=0.05)
# result.rejected: boolean array — True means refer to SIU
# result.n_rejected: how many claims referred
# At most 5% of referred claims are expected to be genuine, in finite samples.

report = FraudReferralReport(p_values=p_values, bh_result=result)
report.to_html("referrals.html")

Key concepts

Conformal p-values: For a test claim with anomaly score s_i, the conformal p-value is the fraction of calibration scores at least as extreme. Under exchangeability (calibration and test genuine claims come from the same distribution), this is uniformly distributed under the null.

BH FDR control: Benjamini and Hochberg (1995) proved that sorting p-values and applying a linear threshold controls the false discovery rate at level alpha * pi_0, where pi_0 is the proportion of genuine claims. Since most claims are genuine (fraud rate 1-4%), this is close to alpha.

What you need: A set of confirmed genuine claims as calibration data. These must be claims you know are genuine — not just uninvestigated claims.

Three differentiators over generic conformal tools

1. Mondrian stratification by claim type

TPBI, Accidental Damage, and Theft claims have completely different score distributions. Pooling them in one calibration set violates exchangeability. MondrianFraudScorer maintains separate calibration sets per stratum:

from insurance_conformal_fraud import MondrianFraudScorer

scorer = MondrianFraudScorer(detector=IsolationForest())
scorer.fit(X_train, strata=train_claim_types)        # e.g. ["TPBI", "AD", "TPBI", ...]
scorer.calibrate(X_cal, strata=cal_claim_types)
p_values = scorer.predict(X_test, strata=test_claim_types)

2. Integrative conformal p-values using known fraud cases

Standard conformal novelty detection ignores your SIU case files. IntegrativeConformalScorer uses confirmed fraud labels (Lemos et al. 2024, JRSS-B) to reweight the calibration distribution, boosting power for new fraud resembling historical patterns:

from insurance_conformal_fraud import IntegrativeConformalScorer

scorer = IntegrativeConformalScorer(detector=IsolationForest())
scorer.fit(X_genuine_train)
scorer.calibrate(X_cal_with_fraud, y_fraud=labels)   # labels: 1=fraud, 0=genuine
p_values = scorer.predict(X_test)

3. IFB Fisher combination — consortium-level detection without sharing data

Fraud rings operate across multiple insurers. Fisher's method combines per-insurer p-values into a single test statistic. Insurers share only p-values (one number per claim), not raw data:

from insurance_conformal_fraud import fisher_combine

# Each insurer runs their own scorer and shares p-values
combined_p = fisher_combine([p_insurer_a, p_insurer_b, p_insurer_c])
result = bh_procedure(combined_p, alpha=0.05)

Modules

Module	Class/Function	Purpose
`conformal_scorer`	`ConformalFraudScorer`	Core conformal p-values from any sklearn anomaly detector
`integrative`	`IntegrativeConformalScorer`	Boost power using confirmed fraud cases (Lemos et al. 2024)
`mondrian`	`MondrianFraudScorer`	Stratified calibration per claim type
`fdr`	`bh_procedure`, `storey_bh`, `adjusted_p_values`	FDR control procedures
`consortium`	`fisher_combine`, `stouffer_combine`	Multi-insurer p-value combination
`report`	`FraudReferralReport`	HTML/JSON/Polars output with Consumer Duty statement

Consumer Duty compliance

Every FraudReferralReport includes a Consumer Duty statement:

"Under the Benjamini-Hochberg procedure at FDR level 5%, the expected proportion of genuinely legitimate claims in this referral list is at most 5%. This guarantee holds in finite samples under exchangeability of the calibration set."

This is a mathematically defensible answer to the question "how many innocent customers are you investigating?"

Calibration data requirements

The calibration set must contain confirmed genuine claims. Key risks:

Temporal drift: Fraud patterns change. Use a rolling calibration window (last 12-24 months). Monitor with conformal martingales.
Label contamination: Including undetected fraud in the calibration set biases scores but does not invalidate p-value coverage — it reduces power.
Stratification failure: Do not pool TPBI, AD, and Theft. Use MondrianFraudScorer.

References

Bates, Candès, Lei, Romano, Sesia (2023). Testing for outliers with conformal p-values. Annals of Statistics 51(1):149-178.
Benjamini & Hochberg (1995). Controlling the false discovery rate. JRSS-B 57(1):289-300.
Lemos et al. (2024). Integrative conformal p-values for out-of-distribution testing with labelled outliers. JRSS Series B 86(3):671. arXiv:2208.11111.
Hennhöfer & Preisach (2024). nonconform: Conformal anomaly detection. IEEE ICKG 2024.

License

MIT

Project details

These details have not been verified by PyPI

Project links

Release history Release notifications | RSS feed

This version

0.1.0

Mar 11, 2026

Download files

Download the file for your platform. If you're not sure which to choose, learn more about installing packages.

Source Distribution

insurance_conformal_fraud-0.1.0.tar.gz (33.8 kB view details)

Uploaded Mar 11, 2026 Source

Built Distribution

If you're not sure about the file name format, learn more about wheel file names.

The dropdown lists show the available interpreters, ABIs, and platforms. Enable javascript to be able to filter the list of wheel files.

insurance_conformal_fraud-0.1.0-py3-none-any.whl (25.5 kB view details)

Uploaded Mar 11, 2026 Python 3

File details

Details for the file insurance_conformal_fraud-0.1.0.tar.gz.

File metadata

Download URL: insurance_conformal_fraud-0.1.0.tar.gz
Upload date: Mar 11, 2026
Size: 33.8 kB
Tags: Source
Uploaded using Trusted Publishing? No
Uploaded via: uv/0.10.8 {"installer":{"name":"uv","version":"0.10.8","subcommand":["publish"]},"python":null,"implementation":{"name":null,"version":null},"distro":{"name":"Ubuntu","version":"24.04","id":"noble","libc":null},"system":{"name":null,"release":null},"cpu":null,"openssl_version":null,"setuptools_version":null,"rustc_version":null,"ci":null}

File hashes

Hashes for insurance_conformal_fraud-0.1.0.tar.gz
Algorithm	Hash digest
SHA256	`ff0cd65cf17bd4273360252a3add87f16969260081c29e19796bf335d253a9af`
MD5	`9a5afae380565899dcffb6d0129be98c`
BLAKE2b-256	`0ec3daa357ac3949448399f73719bee4efc7b071e4e5961f875a4e4805fd1dc5`

See more details on using hashes here.

File details

Details for the file insurance_conformal_fraud-0.1.0-py3-none-any.whl.

File metadata

Download URL: insurance_conformal_fraud-0.1.0-py3-none-any.whl
Upload date: Mar 11, 2026
Size: 25.5 kB
Tags: Python 3
Uploaded using Trusted Publishing? No
Uploaded via: uv/0.10.8 {"installer":{"name":"uv","version":"0.10.8","subcommand":["publish"]},"python":null,"implementation":{"name":null,"version":null},"distro":{"name":"Ubuntu","version":"24.04","id":"noble","libc":null},"system":{"name":null,"release":null},"cpu":null,"openssl_version":null,"setuptools_version":null,"rustc_version":null,"ci":null}

File hashes

Hashes for insurance_conformal_fraud-0.1.0-py3-none-any.whl
Algorithm	Hash digest
SHA256	`6e99f41d74d36d870daa7f585cc37c3ecffae5e4319f82d395ba534ebfbac3fe`
MD5	`a587c6a395b4071bd9df2136aff14efa`
BLAKE2b-256	`2bb9c91108da9816fe9ddd4921732c2ccd06c1e4edbce57f1a6b1a39be99fad3`

See more details on using hashes here.

insurance-conformal-fraud 0.1.0

Navigation

Verified details

Maintainers

Unverified details

Project links

Meta

Classifiers

Project description

insurance-conformal-fraud

Installation

Quickstart

Key concepts

Three differentiators over generic conformal tools

1. Mondrian stratification by claim type

2. Integrative conformal p-values using known fraud cases

3. IFB Fisher combination — consortium-level detection without sharing data

Modules

Consumer Duty compliance

Calibration data requirements

References

License

Project details

Verified details

Maintainers

Unverified details

Project links

Meta

Classifiers

Release history Release notifications | RSS feed

Download files

Source Distribution

Built Distribution

File details

File metadata

File hashes

File details

File metadata

File hashes