Detect tabular files column content

These details have not been verified by PyPI

Project links

Source

Project description

CSV Detective

This is a package to automatically detect column content in tabular files. The script reads either the whole file or the first few rows and performs various checks to see for each column if it matches with various content types. This is currently done through regex and string comparison.

Currently supported file types: csv, xls, xlsx, ods.

You can also directly feed the URL of a remote file (from data.gouv.fr for instance).

How To ?

Install the package

You need to have python >= 3.9 installed. We recommend using a virtual environement.

pip install csv-detective

Detect some columns

Say you have a tabular file located at file_path. This is how you could use csv_detective:

# Import the csv_detective package
from csv_detective import routine
import os # for this example only

# Replace by your file path
file_path = os.path.join('.', 'tests', 'code_postaux_v201410.csv')

# Open your file and run csv_detective
inspection_results = routine(
  file_path, # or file URL
  num_rows=-1, # Value -1 will analyze all lines of your file, you can change with the number of lines you wish to analyze
  save_results=False, # Default False. If True, it will save result output into the same directory as the analyzed file, using the same name as your file and .json extension
  output_profile=True, # Default False. If True, returned dict will contain a property "profile" indicating profile (min, max, mean, tops...) of every column of you csv
  output_schema=True, # Default False. If True, returned dict will contain a property "schema" containing basic [tableschema](https://specs.frictionlessdata.io/table-schema/) of your file. This can be use to validate structure of other csv which should match same structure. 
)

So What Do You Get ?

Output

The program creates a Python dictionnary with the following information :

{
    "encoding": "windows-1252", 			        # Encoding detected
    "separator": ";",						# Detected CSV separator
    "header_row_idx": 0					# Index of the header (aka how many lines to skip to get it)
    "headers": ['code commune INSEE', 'nom de la commune', 'code postal', "libellé d'acheminement"], # Header row
    "total_lines": 42,					# Number of rows (excluding header)
    "nb_duplicates": 0,					# Number of exact duplicates in rows
    "heading_columns": 0,					# Number of heading columns
    "trailing_columns": 0,					# Number of trailing columns
    "categorical": ['Code commune']         # Columns that contain less than 25 different values (arbitrary threshold)
    "columns": { # Property that conciliate detection from labels and content of a column
        "Code commune": {
            "python_type": "string",
            "format": "code_commune_insee",
            "score": 1.0
        },
    },
    "columns_labels": { # Property that return detection from header columns
        "Code commune": {
            "python_type": "string",
            "format": "code_commune_insee",
            "score": 0.5
        },
    },
    "columns_fields": { # Property that return detection from content columns
        "Code commune": {
            "python_type": "string",
            "format": "code_commune_insee",
            "score": 1.25
        },
    },
    "profile": {
      "column_name" : {
        "min": 1, # only int and float
        "max: 12, # only int and float
        "mean": 5, # only int and float
        "std": 5, # only int and float
        "tops": [  # 10 most frequent values in the column
          "xxx",
          "yyy",
          "..."
        ],
        "nb_distinct": 67, # number of distinct values
        "nb_missing_values": 102 # number of empty cells in the column
      }
    },
    "schema": { # TableSchema of the file if `output_schema` was set to `True`
      "$schema": "https://frictionlessdata.io/schemas/table-schema.json",
      "name": "",
      "title": "",
      "description": "",
      "countryCode": "FR",
      "homepage": "",
      "path": "https://github.com/datagouv/csv-detective",
      "resources": [],
      "sources": [
        {"title": "Spécification Tableschema", "path": "https://specs.frictionlessdata.io/table-schema"},
        {"title": "schema.data.gouv.fr", "path": "https://schema.data.gouv.fr"}
      ],
      "created": "2023-02-10",
      "lastModified": "2023-02-10",
      "version": "0.0.1",
      "contributors": [
        {"title": "Table schema bot", "email": "schema@data.gouv.fr", "organisation": "data.gouv.fr", "role": "author"}
      ],
      "fields": [
        {
          "name": "Code commune",
          "description": "Le code INSEE de la commune",
          "example": "23150",
          "type": "string",
          "formatFR": "code_commune_insee",
          "constraints": {
            "required": False,
            "pattern": "^([013-9]\\d|2[AB1-9])\\d{3}$",
          }
        }
      ]
    }
}

The output slightly differs depending on the file format:

csv files have encoding and separator
xls, xls, ods files have engine and sheet_name

What Formats Can Be Detected

Includes :

Communes, Départements, Régions, Pays
Codes Communes, Codes Postaux, Codes Departement, ISO Pays
Codes CSP, Description CSP, SIREN
E-Mails, URLs, Téléphones FR
Years, Dates, Jours de la Semaine FR
UUIDs, Mongo ObjectIds

Format detection and scoring

For each column, 3 scores are computed for each format, the higher the score, the more likely the format:

the field score based on the values contained in the column (0.0 to 1.0).
the label score based on the header of the column (0.0 to 1.0).
the overall score, computed as field_score * (1 + label_score/2) (0.0 to 1.5).

The overall score computation aims to give more weight to the column contents while still leveraging the column header.

`limited_output` - Select the output mode you want for json report

This option allows you to select the output mode you want to pass. To do so, you have to pass a limited_output argument to the routine function. This variable has two possible values:

limited_output defaults to True which means report will contain only detected column formats based on a pre-selected threshold proportion in data. Report result is the standard output (an example can be found above in 'Output' section). Only the format with highest score is present in the output.
limited_output=False means report will contain a full list of all column format possibilities for each input data columns with a value associated which match to the proportion of found column type in data. With this report, user can adjust its rules of detection based on a specific threshold and has a better vision of quality detection for each columns. Results could also be easily transformed into a dataframe (columns types in column / column names in rows) for analysis and test.

Improvement suggestions

Smarter refactors
Improve performances
Test other ways to load and process data (pandas alternatives)
Add more and more detection modules...

Related ideas:

store column names to make a learning model based on column names for (possible pre-screen)
normalising data based on column prediction
entity resolution (good luck...)

Why Could This Be of Any Use ?

Organisations such as data.gouv.fr aggregate huge amounts of un-normalised data. Performing cross-examination across datasets can be difficult. This tool could help enrich the datasets metadata and facilitate linking them together.

udata-hydra is a crawler that checks, analyzes (using csv-detective) and APIfies all tabular files from data.gouv.fr.

An early version of this analysis of all resources on data.gouv.fr can be found here.

Linting

Remember to format, lint, and sort imports with Ruff before committing (checks will remind you anyway):

pip install .[dev]
ruff check --fix .
ruff format .

Release

The release process uses bumpx.

pip install -e .[dev]

Process

bumpx will handle bumping the version according to your command (patch, minor, major)
It will update the CHANGELOG according to the new version being published
It will push a tag with the given version to github
CircleCI will pickup this tag, build the package and publish it to pypi
bumpx will have everything ready for the next version (version, changelog...)

Dry run

bumpx -d -v

Release

This will release a patch version:

bumpx -v

Project details

These details have not been verified by PyPI

Project links

Source

Release history Release notifications | RSS feed

0.11.3.dev17 pre-release

Jun 24, 2026

0.11.3.dev16 pre-release

Jun 24, 2026

0.11.3.dev15 pre-release

Jun 22, 2026

0.11.3.dev14 pre-release

Jun 16, 2026

0.11.3.dev11 pre-release

Jun 11, 2026

0.11.3.dev10 pre-release

Jun 3, 2026

0.11.3.dev9 pre-release

Jun 3, 2026

0.11.3.dev8 pre-release

May 12, 2026

0.11.3.dev7 pre-release

Apr 29, 2026

0.11.3.dev4 pre-release

Apr 8, 2026

0.11.3.dev3 pre-release

Apr 8, 2026

0.11.3.dev2 pre-release

Apr 8, 2026

0.11.3.dev1 pre-release

Apr 7, 2026

0.11.2

Apr 3, 2026

0.11.2.dev2 pre-release

Apr 2, 2026

0.11.2.dev1 pre-release

Apr 2, 2026

0.11.1

Apr 1, 2026

0.11.1.dev7 pre-release

Apr 1, 2026

0.11.1.dev6 pre-release

Mar 31, 2026

0.11.1.dev5 pre-release

Mar 24, 2026

0.11.1.dev4 pre-release

Mar 23, 2026

0.11.1.dev3 pre-release

Mar 18, 2026

0.11.1.dev2 pre-release

Mar 18, 2026

0.11.1.dev1 pre-release

Mar 12, 2026

0.11.0

Mar 9, 2026

0.10.12674 yanked

Jan 15, 2026

Reason this release was yanked:

wrong version number

0.10.2549 yanked

Dec 4, 2025

Reason this release was yanked:

Wrong version number

0.10.5.dev22 pre-release

Mar 4, 2026

0.10.5.dev21 pre-release

Mar 3, 2026

0.10.5.dev20 pre-release

Mar 3, 2026

0.10.5.dev19 pre-release

Mar 3, 2026

0.10.5.dev18 pre-release

Mar 3, 2026

0.10.5.dev17 pre-release

Mar 3, 2026

0.10.5.dev16 pre-release

Mar 3, 2026

0.10.5.dev15 pre-release

Mar 3, 2026

0.10.5.dev14 pre-release

Mar 3, 2026

0.10.5.dev13 pre-release

Mar 3, 2026

0.10.5.dev12 pre-release

Mar 3, 2026

0.10.5.dev11 pre-release

Mar 3, 2026

0.10.5.dev10 pre-release

Mar 3, 2026

0.10.5.dev9 pre-release

Mar 3, 2026

0.10.5.dev8 pre-release

Mar 3, 2026

0.10.5.dev6 pre-release

Feb 18, 2026

0.10.5.dev5 pre-release

Feb 18, 2026

0.10.5.dev4 pre-release

Feb 18, 2026

0.10.5.dev3 pre-release

Feb 17, 2026

0.10.5.dev2 pre-release

Feb 17, 2026

0.10.5.dev1 pre-release

Feb 17, 2026

0.10.4

Feb 9, 2026

0.10.4.dev3 pre-release

Feb 6, 2026

0.10.4.dev2 pre-release

Feb 3, 2026

0.10.4.dev1 pre-release

Feb 3, 2026

0.10.3

Jan 27, 2026

0.10.3.dev7 pre-release

Jan 26, 2026

0.10.3.dev6 pre-release

Jan 26, 2026

0.10.3.dev5 pre-release

Jan 26, 2026

0.10.3.dev4 pre-release

Jan 26, 2026

0.10.3.dev3 pre-release

Jan 26, 2026

0.10.3.dev2 pre-release

Jan 21, 2026

0.10.3.dev1 pre-release

Jan 20, 2026

0.10.2

Jan 16, 2026

0.10.2.dev4 pre-release

Jan 16, 2026

0.10.2.dev3 pre-release

Jan 16, 2026

0.10.2.dev2 pre-release

Jan 15, 2026

0.10.2.dev1 pre-release

Jan 15, 2026

0.10.1

Jan 15, 2026

0.10.1.dev2669 pre-release

Jan 14, 2026

0.10.1.dev2660 pre-release

Dec 15, 2025

0.10.1.dev2651 pre-release

Dec 15, 2025

0.10.1.dev2642 pre-release

Dec 15, 2025

0.10.1.dev2629 pre-release

Dec 12, 2025

0.10.1.dev2616 pre-release

Dec 12, 2025

0.10.1.dev2599 pre-release

Dec 12, 2025

0.10.1.dev2590 pre-release

Dec 9, 2025

0.10.1.dev2581 pre-release

Dec 5, 2025

0.10.1.dev2576 pre-release

Dec 5, 2025

0.10.1.dev2559 pre-release

Dec 5, 2025

0.10.0

Dec 4, 2025

0.9.3.dev2514 pre-release

Dec 4, 2025

0.9.3.dev2505 pre-release

Dec 4, 2025

0.9.3.dev2500 pre-release

Dec 4, 2025

0.9.3.dev2495 pre-release

Dec 4, 2025

0.9.3.dev2486 pre-release

Dec 3, 2025

0.9.3.dev2473 pre-release

Dec 3, 2025

0.9.3.dev2456 pre-release

Dec 3, 2025

0.9.3.dev2447 pre-release

Dec 3, 2025

0.9.3.dev2438 pre-release

Dec 3, 2025

0.9.3.dev2409 pre-release

Dec 3, 2025

0.9.3.dev2400 pre-release

Dec 3, 2025

0.9.3.dev2391 pre-release

Dec 2, 2025

0.9.3.dev2382 pre-release

Dec 2, 2025

0.9.3.dev2361 pre-release

Dec 2, 2025

0.9.3.dev2348 pre-release

Dec 2, 2025

0.9.3.dev2319 pre-release

Dec 2, 2025

0.9.3.dev2258 pre-release

Nov 25, 2025

0.9.3.dev2241 pre-release

Nov 25, 2025

0.9.3.dev2232 pre-release

Nov 24, 2025

0.9.3.dev2215 pre-release

Nov 14, 2025

0.9.3.dev2140 pre-release

Oct 8, 2025

0.9.3.dev2123 pre-release

Oct 8, 2025

0.9.3.dev2090 pre-release

Oct 6, 2025

0.9.3.dev2057 pre-release

Sep 30, 2025

0.9.3.dev2052 pre-release

Sep 30, 2025

0.9.3.dev2039 pre-release

Sep 5, 2025

0.9.3.dev2010 pre-release

Sep 1, 2025

0.9.3.dev1977 pre-release

Aug 29, 2025

This version

0.9.3.dev1948 pre-release

Aug 28, 2025

0.9.3.dev1915 pre-release

Aug 27, 2025

0.9.3.dev1901 pre-release

Aug 26, 2025

0.9.3.dev0 pre-release

Oct 9, 2025

0.9.2

Aug 26, 2025

0.9.2.dev1896 pre-release

Aug 26, 2025

0.9.2.dev1874 pre-release

Aug 26, 2025

0.9.1 yanked

Aug 26, 2025

0.9.1.dev1869 pre-release

Aug 26, 2025

0.9.1.dev1860 pre-release

Aug 26, 2025

0.9.1.dev1847 pre-release

Aug 25, 2025

0.9.1.dev1830 pre-release

Aug 22, 2025

0.9.1.dev1801 pre-release

Aug 21, 2025

0.9.1.dev1792 pre-release

Aug 20, 2025

0.9.1.dev1734 pre-release

Jul 31, 2025

0.9.0

Jul 31, 2025

0.8.1.dev1729 pre-release

Jul 31, 2025

0.8.1.dev1720 pre-release

Jul 31, 2025

0.8.1.dev1703 pre-release

Jul 31, 2025

0.8.1.dev1674 pre-release

Jul 31, 2025

0.8.1.dev1617 pre-release

Jul 29, 2025

0.8.1.dev1608 pre-release

Jul 28, 2025

0.8.1.dev1599 pre-release

Jul 28, 2025

0.8.1.dev1578 pre-release

Jul 25, 2025

0.8.1.dev1549 pre-release

Jun 26, 2025

0.8.1.dev1544 pre-release

Jun 26, 2025

0.8.1.dev1535 pre-release

Jun 26, 2025

0.8.1.dev1526 pre-release

Jun 26, 2025

0.8.1.dev1509 pre-release

Jun 18, 2025

0.8.1.dev1500 pre-release

Jun 17, 2025

0.8.1.dev1491 pre-release

Jun 17, 2025

0.8.1.dev1482 pre-release

Jun 17, 2025

0.8.1.dev1469 pre-release

Jun 17, 2025

0.8.1.dev1460 pre-release

Jun 12, 2025

0.8.1.dev1440 pre-release

Jun 6, 2025

0.8.1.dev1416 pre-release

Jun 3, 2025

0.8.1.dev1380 pre-release

May 23, 2025

0.8.1.dev1362 pre-release

May 20, 2025

0.8.0

May 20, 2025

0.7.5.dev1354 pre-release

May 15, 2025

0.7.5.dev1345 pre-release

May 15, 2025

0.7.5.dev1340 pre-release

May 15, 2025

0.7.5.dev1335 pre-release

May 15, 2025

0.7.5.dev1330 pre-release

May 15, 2025

0.7.5.dev1320 pre-release

May 13, 2025

0.7.5.dev1307 pre-release

May 12, 2025

0.7.5.dev1298 pre-release

Apr 24, 2025

0.7.5.dev1286 pre-release

Apr 23, 2025

0.7.5.dev1277 pre-release

Apr 23, 2025

0.7.5.dev1244 pre-release

Apr 17, 2025

0.7.5.dev1239 pre-release

Apr 17, 2025

0.7.5.dev1229 pre-release

Apr 17, 2025

0.7.5.dev1228 pre-release

Apr 17, 2025

0.7.5.dev1209 pre-release

Apr 15, 2025

0.7.5.dev1197 pre-release

Apr 14, 2025

0.7.5.dev1180 pre-release

Mar 4, 2025

0.7.5.dev1171 pre-release

Mar 4, 2025

0.7.5.dev1139 pre-release

Feb 27, 2025

0.7.5.dev1113 pre-release

Dec 16, 2024

0.7.5.dev1078 pre-release

Dec 13, 2024

0.7.5.dev1069 pre-release

Dec 11, 2024

0.7.5.dev1056 pre-release

Nov 20, 2024

0.7.5.dev1052 pre-release

Nov 20, 2024

0.7.5.dev1009 pre-release

Nov 19, 2024

0.7.5.dev980 pre-release

Nov 15, 2024

0.7.4

Nov 15, 2024

0.7.4.dev969 pre-release

Nov 14, 2024

0.7.4.dev964 pre-release

Nov 14, 2024

0.7.4.dev939 pre-release

Nov 13, 2024

0.7.4.dev922 pre-release

Nov 13, 2024

0.7.4.dev913 pre-release

Nov 13, 2024

0.7.4.dev891 pre-release

Oct 7, 2024

0.7.3

Oct 7, 2024

0.7.3.dev883 pre-release

Oct 7, 2024

0.7.3.dev866 pre-release

Sep 6, 2024

0.7.3.dev841 pre-release

Aug 27, 2024

0.7.2

Aug 27, 2024

0.7.2.dev833 pre-release

Aug 27, 2024

0.7.2.dev824 pre-release

Aug 26, 2024

0.7.2.dev819 pre-release

Aug 26, 2024

0.7.2.dev800 pre-release

Aug 7, 2024

0.7.2.dev776 pre-release

Aug 7, 2024

0.7.2.dev751 pre-release

Jun 10, 2024

0.7.2.dev724 pre-release

Mar 27, 2024

0.7.2.dev0 pre-release

Mar 27, 2024

0.7.1

Mar 27, 2024

0.7.1.dev716 pre-release

Mar 27, 2024

0.7.1.dev32 pre-release

Mar 27, 2024

0.7.1.dev17 pre-release

Mar 21, 2024

0.7.0

Mar 21, 2024

0.6.9.dev693 pre-release

Mar 8, 2024

0.6.9.dev684 pre-release

Mar 8, 2024

0.6.9.dev666 pre-release

Mar 6, 2024

0.6.9.dev657 pre-release

Mar 6, 2024

0.6.9.dev648 pre-release

Mar 6, 2024

0.6.9.dev635 pre-release

Mar 5, 2024

0.6.9.dev586 pre-release

Jan 18, 2024

0.6.9.dev0 pre-release

Mar 21, 2024

0.6.8

Jan 18, 2024

0.6.8.dev577 pre-release

Jan 18, 2024

0.6.8.dev549 pre-release

Jan 15, 2024

0.6.7

Jan 15, 2024

0.6.7.dev540 pre-release

Jan 15, 2024

0.6.7.dev523 pre-release

Jan 11, 2024

0.6.7.dev514 pre-release

Jan 4, 2024

0.6.7.dev490 pre-release

Nov 24, 2023

0.6.6

Nov 24, 2023

0.6.6.dev482 pre-release

Nov 24, 2023

0.6.6.dev477 pre-release

Nov 20, 2023

0.6.6.dev465 pre-release

Nov 17, 2023

0.6.5

Nov 17, 2023

0.6.5.dev457 pre-release

Nov 17, 2023

0.6.5.dev452 pre-release

Nov 17, 2023

0.6.5.dev431 pre-release

Oct 23, 2023

0.6.5.dev412 pre-release

Oct 18, 2023

0.6.4

Oct 18, 2023

0.6.4.dev404 pre-release

Oct 18, 2023

0.6.4.dev395 pre-release

Jul 6, 2023

0.6.4.dev390 pre-release

Jun 30, 2023

0.6.4.dev367 pre-release

Mar 23, 2023

0.6.3

Mar 23, 2023

0.6.3.dev357 pre-release

Mar 23, 2023

0.6.3.dev339 pre-release

Feb 10, 2023

0.6.2

Feb 10, 2023

0.6.1.dev331 pre-release

Feb 10, 2023

0.6.1.dev316 pre-release

Feb 10, 2023

0.6.0

Feb 10, 2023

0.5.0.dev308 pre-release

Feb 10, 2023

0.5.0.dev275 pre-release

Feb 10, 2023

0.5.0.dev249 pre-release

Feb 9, 2023

0.5.0.dev240 pre-release

Feb 8, 2023

0.4.7

Feb 7, 2023

0.4.6

Oct 13, 2022

0.4.5

Jul 28, 2022

0.4.4

Jul 13, 2022

0.4.3

May 30, 2022

0.4.2

Mar 3, 2022

0.4.1

Aug 6, 2020

0.4.0

Jul 24, 2020

0.2.1

Jun 20, 2017

Download files

Download the file for your platform. If you're not sure which to choose, learn more about installing packages.

Source Distributions

No source distribution files available for this release.See tutorial on generating distribution archives.

Built Distribution

If you're not sure about the file name format, learn more about wheel file names.

The dropdown lists show the available interpreters, ABIs, and platforms. Enable javascript to be able to filter the list of wheel files.

csv_detective-0.9.3.dev1948-py3-none-any.whl (119.7 kB view details)

Uploaded Aug 28, 2025 Python 3

File details

Details for the file csv_detective-0.9.3.dev1948-py3-none-any.whl.

File metadata

Download URL: csv_detective-0.9.3.dev1948-py3-none-any.whl
Upload date: Aug 28, 2025
Size: 119.7 kB
Tags: Python 3
Uploaded using Trusted Publishing? No
Uploaded via: twine/6.1.0 CPython/3.9.23

File hashes

Hashes for csv_detective-0.9.3.dev1948-py3-none-any.whl
Algorithm	Hash digest
SHA256	`ccc4905882c80976c692ff08930685801fbe4d236aeeba8d7e09ffc06d1fe483`
MD5	`1170d34583a2ec241bdacc32b191b3fe`
BLAKE2b-256	`b3fb28595fa5bd1c6c78f2717e045645c0747a54fa6a9b9d7272a45d3ffe4d11`

See more details on using hashes here.

csv-detective 0.9.3.dev1948

Navigation

Verified details

Maintainers

Unverified details

Project links

Meta

Project description

CSV Detective

How To ?

Install the package

Detect some columns

So What Do You Get ?

Output

What Formats Can Be Detected

Format detection and scoring

`limited_output` - Select the output mode you want for json report

Improvement suggestions

Why Could This Be of Any Use ?

Linting

Release

Process

Dry run

Release

Project details

Verified details

Maintainers

Unverified details

Project links

Meta

Release history Release notifications | RSS feed

Download files

Source Distributions

Built Distribution

File details

File metadata

File hashes

csv-detective 0.9.3.dev1948

Navigation

Verified details

Maintainers

Unverified details

Project links

Meta

Project description

CSV Detective

How To ?

Install the package

Detect some columns

So What Do You Get ?

Output

What Formats Can Be Detected

Format detection and scoring

limited_output - Select the output mode you want for json report

Improvement suggestions

Why Could This Be of Any Use ?

Linting

Release

Process

Dry run

Release

Project details

Verified details

Maintainers

Unverified details

Project links

Meta

Release history Release notifications | RSS feed

Download files

Source Distributions

Built Distribution

File details

File metadata

File hashes

`limited_output` - Select the output mode you want for json report