Skip to main content

A tool to generate LOD datasets for gBizINFO

Project description

gBizINFO-LOD

PyPI version

gBizINFOが提供するCSV形式のデータからLinked Open Data(LOD)データセットを生成するためのツール

生成したデータセットは gbizinfo-lod-dataset で公開しています。

また、公開SPARQLエンドポイントも以下で提供しています。

https://metadata.moe/project/gbizinfo/

使い方

インストール

pip install gbizinfo-lod

CSVファイルダウンロード

変換元となる法人活動情報語彙対応版CSVファイル群のダウンロード (注: 法人基本情報は全件の一括ダウンロードが不可のため時間がかかる)

gbilod download ./work_dir/

CSV-RDF変換

ダウンロードしたCSVファイル群をRDFに変換

gbilod convert ./work_dir/ -o ./output_dir/

Graph URI毎にファイルが出力される(デフォルトはN-Quads形式)

その他オプションは gbilod convert --help を参照

変換仕様

基本的には以下の仕様書に基づく。

仕様書との差異

仕様書上の定義と異なる、または未定義である箇所を以下にまとめる。

  • 法人番号を表す ic:ID/ic:体系 の目的語は <http://imi.go.jp/ns/code_id/id/corporateNumber>
ex:Hojin <http://imi.go.jp/ns/core/rdf#ID> [
         <http://imi.go.jp/ns/core/rdf#体系> <http://imi.go.jp/ns/code_id/id/corporateNumber> ;
         <http://imi.go.jp/ns/core/rdf#識別値> "0123456789123" ;
         a <http://imi.go.jp/ns/core/rdf#ID型>
] .
  • 職場情報および財務情報における hj:数量コレクション/hj:数量/hj:指標 の目的語はic:コード型の型付リテラル
    • 提供されていたRDFデータがこのようになっており、互換性確保のためこの仕様を踏襲する。
    • 本来はリテラルではなく、 http://hojin-info.go.jp/graph/commonCode グラフ内で定義されているリソースへのURI参照を期待したものと思われる。
ex:HojinShokuba <http://hojin-info.go.jp/ns/domain/biz/1#数量コレクション> [
    <http://hojin-info.go.jp/ns/domain/biz/1#数量> [
        <http://hojin-info.go.jp/ns/domain/biz/1#指標> "http://hojin-info.go.jp/code/職場情報/企業規模"^^<http://imi.go.jp/ns/core/rdf#コード型> ;
        <http://imi.go.jp/ns/core/rdf#単位表記> "人" ;
        <http://imi.go.jp/ns/core/rdf#数値> 100.0 ;
        a <http://hojin-info.go.jp/ns/domain/biz/1#数量型>
    ]
] .

Graph URI

  • 法人基本情報: http://hojin-info.go.jp/graph/hojin
  • 補助金情報: http://hojin-info.go.jp/graph/hojyokin
  • 調達情報: http://hojin-info.go.jp/graph/chotatsu
  • 表彰情報: http://hojin-info.go.jp/graph/hyosho
  • 届出認定情報: http://hojin-info.go.jp/graph/todokede
  • 特許情報: http://hojin-info.go.jp/graph/tokkyo
  • 職場情報: http://hojin-info.go.jp/graph/shokuba
  • 財務情報: http://hojin-info.go.jp/graph/zaimu
  • 共通コード: http://hojin-info.go.jp/graph/commonCode

背景

かつてgBizINFOではSPARQL APIが提供されており、APIを利用することでRDF形式のデータにアクセスすることができた。 また、RDFストアとしてAmazon Neptuneを採用し[^1]、実践的な運用ノウハウが公開されるなど[^2]、システム面でも有用な事例であった。

一方で、野村総合研究所が落札した「令和4年度経済産業省デジタルプラットフォーム構築事業( Gビズインフォを通じた効果的なオープンデータ利活用の促進に向けた調査) 」の報告書 (2023年3月17日) によると、LOD形式でのデータ提供について以下のような実態を指摘しており、公共データ分野でのLODの一定のニーズは認めているものの、SPARQL APIエンドポイントの存続有無の検討が必要と結論づけている。

現行Gビズインフォにおける、利用者の期待と現状
機能 - SPARQL API
実態: 法人データにおいてはLODの普及度が低いため、活用されているとは言いがたい。
利用者からの評価: △ インタビュー先のうち多数は知らない・知っているが使いにくいので使わないといった評価であった。

2023年10月31日にはgBizINFOサイト上でRDF形式データの提供廃止が告知され、2024年4月1日に完全廃止となった[^3]。

[^1]: AWS 導入事例:経済産業省 [^2]: 経済産業省のデジタル化とgBizINFOの展開 2020年8⽉ [^3]: RDF廃止(サービス終了)のお知らせ

License

本リポジトリに含まれる commonCode.ttl および commonCode.nq を除くリソースは、MIT Licenseで提供される。

commonCode.ttl および commonCode.nq は、「gBizINFO」(経済産業省)のSPARQL APIより取得・加工して作成したもので、経済産業省 利用規約に従い利用するものである。

Project details


Download files

Download the file for your platform. If you're not sure which to choose, learn more about installing packages.

Source Distribution

gbizinfo_lod-0.2.2.tar.gz (16.4 kB view details)

Uploaded Source

Built Distribution

gbizinfo_lod-0.2.2-py3-none-any.whl (21.7 kB view details)

Uploaded Python 3

File details

Details for the file gbizinfo_lod-0.2.2.tar.gz.

File metadata

  • Download URL: gbizinfo_lod-0.2.2.tar.gz
  • Upload date:
  • Size: 16.4 kB
  • Tags: Source
  • Uploaded using Trusted Publishing? No
  • Uploaded via: poetry/1.7.1 CPython/3.12.1 Linux/6.5.0-1025-azure

File hashes

Hashes for gbizinfo_lod-0.2.2.tar.gz
Algorithm Hash digest
SHA256 f2f0708aea2335d0721d8e985b1b581242b9132e5d03ba5f1ceb04ab3ce2f276
MD5 27de5b29eecc994d080a77c1abeb0d83
BLAKE2b-256 908ffb6a0cbc8c165aa5803af3a1578d067389b2d7f77b5b73629e22c3739ff5

See more details on using hashes here.

File details

Details for the file gbizinfo_lod-0.2.2-py3-none-any.whl.

File metadata

  • Download URL: gbizinfo_lod-0.2.2-py3-none-any.whl
  • Upload date:
  • Size: 21.7 kB
  • Tags: Python 3
  • Uploaded using Trusted Publishing? No
  • Uploaded via: poetry/1.7.1 CPython/3.12.1 Linux/6.5.0-1025-azure

File hashes

Hashes for gbizinfo_lod-0.2.2-py3-none-any.whl
Algorithm Hash digest
SHA256 a13d6fef6d8f094572059ca5ddf59a9d8d7e2c104317137a9b6b3ed9fc9d500d
MD5 716ff94b0fbc75380f6fe1978e9c3915
BLAKE2b-256 06a43d3cffcba683cfe31f65ffe33e2b7d960dbd513b78ab5aae694c41e6094c

See more details on using hashes here.

Supported by

AWS AWS Cloud computing and Security Sponsor Datadog Datadog Monitoring Fastly Fastly CDN Google Google Download Analytics Microsoft Microsoft PSF Sponsor Pingdom Pingdom Monitoring Sentry Sentry Error logging StatusPage StatusPage Status page