Skip to main content

A tool to generate LOD datasets for gBizINFO

Project description

gBizINFO-LOD

PyPI version

gBizINFOが提供するCSV形式のデータからLinked Open Data(LOD)データセットを生成するためのツール

使い方

pip install gbizinfo-lod

変換元となる法人活動情報語彙対応版CSVファイル群のダウンロード (注: 法人基本情報は全件の一括ダウンロードが不可のため時間がかかる)

gbilod download ./work_dir/

CSVファイル群をRDF(N-Triples形式)に変換

gbilod convert ./work_dir/ -o ./output_dir/

Graph URI毎にファイルが出力される

変換仕様

基本的には以下の仕様書に基づく。

仕様書との差異

仕様書上の定義と異なる、または未定義である箇所を以下にまとめる。

  • 法人番号を表す ic:ID/ic:体系 の目的語は <http://imi.go.jp/ns/code_id/id/corporateNumber>
ex:Hojin <http://imi.go.jp/ns/core/rdf#ID> [
         <http://imi.go.jp/ns/core/rdf#体系> <http://imi.go.jp/ns/code_id/id/corporateNumber> ;
         <http://imi.go.jp/ns/core/rdf#識別値> "0123456789123" ;
         a <http://imi.go.jp/ns/core/rdf#ID型>
] .
  • 職場情報および財務情報における hj:数量コレクション/hj:数量/hj:指標 の目的語はic:コード型の型付リテラル
    • 提供されていたRDFデータがこのようになっており、互換性確保のためこの仕様を踏襲する。
    • 本来はリテラルではなく、 http://hojin-info.go.jp/graph/commonCode グラフ内で定義されているリソースへのURI参照を期待したものと思われる。
ex:HojinShokuba <http://hojin-info.go.jp/ns/domain/biz/1#数量コレクション> [
    <http://hojin-info.go.jp/ns/domain/biz/1#数量> [
        <http://hojin-info.go.jp/ns/domain/biz/1#指標> "http://hojin-info.go.jp/code/職場情報/企業規模"^^<http://imi.go.jp/ns/core/rdf#コード型> ;
        <http://imi.go.jp/ns/core/rdf#単位表記> "人" ;
        <http://imi.go.jp/ns/core/rdf#数値> 100.0 ;
        a <http://hojin-info.go.jp/ns/domain/biz/1#数量型>
    ]
] .

Graph URI

  • 法人基本情報: http://hojin-info.go.jp/graph/hojin
  • 補助金情報: http://hojin-info.go.jp/graph/hojyokin
  • 調達情報: http://hojin-info.go.jp/graph/chotatsu
  • 表彰情報: http://hojin-info.go.jp/graph/hyosho
  • 届出認定情報: http://hojin-info.go.jp/graph/todokede
  • 特許情報: http://hojin-info.go.jp/graph/tokkyo
  • 職場情報: http://hojin-info.go.jp/graph/shokuba
  • 財務情報: http://hojin-info.go.jp/graph/zaimu
  • 共通コード: http://hojin-info.go.jp/graph/commonCode

背景

かつてgBizINFOではSPARQL APIが提供されており、APIを利用することでRDF形式のデータにアクセスすることができた。 また、RDFストアとしてAmazon Neptuneを採用し[^1]、実践的な運用ノウハウが公開されるなど[^2]、システム面でも有用な事例であった。

一方で、野村総合研究所が落札した「令和4年度経済産業省デジタルプラットフォーム構築事業( Gビズインフォを通じた効果的なオープンデータ利活用の促進に向けた調査) 」の報告書 (2023年3月17日) によると、LOD形式でのデータ提供について以下のような実態を指摘しており、公共データ分野でのLODの一定のニーズは認めているものの、SPARQL APIエンドポイントの存続有無の検討が必要と結論づけている。

現行Gビズインフォにおける、利用者の期待と現状
機能 - SPARQL API
実態: 法人データにおいてはLODの普及度が低いため、活用されているとは言いがたい。
利用者からの評価: △ インタビュー先のうち多数は知らない・知っているが使いにくいので使わないといった評価であった。

2023年10月31日にはgBizINFOサイト上でRDF形式データの提供廃止が告知され、2024年4月1日に完全廃止となった[^3]。

[^1]: AWS 導入事例:経済産業省 [^2]: 経済産業省のデジタル化とgBizINFOの展開 2020年8⽉ [^3]: RDF廃止(サービス終了)のお知らせ

License

本リポジトリに含まれる commonCode.ttl を除くリソースは、MIT Licenseで提供される。

commonCode.ttl は、「gBizINFO」(経済産業省)のSPARQL APIより取得・加工して作成したもので、経済産業省 利用規約に従い利用するものである。

Project details


Download files

Download the file for your platform. If you're not sure which to choose, learn more about installing packages.

Source Distribution

gbizinfo_lod-0.1.1.tar.gz (15.5 kB view hashes)

Uploaded Source

Built Distribution

gbizinfo_lod-0.1.1-py3-none-any.whl (20.6 kB view hashes)

Uploaded Python 3

Supported by

AWS AWS Cloud computing and Security Sponsor Datadog Datadog Monitoring Fastly Fastly CDN Google Google Download Analytics Microsoft Microsoft PSF Sponsor Pingdom Pingdom Monitoring Sentry Sentry Error logging StatusPage StatusPage Status page