A tool to generate LOD datasets for gBizINFO
Project description
gBizINFO-LOD
gBizINFOが提供するCSV形式のデータからLinked Open Data(LOD)データセットを生成するためのツール
生成したデータセットは gbizinfo-lod-dataset で公開しています。
また、公開SPARQLエンドポイントも以下で提供しています。
https://metadata.moe/project/gbizinfo/
使い方
インストール
pip install gbizinfo-lod
CSVファイルダウンロード
変換元となる法人活動情報語彙対応版CSVファイル群のダウンロード (注: 法人基本情報は全件の一括ダウンロードが不可のため時間がかかる)
gbilod download ./work_dir/
CSV-RDF変換
ダウンロードしたCSVファイル群をRDFに変換
gbilod convert ./work_dir/ -o ./output_dir/
Graph URI毎にファイルが出力される(デフォルトはN-Quads形式)
その他オプションは gbilod convert --help
を参照
変換仕様
基本的には以下の仕様書に基づく。
- gBizINFO SPARQL API仕様書: https://warp.ndl.go.jp/info:ndljp/pid/13539552/info.gbiz.go.jp/api/document/API.pdf
- リソース定義書 (CSV, XMLスキーマ仕様書): https://info.gbiz.go.jp/common/data/resourceinfo.pdf
仕様書との差異
仕様書上の定義と異なる、または未定義である箇所を以下にまとめる。
- 法人番号を表す
ic:ID/ic:体系
の目的語は<http://imi.go.jp/ns/code_id/id/corporateNumber>
ex:Hojin <http://imi.go.jp/ns/core/rdf#ID> [
<http://imi.go.jp/ns/core/rdf#体系> <http://imi.go.jp/ns/code_id/id/corporateNumber> ;
<http://imi.go.jp/ns/core/rdf#識別値> "0123456789123" ;
a <http://imi.go.jp/ns/core/rdf#ID型>
] .
- 職場情報および財務情報における
hj:数量コレクション/hj:数量/hj:指標
の目的語はic:コード型の型付リテラル- 提供されていたRDFデータがこのようになっており、互換性確保のためこの仕様を踏襲する。
- 本来はリテラルではなく、
http://hojin-info.go.jp/graph/commonCode
グラフ内で定義されているリソースへのURI参照を期待したものと思われる。
ex:HojinShokuba <http://hojin-info.go.jp/ns/domain/biz/1#数量コレクション> [
<http://hojin-info.go.jp/ns/domain/biz/1#数量> [
<http://hojin-info.go.jp/ns/domain/biz/1#指標> "http://hojin-info.go.jp/code/職場情報/企業規模"^^<http://imi.go.jp/ns/core/rdf#コード型> ;
<http://imi.go.jp/ns/core/rdf#単位表記> "人" ;
<http://imi.go.jp/ns/core/rdf#数値> 100.0 ;
a <http://hojin-info.go.jp/ns/domain/biz/1#数量型>
]
] .
Graph URI
- 法人基本情報:
http://hojin-info.go.jp/graph/hojin
- 補助金情報:
http://hojin-info.go.jp/graph/hojyokin
- 調達情報:
http://hojin-info.go.jp/graph/chotatsu
- 表彰情報:
http://hojin-info.go.jp/graph/hyosho
- 届出認定情報:
http://hojin-info.go.jp/graph/todokede
- 特許情報:
http://hojin-info.go.jp/graph/tokkyo
- 職場情報:
http://hojin-info.go.jp/graph/shokuba
- 財務情報:
http://hojin-info.go.jp/graph/zaimu
- 共通コード:
http://hojin-info.go.jp/graph/commonCode
背景
かつてgBizINFOではSPARQL APIが提供されており、APIを利用することでRDF形式のデータにアクセスすることができた。 また、RDFストアとしてAmazon Neptuneを採用し[^1]、実践的な運用ノウハウが公開されるなど[^2]、システム面でも有用な事例であった。
一方で、野村総合研究所が落札した「令和4年度経済産業省デジタルプラットフォーム構築事業( Gビズインフォを通じた効果的なオープンデータ利活用の促進に向けた調査) 」の報告書 (2023年3月17日) によると、LOD形式でのデータ提供について以下のような実態を指摘しており、公共データ分野でのLODの一定のニーズは認めているものの、SPARQL APIエンドポイントの存続有無の検討が必要と結論づけている。
現行Gビズインフォにおける、利用者の期待と現状
機能 - SPARQL API
実態: 法人データにおいてはLODの普及度が低いため、活用されているとは言いがたい。
利用者からの評価: △ インタビュー先のうち多数は知らない・知っているが使いにくいので使わないといった評価であった。
2023年10月31日にはgBizINFOサイト上でRDF形式データの提供廃止が告知され、2024年4月1日に完全廃止となった[^3]。
[^1]: AWS 導入事例:経済産業省 [^2]: 経済産業省のデジタル化とgBizINFOの展開 2020年8⽉ [^3]: RDF廃止(サービス終了)のお知らせ
License
本リポジトリに含まれる commonCode.ttl
および commonCode.nq
を除くリソースは、MIT Licenseで提供される。
commonCode.ttl
および commonCode.nq
は、「gBizINFO」(経済産業省)のSPARQL APIより取得・加工して作成したもので、経済産業省 利用規約に従い利用するものである。
Project details
Download files
Download the file for your platform. If you're not sure which to choose, learn more about installing packages.
Source Distribution
Built Distribution
File details
Details for the file gbizinfo_lod-0.2.2.tar.gz
.
File metadata
- Download URL: gbizinfo_lod-0.2.2.tar.gz
- Upload date:
- Size: 16.4 kB
- Tags: Source
- Uploaded using Trusted Publishing? No
- Uploaded via: poetry/1.7.1 CPython/3.12.1 Linux/6.5.0-1025-azure
File hashes
Algorithm | Hash digest | |
---|---|---|
SHA256 | f2f0708aea2335d0721d8e985b1b581242b9132e5d03ba5f1ceb04ab3ce2f276 |
|
MD5 | 27de5b29eecc994d080a77c1abeb0d83 |
|
BLAKE2b-256 | 908ffb6a0cbc8c165aa5803af3a1578d067389b2d7f77b5b73629e22c3739ff5 |
File details
Details for the file gbizinfo_lod-0.2.2-py3-none-any.whl
.
File metadata
- Download URL: gbizinfo_lod-0.2.2-py3-none-any.whl
- Upload date:
- Size: 21.7 kB
- Tags: Python 3
- Uploaded using Trusted Publishing? No
- Uploaded via: poetry/1.7.1 CPython/3.12.1 Linux/6.5.0-1025-azure
File hashes
Algorithm | Hash digest | |
---|---|---|
SHA256 | a13d6fef6d8f094572059ca5ddf59a9d8d7e2c104317137a9b6b3ed9fc9d500d |
|
MD5 | 716ff94b0fbc75380f6fe1978e9c3915 |
|
BLAKE2b-256 | 06a43d3cffcba683cfe31f65ffe33e2b7d960dbd513b78ab5aae694c41e6094c |