Skip to main content

音韻的類似性を考慮した検索システムの評価用データセット。替え歌の歌詞から構築された特定ジャンルの単語ペアを収録。

Project description

soramimi-phonetic-search-dataset

音韻検索システムの評価用データセット。替え歌の歌詞から構築された特定ジャンルの単語ペアを収録。

日本語 | English

概要

このデータセットは、音韻が類似した単語を検索するシステムの評価に使用できます。 特定ジャンルの単語だけで歌詞の音韻を模倣する替え歌(いわゆる「〇〇で歌ってみた」)から抽出した単語ペアを含み、日本語の音韻検索の評価に適しています。

使い方

インストール

pip install soramimi-phonetic-search-dataset

基本的な使用例

from soramimi_phonetic_search_dataset import evaluate_ranking_function

# カスタムのランキング関数を定義
def my_ranking_function(query_texts: list[str], wordlist_texts: list[str]) -> list[list[str]]:
    # ここにあなたの音韻的類似度に基づくランキングロジックを実装
    return ranked_wordlists

# 評価の実行
recall = evaluate_ranking_function(ranking_func=my_ranking_function, topn=10)
print(f"Recall@10: {recall}")

サンプルのランキング関数

以下のランキング関数が実装済みです:

  • rank_by_mora_editdistance: モーラ編集距離によるランキング
  • rank_by_vowel_consonant_editdistance: 母音と子音の編集距離によるランキング
  • rank_by_phoneme_editdistance: 音素編集距離によるランキング
  • rank_by_kanasim: KanaSimによるランキング
from soramimi_phonetic_search_dataset import rank_by_mora_editdistance

recall = evaluate_ranking_function(ranking_func=rank_by_mora_editdistance, topn=10)

ライセンス

データセット使用上の注意

  • このデータセットは、歌詞や実在の人名・キャラクター等の単語リストといった第三者のコンテンツを含んでいます。歌詞データは文節単位で分割・再構成され、元の文脈を復元できないよう慎重に加工されています。また、単語リストは一般に公開されている情報のみを使用しています。

  • 研究目的での利用については、商用・非商用を問わず可能です。ただし、以下の点にご注意ください:

    • データセットの利用に関する法令遵守はユーザーの責任となります
    • データセットから元の歌詞を復元する行為は避けてください
    • 単語リストは音韻検索の評価以外の目的での使用はお控えください

引用

このデータセットを引用する場合は、以下の形式を使用してください:

@inproceedings{島谷2025soramimi,  
  author={島谷 二郎},  
  title={「〇〇で歌ってみた」替え歌を用いた音韻類似単語検索ベンチマークの構築},  
  booktitle={言語処理学会第31回年次大会 併設ワークショップ JLR2025},
  url={https://github.com/jiroshimaya/soramimi-phonetic-search-dataset},  
  year={2025},  
  month={3},  
}

Project details


Download files

Download the file for your platform. If you're not sure which to choose, learn more about installing packages.

Source Distribution

soramimi_phonetic_search_dataset-0.0.3.tar.gz (151.8 kB view details)

Uploaded Source

Built Distribution

If you're not sure about the file name format, learn more about wheel file names.

File details

Details for the file soramimi_phonetic_search_dataset-0.0.3.tar.gz.

File metadata

File hashes

Hashes for soramimi_phonetic_search_dataset-0.0.3.tar.gz
Algorithm Hash digest
SHA256 986681ab06083a147238937ba1715accd5af54aed1cf03657b18d952b3000f79
MD5 f75138161883d0b6d46238178118120c
BLAKE2b-256 014097238eb0a18c1016ab01f2e629f56dfe90a256dbdb97c2ba32669ae03bb4

See more details on using hashes here.

File details

Details for the file soramimi_phonetic_search_dataset-0.0.3-py3-none-any.whl.

File metadata

File hashes

Hashes for soramimi_phonetic_search_dataset-0.0.3-py3-none-any.whl
Algorithm Hash digest
SHA256 71e526903b70e26e5a681ee9e4060a644c538fd7469b7beecad9ad54d9ddfe5a
MD5 0f9f1c20b74239d99d762be46d1f646a
BLAKE2b-256 022bc08ebd65930d3fb54027f8429029a03d28154d2b8093a3c11b6b507a9b00

See more details on using hashes here.

Supported by

AWS Cloud computing and Security Sponsor Datadog Monitoring Depot Continuous Integration Fastly CDN Google Download Analytics Pingdom Monitoring Sentry Error logging StatusPage Status page