音韻的類似性を考慮した検索システムの評価用データセット。替え歌の歌詞から構築された特定ジャンルの単語ペアを収録。
Project description
soramimi-phonetic-search-dataset
音韻検索システムの評価用データセット。替え歌の歌詞から構築された特定ジャンルの単語ペアを収録。
概要
このデータセットは、音韻が類似した単語を検索するシステムの評価に使用できます。 特定ジャンルの単語だけで歌詞の音韻を模倣する替え歌(いわゆる「〇〇で歌ってみた」)から抽出した単語ペアを含み、特に韻やリズムの一致を重視する音韻検索の評価に適しています。
各手法の評価結果はleaderboardをご覧ください。
使い方
インストール
pip install soramimi-phonetic-search-dataset
基本的な使用例
from soramimi_phonetic_search_dataset import evaluate_ranking_function
# カスタムのランキング関数を定義
def my_ranking_function(query_texts: list[str], wordlist_texts: list[str]) -> list[list[str]]:
# ここにあなたの音韻的類似度に基づくランキングロジックを実装
return ranked_wordlists
# 評価の実行
recall = evaluate_ranking_function(ranking_func=my_ranking_function, topn=10)
print(f"Recall@10: {recall}")
サンプルのランキング関数
以下のランキング関数が実装済みです:
rank_by_mora_editdistance: モーラ編集距離によるランキングrank_by_vowel_consonant_editdistance: 母音と子音の編集距離によるランキングrank_by_phoneme_editdistance: 音素編集距離によるランキングrank_by_kanasim: KanaSimによるランキング
from soramimi_phonetic_search_dataset import rank_by_mora_editdistance
recall = evaluate_ranking_function(ranking_func=rank_by_mora_editdistance, topn=10)
ライセンス
- ソースコードはMITライセンスの下で提供されています。詳細は
LICENSE-CODEをご覧ください。 - データセットはCDLA-Permissive-2.0の下で提供されています。詳細は
src/soramimi_phonetic_search_dataset/data/LICENSEをご覧ください。
データセット使用上の注意
-
このデータセットは、歌詞や実在の人名・キャラクター等の単語リストといった第三者のコンテンツを含んでいます。歌詞データは文節単位で分割・再構成され、元の文脈を復元できないよう慎重に加工されています。また、単語リストは一般に公開されている情報のみを使用しています。
-
研究目的での利用については、商用・非商用を問わず可能です。ただし、以下の点にご注意ください:
- データセットの利用に関する法令遵守はユーザーの責任となります
- データセットから元の歌詞を復元する行為は避けてください
- 単語リストは音韻検索の評価以外の目的での使用はお控えください
引用
このデータセットを引用する場合は、以下の形式を使用してください:
@inproceedings{島谷2025soramimi,
author={島谷 二郎},
title={「〇〇で歌ってみた」替え歌を用いた音韻類似単語検索ベンチマークの構築},
booktitle={言語処理学会第31回年次大会 併設ワークショップ JLR2025},
url={https://github.com/jiroshimaya/soramimi-phonetic-search-dataset},
year={2025},
month={3},
}
Project details
Release history Release notifications | RSS feed
Download files
Download the file for your platform. If you're not sure which to choose, learn more about installing packages.
Source Distribution
Built Distribution
Filter files by name, interpreter, ABI, and platform.
If you're not sure about the file name format, learn more about wheel file names.
Copy a direct link to the current filters
File details
Details for the file soramimi_phonetic_search_dataset-0.0.9.tar.gz.
File metadata
- Download URL: soramimi_phonetic_search_dataset-0.0.9.tar.gz
- Upload date:
- Size: 215.1 kB
- Tags: Source
- Uploaded using Trusted Publishing? No
- Uploaded via: uv/0.6.6
File hashes
| Algorithm | Hash digest | |
|---|---|---|
| SHA256 |
508c2c4a6437c2ab05a040e16994db561c6c6b5cc0cdc56b20e1a778fe839830
|
|
| MD5 |
4b5f8c5e877c8bb200838d6b2b065448
|
|
| BLAKE2b-256 |
9ab67318ccf92de1ecc749e4ccda35ba2d2991c6700ad47c3c6aeb21caacbf5a
|
File details
Details for the file soramimi_phonetic_search_dataset-0.0.9-py3-none-any.whl.
File metadata
- Download URL: soramimi_phonetic_search_dataset-0.0.9-py3-none-any.whl
- Upload date:
- Size: 77.3 kB
- Tags: Python 3
- Uploaded using Trusted Publishing? No
- Uploaded via: uv/0.6.6
File hashes
| Algorithm | Hash digest | |
|---|---|---|
| SHA256 |
302cd33731362ff26d3423a553019b3549cbcb4de442e14a596f046faeac2403
|
|
| MD5 |
50695169c28f76739c0504141a113309
|
|
| BLAKE2b-256 |
c783b0303cd75ef628b380b70c0956331ffd3458c120f6caed0ac3d9fe2f2910
|