■検索のしくみ |
|
ここでは、『Yumingoo』の検索のしくみについて概要をご説明します。
これらを理解すれば、目的の曲を上手に見つけられるでしょう。
|
◆ | まず、まとめ |
|
【よいさがし方】
- まずは「ひらがな検索」で歌い方を全部ひらがなで検索してみよう。
- 予想とちがう漢字だと捜せない。
- 送り仮名や記号使いが違うと捜せない。
- 特徴的な言葉を優先して検索しよう。
- 例えば「あなた」は200曲以上にあるので、あまり役にたたない。
- ひとつながりのフレーズでも、空白でことばを短めに区切ろう。
- 一文字でも違っていると、探せない。
- 原文の行をまたいでいると、捜せない。
- 表記が予想と違っているかもしれない。
- 3~4文字でも十分。「あなた」は200曲以上にあるが、「あなたで」なら、2曲。
- 英文で書いていそうなものは、
- 「歌詞原文」にアルファベットで入れてみよう。
- 「ひらがな」に日本人っぽく読み仮名をいれてみよう。
- ひとつの言葉でも、表記がゆれそうな部分は、はずして検索しよう。
|
|
◆ | 歌詞データはこうなっている |
|
現在登録済みの曲の歌詞は、全部合わせると約1万3千行程度になり、原文のデータで約14万字、それをひらがなで読み下したもので約15万字程となっています。
大規模なWeb検索サイトなどに比べたら微々たるデータ量ですが、耳で聴いた歌詞から曲をさがすという目的のために、特別に、正しく読みくだしたよみがなデータを人間の手で作成していることが普通の検索サイトとの最大の違いです。
データのごく一部を抜き出すと、たとえば、次のようになっています。
(本当はもう少し複雑な構造ですが…)
【歌詞原文データベース】 |
【よみがなデータベース】 |
:
xxx01: 14番目の月
xxx02:
xxx03: あなたの気持が読みきれないもどかしさ
xxx04: だから ときめくの
xxx05: 愛の告白をしたら最後 そのとたん
xxx06: 終わりが 見える
xxx07:
xxx08: um… IWANUGA HANA
xxx09: その先は言わないで
xxx10:
xxx11: つぎの夜から 欠ける満月より
xxx12: 14番目の月が いちばん好き
:
|
:
xxx01: じゅうよんばんめのつき
xxx02:
xxx03: あなたのきもちがよみきれないもどかしさ
xxx04: だからときめくの
xxx05: あいのこくはくをしたらさいごそのとたん
xxx06: おわりがみえる
xxx07:
xxx08: んーいわぬがはな
xxx09: そのさきはいわないで
xxx10:
xxx11: つぎのよるからかけるまんげつより
xxx12: じゅうよんばんめのつきがいちばんすき
:
|
【歌詞原文データベース】は、歌詞カードの表記を、明らかな誤植は除いて出来るだけ忠実に入力したものです。漢字、ひらがな、カタカナ、アルファベット、数字、空白、一部の記号などが含まれています(詳細は後述)。
他方、【よみがなデータベース】は、同じ曲について、ユーミンの歌い方をひらがなで読み下したものです。従ってそこにはひらがなしか含まれません。空白も詰めてあらわされています。
これに対応して、検索フォームは、次のようになっています。
ここで、上下に二つある欄それぞれが、上の二つのデータベースに対応しています。
つまり、
1. | 歌詞原文キーワード | に入れた言葉は、【歌詞原文データベース】(左側)から探し、 |
2. | ひらがなキーワード | に入れた言葉は、【よみがなデータベース】(右側)から探す |
という仕組みになっているわけです。
・歌詞原文と、よみがなという、二つのデータがあること
・それぞれのデータの検索が二つの入力欄に対応していること
が把握いただけたでしょうか。
|
◆ | 検索の手順 |
|
二つの入力欄は協調して、一つの検索結果を導きます。
例をあげましょう。次のような、"うろ覚え"の曲をさがしたいとします。
【覚えている部分】
… あーなーたーのーきもーちが ○○○れなーい ○○○○○ …
… ○○○○がこわーいー …
… まんげつ …
そうしたら、こんなふうに言葉をいれて、検索ボタンを押します。
すると、次のような結果が現れます。
この場合は、一度で目的の曲がみつかりました。
ごらんになっておわかりのように、Yumingooは、つぎのように検索します。
1.歌詞原文キーワードに入れられたフレーズを、空白(全角・半角ともOK)で区切る
2.区切ったそれぞれの言葉が、歌詞原文データに含まれる曲をリストアップする
3.ひらがなキーワードに入れられたフレーズを、空白(全角・半角ともOK)で区切る
4.区切ったそれぞれの言葉が、よみがなデータに含まれる曲をリストアップする
5.2と4のリストアップに共通した曲を結果として表示する
以下の点にご注意ください。
・歌詞原文とひらがなのうち、片方の欄だけ使ってもよいし、例のように両方使ってもよい。
・それぞれの欄に別々の言葉を入れてもよい。
この場合も、それらの全ての言葉が含まれる曲をさがすことになる。
では、二つの欄はどのように使い分ければいいのでしょうか?
それぞれの検索には、異なる長所・短所があります。
|
◆ | 歌詞原文での検索 |
|
<検索の特色>
歌詞原文の検索では、入れた言葉を忠実に歌詞原文データベースと比較して、
完全に一致する歌詞を持つ曲だけを表示します。
<うまくいかない例>
そのため、例えば「14番目の月」をさがそうとした場合、次のような入力ではうまく検索することができません。(上のデータとよく比べてみてください)
▲原文と異なる漢字使いや送り仮名
▲原文にはある「空白」を詰めたり、"(クオート)で挟んだりする
▲原文と異なる文字種
▲改行をまたいでいる
<うまくいく例>
…結構気を使わないとうまくいきそうにないですね。では、まったく融通がきかないかというと、そうでもなくて、次のようなくい違いについては、問題ありません。
▲アルファベット、数字、記号、空白の全角と半角はどちらでもよい
▲アルファベットは大文字、小文字どちらでもよい
<検索に使える文字と使えない文字> (興味ない人は読み飛ばしてください)
あまり気にしなくてもよいのですが、入力されたキーワードの中で歌詞に絶対に現れない記号等の文字については、検索の前に削除します。
歌詞に現れるため、使用できる記号類は次のものです。全角でも半角でも同じ結果となります
全角文字で使用するもの |
(空白) |
、 |
。 |
, |
. |
? |
! |
~ |
… |
’ |
半角文字で使用するもの |
(空白) |
|
|
, |
. |
? |
! |
|
|
' |
全角文字で使用するもの |
“ |
” |
( |
) |
[ |
] |
「 |
」 |
$ |
♯ |
# |
& |
° |
々 |
ー |
|
半角文字で使用するもの |
" |
( |
) |
[ |
] |
|
|
$ |
# |
& |
|
|
|
- |
結局、半角の"-"以外は、全角文字で入れてもらえばOKです。
半角のカタカナと、それといっしょに使う半角記号は現在、うまく削除も出来ないので、使わないでください。(ここでは全角で表現しています)
半角のカタカナ全部 |
半角の、(読点) |
半角の。(句点) |
半角の゛(濁音) |
半角の゜(半濁音) |
半角の「(括弧) |
半角の」(括弧) |
半角の・(中点) |
半角のー(長音) |
英語以外で使用する、アクセント付きアルファベットは、アクセント記号をとった普通の英字を使ってください。(ほとんど出てきません。)
ロシア文字、ギリシャ文字などは使いません。
1曲だけ、歌詞にハートマークがあるのですが、(どの曲でしょう? ^_^)これは入力できませんね。
|
◆ | ひらがなでの検索 |
|
ここまで、お読みになった(奇特な!)方、ありがとうございます。
このように原文での歌詞検索はうまくヒットさせるのが難しいので、このひらがな検索を使いましょう。こちらでは、前に説明した【よみがなデータベース】を使いますので、歌い方さえ知っていれば、大体なんとかなります。
<検索の特色>
ひらがな検索では、入れた言葉を忠実によみがなデータベースと比較して、完全に一致する歌詞を持つ曲だけを表示します。
よみがなデータベースの中には空白文字がありませんので、歌詞原文の検索のように、フレーズの切れ目を気にする必要はありません。
<検索に使える文字>
ひらがな(小文字(ぁぃぅぇぉなど)を含む)と長音記号"ー"とカタカナの"ヴ"のみです。ほかの文字をいれても検索の前に削除されます。
カタカナの"ヴ"が使えるのは、これに対応するひらがながないためです。
長音記号"ー"と似た、"-"や"─"(罫線)などは削除されますので、それだけ注意してください。
<欧文の検索>
歌詞には、英語をはじめとする外国語が多数含まれています。
これらについても、読み仮名をふってありますので、一応検索することができます。
また、別の曲について、データベースの様子を見てみましょう。
【歌詞原文データベース】 |
【よみがなデータベース】 |
:
xxx01:2人のストリート
xxx02:
xxx03:ここですぐに降ろしてよ
xxx04:いいからここで止めて
xxx05:ドアがへこむほど蹴飛ばし
xxx06:歩きだす渋滞の中
xxx07:勝手な性格ね つきあいきれない
xxx08:今まで我慢して 今日こそ終わりよ
xxx09:
xxx10:You're not so hot
xxx11:コートを合わせ
xxx12:You missed my soft spot
xxx13:ヒール鳴らせば街は私のもの
xxx14:Tell me you're hot
xxx15:北風光り
xxx16:Don't hit my hard spot
xxx17:ほほつねられたとたんもう自由
:
|
:
xxx01:ふたりのすとりーと
xxx02:
xxx03:ここですぐにおろしてよ
xxx04:いいからここでとめて
xxx05:どあがへこむほどけとばし
xxx06:あるきだすじゅうたいのなか
xxx07:かってなせいかくねつきあいきれない
xxx08:いままでがまんしてきょうこそおわりよ
xxx09:
xxx10:ゆーあーのっとそーほっと
xxx11:こーとをあわせ
xxx12:ゆーみすどまいそふとすぽっと
xxx13:ひーるならせばまちはわたしのもの
xxx14:てるみーゆーあーほっと
xxx15:きたかぜひかり
xxx16:どんとひっとまいはーどすぽっと
xxx17:ほほつねられたとたんもうじゆう
:
|
ご覧のとおり、相当にコンサバな(^_^;;; かなふりになっています。
従って、
・英語力に自信のある方は、歌詞原文キーワードに原語を入れて検索
・つづりとか間違いそうな方は、ひらがなキーワードによみかたを入れて検索
するのが、得策かと思います。
誰が書いてもかな表記が安定しそうな部分を、短く、入れるのがよいでしょう。
なお、ひらがなデータベースでは、V行(ヴァ、ヴィ、ヴ、ヴェ、ヴォ)は全て、(ば、び、ぶ、べ、ぼ)で表記しています。しかし、検索の際は、カタカナの"ヴ"を使って、(ヴぁ、ヴぃ、ヴ、ヴぇ、ヴぉ)としてもかまいません。
システムで勝手にば行に変えて検索します。
▲v行は(ヴぁ、ヴぃ、ヴ、ヴぇ、ヴぉ)と(ば、び、ぶ、べ、ぼ)のどちらでもよい
<かな表記の難しい部分>
さて、これで大丈夫かというと、まだ、日本語のひらがな表記の難しい部分が多少残っているので、曲が見つからない場合、以下のようなことに気をつけて、その言葉を検索からはずすか、何通りか試してみるなどしてください。
基本的には、現代仮名遣いに従おうとしていますが、原文尊重も必要ですので、まだ統一できていません。(そのうち自動処理をしようと思っていますが…)
▲「ぢ」「ず」と「じ」「づ」のどちらを使うか悩む例
・気付く → きづく、きずく
・間近 → まぢか、まじか
・ロッヂ → ろっじ、ろっぢ
・稲妻 → いなずま、いなづま
▲「へ」を「え」と発音する場合
・どこへ → どこへ、どこえ
▲長音記号を使うかどうか
・エアメイル → えあめいる、えあめーる、えあーめーる、…
・ナビゲイター → なびげいたー、なびげーたー
▲特に人によって表記がぶれやすいところ
・Destiny → ですてぃにー、でぃすてにー、でぃすてぃにー、…
・Reincarnation → りーいんかーねーしょん、…
<ユーミンの歌い方、表記と音のずれる部分>
表記と、ユーミンが実際に歌っている「発音」との関係にもいろいろあります。これらも、検索からはずすか、何通りか試してみてください。
▲表記と歌い方がずれている例
・表記:ちょうちょう → 歌い方:ちょうちょ
・表記:けっして → 歌い方:けして
・表記:ほんとう → 歌い方:ほんと
▲なるべく歌い方に合わせてよみがなをふっている場合
・表記:淋し、寂し → 歌い方:さみし、さびし(まれにあります)
・表記:行く → 歌い方:ゆく、いく(たまにあります)
|
◆ | お願い |
|
このYumingooで使用している歌詞データは、手作業で歌詞カードから打ち込み、実際の歌を聞きながら校正したものです。きっとまだまだ間違いや不都合が残っていると思います。
「この歌詞が見つからないのはおかしい」、「結果表示が間違っている」など、お気づきの方は、是非おたよりください。
そのほかの内容でももちろん歓迎です。
おたよりには、検索結果のページの最後にあるコメント・フォームを利用してください。
|