FileBlogは、ファイルサーバー全文検索エンジンとして類義語検索機能を持っています。独自に作成した辞書データを用いた類義語検索が可能です。
検索エンジンには、オープンソースでデファクトスタンダードともいえる「Apache Solr」を採用しています。Solrは標準で類義語検索機能を持っており、辞書データを組み合わせることでその機能を利用できます。
Solrには辞書データが初めから用意されているわけではなく、特に日本語の類義語検索は得意とはしていません。そのためFileBlogの類義語検索についても、これまで特段のアピールはせず「一応可能」という立場をとっていました。
全角半角・大文字小文字の同一視
FileBlogでは従来より、次については同一文字として扱い、どちらで検索しても両方がヒットします。
- アルファベット:大文字と小文字、全角と半角
- カタカナ:全角と半角
- 数字:全角と半角
「Hello」「hello」「HELLO」のいずれのキーワードで検索しても検索結果は同じになります。「ハロー」と「ハロー」も、「1234」と「1234」も同様です。
「あいまい検索」「類義語検索」の範囲
いわゆる「あいまい検索」や「類義語検索」は、上記のような全角/半角・大文字/小文字の表記ゆれに加え、さらに次についても同一視した検索に広がっていきます。
- 動詞の活用語尾の変化
- 英単語の複数形・単数形や漢字の異体字、イギリス英語とアメリカ英語のスペリング
- さらには正式名称と略称、日本語名と英語名の同一視など、辞書の知識に基づいく同義語・関連語
FileBlogでは、ここまでは標準機能として実装していません。
類義語検索のメリットとデメリット
類義語検索のメリットは言うまでもなく、検索語にヒットする件数が増えることにあります。たとえば同じ組織に関する多数の文書が、組織の正式名称と略称のどちらで検索しても全てヒットするということが実現できれば大変便利でしょう。
類義語検索では、あいまいな語句で関連ファイルが見つかるようになるというメリットがありますが、一方でピンポイントの語句で文書を見つけたいときに、直接的な関係のない文書がヒットしてしまうというデメリットもあります。
ヒット数を増やせば、必ずノイズが増えてしまうものなのです。
例えば、「東京都」の関連語として「都道府県」があり、「都道府県」の関連語として「大阪府」があるとしたとき、「東京都」で検索したときに「大阪府」を含むファイルがヒットしてしまうようなことが起こりえます。(この例はさすがにひどいノイズといえますが…)
強力すぎる類義語検索は、誰にでも無条件にお勧めできるものではありません。また、市販の辞書サービスを使うとなると、年間100万円単位の費用がかかることもあり、お客さまに大きなコスト負担がかかってしまいます。
そこまで本格的な辞書でなくても、安価に利用できるそこそこの類義語辞書はないのか、という要望にお応えして弊社でも独自に類義語辞書を作りました。
FileBlogにおける類義語辞書の作成と提供
かつては、類義語辞書を作るためには大量の言語統計データが必要であり、多くの手間と時間と資金を必要としました。
しかし、公的研究機関などによって公開された日本語自然言語データベース(コーパス)も、インターネット上でアクセス可能になり、鉄飛テクノロジーでは、下記のような数千語~1万語程度の各種データベースから、類義語辞書を自力で作成してみました。
SudachiDict | オープンソースの日本語形態素解析器 Sudachi 付属の辞書 |
JSTシソーラス | 国立研究開発法人科学技術振興機構(JST)による、科学技術用語辞書 |
日本語WordNet | 国立研究開発法人情報通信研究機構(NICT)による、日本語意味辞書 |
WikiPedia | 世界中のボランティアの共同作業によって執筆及び作成されるフリーの多言語インターネット百科事典 |
それぞれの辞書には収録語に偏りがあり、そのまま使うにはクセが強すぎるものも多いのですが、SudachiDictが一番実用的という印象でした。(本辞書については、FileBlogユーザーに無償提供が可能です。ご希望の方はサポートまでご連絡ください)
分野別や業界別の類義語辞書についても有料で作成を承ります。
以前は類義語辞書の作成は、大量の日本語文書統計データを用意しなければ作成できなかったのですが、最近では用語集があれば、AIチャットに対して「XXの類義語を教えてください」のような問い合わせを行うことも可能です。
そのため単語リストさえあれば、類義語辞書を作ることは誰にでも不可能ではなくなりました。(とはいえ、AIの回答は重複も多く、質も怪しいので、質問の組み立てやデータクリーニングにはノウハウがあります)