FileBlogは、ファイルサーバ全文検索エンジンとして、類義語検索機能を持っています。独自に作成した辞書データを用いた類義語検索が可能です。
FileBlogの検索エンジンには、オープンソースでデファクトスタンダードともいえる「Apache Solr」を用いています。Solrは標準で類義語検索機能を持っており、辞書データを組み合わせさえすれば、その機能を利用できます。
ただし、Solrには辞書データが初めから用意されているわけではなく、特に日本語の類義語検索は得意とはしていません。そのためFileBlogの類義語検索についても、これまで特にアピールすることなく、「一応可能」という立場をとっていました。
全角半角・大文字小文字の同一視
従来より、FileBlogでは、下記については同一のものとして扱い、どちらで検索しても、両方がヒットします。
- アルファベットの大文字と小文字、全角と半角を同一視
- カタカナの全角と半角、数字の全角と半角を同一視
「Hello」「hello」「HELLO」でも同じキーワードでヒットします。「ハロー」と「ハロー」も、「1234」と「1234」も同様です。
いわゆる「あいまい検索」「類義語検索」の範囲
いわゆる「あいまい検索」や「類義語検索」は、上記のような、全角半角・大文字小文字の表記ゆれに加え、さらに下記についても検索時に同一視するものです。
- 動詞の活用語尾の変化を同一視したり、
- 英単語の複数形・単数形や漢字の異体字、イギリス英語とアメリカ英語のスペリングを同一視したり、
- さらには正式名称と略称、日本語名と英語名の同一視など、辞書の知識に基づいく同義語・関連語検索に広がっていきます。
FileBlogでは、ここまでは標準では行っておりません。
類義語検索のメリットとデメリット
言うまでもなく類義語検索のメリットは、検索語にヒットする件数が増えることにあります。たとえば同じ組織に関する多数の文書が、組織の正式名称と略称のどちらで検索してもすべてヒットするということが実現できれば、大変便利でしょう。
類義語検索が可能になると、あいまいな語句で関連ファイルが見つかるようになるというメリットがありますが、一方で、ピンポイントで文書を見つけたいときに、直接は関係ない文書がヒットしてしまうというデメリットもあります。
ヒット数を増やせば、必ずノイズが増えてしまうものなのです。
例えば、「東京都」の関連語として「都道府県」があり、「都道府県」の関連語として「大阪府」があるとしたとき、「東京都」で検索したときに「大阪府」を含むファイルがヒットしてしまうようなことが起こりえます。(この例はさすがにひどいノイズといえますが…)
強力すぎる類義語検索は、誰にでも無条件にお勧めするものではありません。また、市販の辞書サービスを使うとなると、年間100万円単位の費用がかかることもあり、お客さまに大きなコスト負担がかかってしまいます。
そこまで本格的な辞書でなくても安価に利用できる、そこそこの類義語辞書はないのか、という要望にお応えして、弊社でも独自に類義語辞書を作りました。
FileBlogにおける類義語辞書の作成と提供
かつては、類義語辞書を作るためには大量の言語統計データが必要であり、多くの手間と時間と資金を必要としました。
しかし、公的研究機関などによって公開された日本語自然言語データベース(コーパス)も、インターネット上でアクセス可能になりました。鉄飛テクノロジーでは、下記のような数千語~1万語程度の各種データベースから、類義語辞書を自力で作成してみました。
SudachiDict | オープンソースの日本語形態素解析器 Sudachi 付属の辞書 |
JSTシソーラス | 国立研究開発法人科学技術振興機構(JST)による、科学技術用語辞書 |
日本語WordNet | 国立研究開発法人情報通信研究機構(NICT)による、日本語意味辞書 |
WikiPedia | 世界中のボランティアの共同作業によって執筆及び作成されるフリーの多言語インターネット百科事典 |
それぞれの辞書には収録語に偏りがあり、そのまま使うにはクセが強すぎるものも多いのですが、SudachiDictが一番実用的という印象でした。(本辞書については、FileBlogユーザに無償提供が可能です。ご希望の方はサポートまでご連絡ください)
分野別や業界別の類義語辞書についても、有料で作成を承ります。
以前は類義語辞書の作成は、大量の日本語文書統計データを用意しなければ作成できなかったのですが、最近では、用語集があれば、AIチャットに対して「XXの類義語を教えてください」のような問い合わせを行うことも可能です。
そのため、単語リストさえあれば、類義語辞書を作ることは誰にでも不可能ではなくなりました。(とはいえ、AIの回答は重複も多く、質も怪しいので、質問の組み立てやデータクリーニングにはノウハウがあります)