テキスト情報の抽出について

<< Click to Display Table of Contents >>

Navigation:  システム設定(管理者マニュアル) > 詳細設定 > 検索エンジン(Solr)について >

テキスト情報の抽出について

IFilterについて

FileBlogは、検索インデックスに登録すためのテキスト情報を抽出するのに、xdoc2txt または、IFilter プログラムを使用しています。

標準のテキスト抽出エンジンは、xdoc2txt ですが、ファイル種類によっては Microsoft などの各メーカーが提供する IFilter を用いることができます。

Microsoft IFilter は、Microsoft が提供するテキスト抽出エンジンで、Microsoft Office などファイルのテキスト抽出に向いていて、xdoc2txt に比べて高速(当社比)に処理することができます。

Microsoft Outlook メッセージ形式ファイル(.msg)や、Microsoft Visio の全文検索を行う場合には、Microsoft IFilter のインストールが必須です。

Outlook msgファイル用IFilter、Visio用IFilterを含む 「Microsoft Office 2010 フィルタパック」のダウンロード先はこちらです。(2019年8月現在)

http://www.microsoft.com/ja-jp/download/details.aspx?id=17062

「Microsoft Office 2010 フィルタパック」の "FilterPack64bit.exe" を選択してください。(FileBlogは、Windows 64bit系OSのみ対応のため)

Microsoft IFilter を使用するには、Microsoft Searchサービスの起動が必要です。

 

使用方法

1.FileBlog画面 > システム設定 > ファイル種類 を開きます。

0093

2.IFilter を使用するファイル種類を指定します。
Word、Excelファイルなどは標準でIFilter利用に登録されています。

0094

3.「全文検索」と「IFilter利用」に同じ拡張子を登録します。

「全文検索」に指定がしないと、全文検索の対象になりません。

「IFilret利用」に指定がないと、標準の xdoc2txt が使用されます。
対応する IFilter がインストールされていない場合も xdoc2txt が使用されます。

4.設定を保存してサービスを再起動すると反映されます。

項目

説明

全文検索

ここに登録されるファイル型式(拡張子)は、全文検索用のインデックスの構築対象になります。仕様外のファイル形式を登録してもインデックスは構築されません。

IFilter利用

インデックス構築のために、ファイルからテキストデータを抽出するためにIFilterを使用するファイル形式を指定します。新たにファイル形式を登録する場合には、同時に対応するIFilterのインストールが必要になることもあります。

テキスト形式(ascii)

全文検索対象のファイルのうち、ここで指定されたファイル形式については、専用コンバーターを使用せずにファイル内容をそのまま検索インデックスとして構築します。該当するファイルが多い場合、検索インデックスの構築処理速度が速くなります。