FileBlogを既存ファイルサーバに導入する場合、すでに数百万文書が登録されているファイルサーバへの導入を前提に製品選定中というお客様の声が多数寄せられています。

FileBlogの全文検索エンジンは、いったいどのくらいの大規模サイトで運用できるのでしょうか?

FileBlogは全文検索エンジンに オープンソースの検索エンジン「Hyper Estraier 」を採用しており、Hyper Estraierは検索インデックスの分割・分散処理によって、大規模サイトの構築が可能な検索エンジンです。

しかしながら、FileBlogスタンダード版は、1つのHyperEstraierエンジンを立ち上げ、1つの検索インデックスを使って、検索もインデックス更新も行う仕組みであるため、最大で数十万文書を超えると、検索性能やインデックス更新性能が著しく低下してしまいます。
おおよそ、30万文書×100ユーザ程度が限界とお考えください。

鉄飛テクノロジーでは、この限界を越えるため「FileBlogエンタープライズ版」の開発を行って参りましたが、おおよそ製品リリースの目処が立ちました。

エンタープライズ版では、「HyperEstraier」検索エンジンのプロセスを複数起動し、それぞれの検索エンジンが、分割された複数の検索インデックスを更新・参照するようにします。また、検索用のインデックスと、更新用のインデックスと、全文検索インデックスを二重に用意することで、インデックス構築中・更新中の検索性能低下を防ぎます。

さらに、全文検索インデックスの定期的なバックアップを行いながら、更新用インデックスと参照用インデックスの入れ替え(ローテーション)も含め、全自動でHyperEstraierの運用を行います。

200万ファイルのファイルサーバで、テキスト抽出も含めた全文検索インデックス構築の所要時間がおよそ24時間でした。また、その後のプレビュー作成も40時間程度でした。(クアッドコアXEON × 2CPU、メモリ4GB、HDD8台のマシンで、マルチスレッド処理によりCPUをフルに使っての実績値です)

既存の全文検索システムでは、インデックス構築に何週間もかかってしまっていた方、従来の文書管理システムでは、登録可能ファイル数が数千件と少なかったという方、FileBlogは最新ハードウェアとの組み合わせで、不可能を可能にできるかも知れません。

どうぞお気軽にご相談ください。