solr

ファイルをtikaで解析してSolrのインデックスに入れるDataImportHandlerの設定

Solr 3.1からTikaEntityProcessorというDataImportHandler用のProcessorがついたけど、これをDataSourceや他のProcessorとどう組み合わせて良いかがさっぱりわからない。ぐぐりつつ試してみて、あるディレクトリ以下のファイルを全て取り込むのは多分これで…

QueryElevationComponent

QueryElevationComponentを読んでみる。http://www.jarvana.com/jarvana/view/org/apache/solr/solr-core/1.4.1/solr-core-1.4.1-sources.jar!/org/apache/solr/handler/component/QueryElevationComponent.java?format=okQueryElevationComponentの実装は以…

Apache Solrソースコードリーディング SearchHandler/SearchComponent

Solrのソースコードを読んでいる。 拡張ポイントが多いので、読むと結構工夫できそうなところがあって面白い。記録に残すため、少しずつ書いてみようかと思う。まず、エントリーポイントに近いSearchHandlerと、SearchComponent SearchHandlerの前に、Reques…

FastVectorHighlighterとSynonymFilter

Solrで、SynonymFilterを使ってクエリ時にキーワード展開を試してみた。 ところが、検索結果のスニペットがSolrから空っぽでかえってくる。 調査してみると、以下の条件で問題が起こる。 CJKTokenizerなどのN-Gramトークンを使っている SynonymFilterの設定…

Apache Solrのログをlogback経由で出力する

SolrのログはTomcatにデプロイするとcatalina.outに出てくるんだけど、それがJDK logging経由なのでえらくフォーマットやローテーションが難しい。Solrは1.4からslf4jをloggingのinterfaceに利用しているので、logbackに実装を変更することも簡単のはずなの…