« 「Quick JUnit Plugin」でコーディング効率がぐんとアップ! | メイン | MovableType@land.to (広告の表示位置修正編) »

「Lucene」で自分専用の情報ピックアップエンジンをつくりませんか?

  はてなブックマークに追加 このエントリを livedoor クリップへ追加

日々、膨大に提供される情報のなかから、できるだけ多くの情報を見比べて、経験や勘でよさそうなものをピックアップして読むといったことを繰り返していると思います。

この作業、さすがに疲れます。


そこで、ピックアップ作業を任せられる自分コピー、あるいは秘書プログラムをつくるべく活動を開始しました(笑)。

情報収集には、RSSアグリゲータやクローラを利用しようと思います。集めた情報のなかから、有用な情報をピックアップする作業は、検索エンジンライブラリを利用して構築しようと思います。


それってRSSリーダや既存の検索エンジンとなにが違うの?という声が聞こえてきそうです。


ポイントは、利用者一人ひとりにとって、有用な情報をピックアップしやすい仕組みを好みで追加する点です。


いろいろな仕組みが考えられると思います。

簡単に実現できそうな仕組みのひとつとして、検索結果のスコアリング関数を自分で簡単に調整できるようにすることが考えられます。

さらに、スコアリング関数を調整するには、例えば、メールのスパムフィルタのような仕組みで、有用な情報とそうでないものを学習して、その結果をスコアリング関数に反映させるといった方法を用いることができそうです。


いろいろ実験するために、「Lucene」を利用してコーディングしてみようと思います。「Lucene」は、Javaで書かれたテキスト検索エンジンライブラリです。


今日は、ローカルにあるファイルにインデックスをつけて、キーワード検索するデモを実行してみました。さらに、デモのソースを見てお勉強です。


今後は、デモのソースコードをベースにしていろいろ試行錯誤してみるつもりです。面白くなりそうだとおもうのは、私だけでしょうか?(笑)




Ads BOARD








最近のエントリーとその関連エントリー

トラックバック

このエントリーのトラックバックURL:
http://kazuhiro.ty.land.to/blog/mt-tb.cgi/106

  Map