【第101回】
「LASSE」
リンクのたどれる範囲から全文検索できるリアルタイムサーチエンジン
(00/10/23)
検索サービスのgooやinfoseekといった全文検索の弱点は、しばしばデータが古くてリンク切れがあることや、検索ロボットからのアクセスを拒否するサイトは検索できないこと、うまく絞り込まないとヒット数が膨大になることなどがあげられるだろう。特に3つめの問題は、例えば株関係のオンラインソフトを探したくて「株式」と入力して検索すると、「株式会社○○○」にもヒットしてしまうといったことになる。これは検索する範囲が広すぎるからで、特定の、例えば窓の杜のライブラリ内を中心にして検索できれば、目的のページを見つけだすのは容易になるはずだ。そこで今回は特定のURLからたどれるリンク先だけを検索することで分野を絞った検索ができ、検索結果リストにはリンク切れも起こらないというWeb検索ソフトを紹介しよう。
どんなソフト?……リンクをたどりながらWebページを全文検索するソフト
「LASSE」は、あるURLからリンクを次々にたどりながらWebページを全文検索するというWeb検索ソフトだ。検索の起点となるURLと検索したいキーワードを入力すると、起点URLからすべてのリンクをたどりながらWebページ内を次々に検索し、ヒットしたページをリストアップしていく。定期的にWebを巡回して一旦蓄積したデータベースをもとに検索を行う一般的なサーチエンジンとは異なり、リアルタイムにリンクをたどるため検索に時間はかかるものの、検索結果にリンク切れがなく、常に最新のWebページ内容を検索できる。また、インターネット全体ではなく起点URLからリンクでたどれるWebページだけを、いわばピンポイントに検索できるのが特長だ。検索結果のデータは保存しておくことでキャッシュとなり、過去に検索したキーワードの再検索が高速になる。また、この過去検索データをFTPでWebサーバー上に置いて、他のユーザーと共有することもできる。
「LASSE」の使い方は簡単。ウィンドウ上部にある[検索元サイト]の欄にURLを入力し、ウィンドウ中央の[検索条件]の入力欄に検索したいキーワードを入力して、[検索結果]ボタンを押すだけだ。サイト内の相対リンクはもちろん、サイトをまたいだ絶対リンクも含め、すべてのリンクをたどりながらWebページ内を検索してくれる。あらかじめ検索対象外にするURLも指定できるので、検索対象のリンク数が膨大になるYahoo!のような大規模総合リンク集サイトは検索対象外にしておくといいだろう。検索条件には、全ての語を含むいわゆる“AND条件”、いずれかの語を含む“OR条件”、どの語も含まない“NOT条件”を指定できる。検索でヒットしたURLは別ウィンドウにリストアップされ、リストをダブルクリックするとWebブラウザーがそのWebページを開いてくれる。
「LASSE」は入力したURLからリンクをたどり、リンク先のWebページ内にあるリンクもすべてたどりながら検索していくため、検索対象となるWebページがねずみ算式に増えていくことがある。そのため検索終了の条件として、標準では検索済みのWebページ数が1,000になれば自動的に検索が終了するよう設定されている。もちろん検索途中でユーザーが[検索終了]ボタンを押せば、いつでも好きなときに検索を終了することができる。また検索終了の条件としては、ヒットしたWebページ数や、検索待ちのWebページ数、すなわちリンクをたどる予定のWebページでまだアクセスしていないページの数が一定の数に達したところで検索を終了するオプションもある。
例えば窓の杜ライブラリの中にある株関係のソフトを、窓の杜にあるサイト内検索サービスを使わずに探すとしよう。この場合、ライブラリトップページのURLを[検索元サイト]として入力、検索条件には「株式」と入力する。「株式会社」にはヒットしないようにするため、「株式会社」や「(株)」を[どの語も含まない]の欄に入力しておいてもいいだろう。あとは[検索開始]を押すと、ISDN 64kbps接続で回線の混雑がなければ、2~3分で窓の杜ライブラリ内の「あいうえお順INDEX」と「シェル・実務など - その他」のURLがリストアップされてくる。それぞれのページを開いてみれば、「シェル・実務など - その他」には株関連のソフトが数多く掲載されていることがわかる。なお、起動直後の標準の設定のままでは1,000ページ分を検索してヒットした3ページをリストアップしたところで検索が終了するが、検索対象外のURLを指定したり検索ページ数を増やすことで、ライブラリ内からリンクされている作者ホームページまで検索することも可能だ。
「LASSE」が検索した結果は、検索キーワードとヒットしたURLを“lasse.ssl”というファイルに記録し、「LASSE」のインストールフォルダに保存する。設定でこのファイルを利用するよう指定しておくと、これをキャッシュとして使い、過去に検索したことのあるキーワードなら高速に検索結果を表示する。また、この検索結果ファイルをユーザーが自分のホームページスペースにFTPでアップロードできるという機能が面白い。つまり、自分のホームページに他のユーザーが「LASSE」を使った検索でたどり着いたとき、「LASSE」はそこにアップロードされた“lasse.ssl”を最初に参照し、検索キーワードが一致すればその中に記録されたURLをすぐにリストアップするようになるのだ。
“lasse.ssl”をアップロードするには、あらかじめFTP送信するホスト名やパスワードなどを設定で入力しておき、[LASSE終了時にFTP登録を行う]というオプションをチェックしておく。すると「LASSE」の終了時にFTP送信ウィンドウが自動的に開いて、マウスで簡単に“lasse.ssl”をアップロードできる。逆に、検索時に他のユーザーがアップロードした“lasse.ssl”を利用して検索したいときは、検索前にあらかじめ[ネットワークのSSLファイルを用いたサーチをする]というオプションをONにしておけばよい。
ここがスゴイ!……検索結果はネット上に蓄積できる
「LASSE」のスゴイところは、広大なインターネットをいわばピンポイントにリアルタイム検索できるということだが、さらにユニークなのは、検索データを「LASSE」ユーザー同士で共有する機能を備えている点だろう。ユーザーそれぞれが検索結果ファイルを自分のホームページにアップロードして公開する必要があるとはいえ、公開手順は簡単だ。もちろん公開するかしないかはユーザーの判断に任されており、勝手にアップロードされてしまう心配はない。当然ながら検索結果ファイルをアップロードするユーザーが増えるまでは、効果はあまり期待できないが、こういったユーザー同士でデータを共有しようというアイデアはなかなか面白いと言える。
こんな場合に便利……特定サイトを中心に情報検索したいとき
音楽関係やパソコン関係など、分野を絞って特定のサイトを中心に情報を検索したいとき、「LASSE」は威力を発揮するだろう。例えば、芸能人のファンサイトには他のファンサイトへのリンクが掲載されていることが多いから、ファンサイトを中心にその芸能人に関するキーワードを検索したいような場合に「LASSE」が役に立つ。また個人運営サイトの中には、広く一般人向けではないマニアックな情報を載せているなどの理由から、HTMLのMETAタグを使って全文検索サイトの検索ロボットによるアクセスをあえて拒否する設定にしているサイトもしばしばある。このようなややクローズドなサイトに対しても、「LASSE」ならキーワード検索することができて便利だ。
使用上の注意は?……検索には時間がかかり、サイト内限定の検索はできない
「LASSE」がリアルタイムにリンクをたどってWebページを検索するという長所は、逆にリンクをその都度たどるための時間がかかるという欠点になっていることには注意しておきたい。大手の全文検索エンジンでうまく目的のページを見つけられなかった場合に「LASSE」を使うなど、用途によって使い分けることが必要だ。また、特定のサイト内だけを検索してくれるようなオプションがほしい。必要な情報が明らかに特定のサイトの中にあることがわかっている場合などは、他のサイトを探さず集中的にそのサイト内だけを探してくれるほうが効率的だからだ。そのほか、筆者が試した限りでは、ときどき検索が何10秒も止まってしまう現象が見られた。利用環境や対象サイトの構造にもよるのかもしれないが、将来的にはこの辺りが改善されることを望みたい。
【著作権者】Kumakichi(Gaku Yasui) 氏
【ソフト種別】フリーソフト
【バージョン】1.0(00/09/19)
□Metallic Moon - Kumakichi's Web Site
http://www.din.or.jp/~gaku-y/
(ひぐち たかし)