メッセージ。 - 訪問したページを全て記録して検索

# 訪問したページを全て記録して検索

訪問したページを全て記録して検索

「ネット上で見て回った情報に関しては、ページを表示した瞬間にURLを逐一、取得・記録する」というのは、ぼくもやりたいと思っています。「昔見たはずのあのページ、もう一度見たいなぁ」と思うことが多い一方で、それを見つけるのは結構大変だから。

また、「最上さんや増井さんのように優秀な方がこういう要望を上げている」ということからも分かるように、そういう情報処理術は本質的に価値があると思うんですよね。

というのも、人間は、自分の興味や発想の外にあるものを検索できないですから。何かを探すとき、自分が知っていることの周辺から探す以外の方法を持たないです。そのため、情報収集や情報理解の技術力を高めたければ、「自分が知っていること」からのリーチ可能性を高めなければいけないんですね。

その意味で、「自分が知っていること」の1つであるWeb閲覧履歴というのは、非常に有用性が高いとぼくは思っています。で、一応そういったツールをいろいろ検討しているのですけど。

いまのところ、Webプロキシータイプのソフトウェアが、使い勝手と汎用性、あと個人的に作りやすさの面で一番いいかなと思っています。たとえば、wgetを使って気にいったWebページを保存することってありますけど、それだとURLは記録されていないし、相対パス/絶対パスの扱いがかなり煩雑です。また、「過去存在したはずのWebページが、いま見たら404 Not Found」という状態を避けるために、「過去に見たページをそのときのまま保存し、後で再生できる」という機能はぜひ欲しいところです。

というわけで、ぼくの場合は、こういった要件を満たすためのツールを、(完成度はめちゃめちゃ低いのですけど)Gaucheで作ってたまに使っています。んー。まだまだ実用になるレベルではないですけど、一応ソース置いておきますね。GaucheでWebプロキシサーバーを作るときの参考や、こういった要件に対する実装例ぐらいにはなればいいなぁ。
http://pikapika.to/~yf/source/cproxy.scm

使い方は、ダウンロードして、「gosh cproxy.scm」と実行するだけです。8080ポートでプロキシサーバーが起動するので、Webブラウザのプロキシ設定を変更してください(たとえばFirefoxの場合は、「ツール」メニューから「オプション」→「接続設定」でプロキシを変更できます。「直接接続するサイト」の欄に、そのサーバーのホスト名を入れる必要あるので注意)。閲覧するページは、cproxy.scmを起動したディレクトリ直下のcproxy/に保存されます。過去のログを閲覧したければ、http://localhost:8080/などとしてcproxy.scmが動いているサーバーに8080ポート経由でアクセスします。

機能的には、

 1、加工を加えずhtmlソースを保存、アドレスと時刻を記録
実装済み

 2、保存は差分を記録
保存は差分じゃなくて全部です。結構富豪的な処理をしちゃってます。

 3、イメージは最低限大きさを記録、巡回頻度に応じて解像度をあげる
あー。こういうのはやってないです。単に保存しているだけです。富豪です。

 4、全文検索できる
転置インデックスによる全文検索には対応していないです。単純なgrep方式で、タイムスタンプの新しいものからn件検索という感じです。

 5、訪問時期、回数などのデータも検索結果のランキングに加えられる
これもやっていないですね。個人用のツールとして作ったものということもあり、複雑なことをやっていないのです(そのかわり、ソースは500行程度ですのでカスタマイズは楽かもと)。「タイムスタンプの新しいものからn件grep」というのは、ある程度要求する処理に近似するかなーという適当な作りになっています、現状では。
2006-10-22 09:39:24 / ふじさわ / Comment: 0 / Trackback: 0

Comment

コメント投稿機能は無効化されています。

Trackback

TrackBack投稿機能は無効化されています。