メッセージ。 - Webstemmer

# Webstemmer

http://ukai.org/mu/経由、http://www.unixuser.org/~euske/python/webstemmer/index-j.html
 Webstemmer は web クローラ兼 HTML レイアウト分析プログラムです。これはニュースサイトからプレインテキスト形式で記事本文とタイトルだけを自動的に抽出し、バナーや広告、ナビゲーション用のリンクなどはとり除きます。サイトのトップページの URL さえ与えれば全自動で解析するため、人手の介入はほとんど必要ありません。

とのこと。Webサイトの構造を学習させて、閲覧するときは学習させたレイアウト情報を使うらしい。新山さんらしい面白さだね。
2005-06-10 15:38:17 / ふじさわ / Comment: 0 / Trackback: 0

Comment

コメント投稿機能は無効化されています。

Trackback

TrackBack投稿機能は無効化されています。