メッセージ。 - Webstemmer
# Webstemmer
http://ukai.org/mu/経由、http://www.unixuser.org/~euske/python/webstemmer/index-j.html。
とのこと。Webサイトの構造を学習させて、閲覧するときは学習させたレイアウト情報を使うらしい。新山さんらしい面白さだね。
Webstemmer は web クローラ兼 HTML レイアウト分析プログラムです。これはニュースサイトからプレインテキスト形式で記事本文とタイトルだけを自動的に抽出し、バナーや広告、ナビゲーション用のリンクなどはとり除きます。サイトのトップページの URL さえ与えれば全自動で解析するため、人手の介入はほとんど必要ありません。
とのこと。Webサイトの構造を学習させて、閲覧するときは学習させたレイアウト情報を使うらしい。新山さんらしい面白さだね。
Comment
Trackback