[PHP] ウェブスクレイピングに役立つHTMLパーサーの参考リンクまとめ

Categories:

ウェブスクレイピングという言葉がある。英語だとWeb Scraping。ちなみにScrapは「新聞記事を切り抜いてスクラップする」の「スクラップ」と同じだけど、ingが付くと「スクラッピング」じゃなくて「スクレイピング」と読む。ウェブサイトから情報を抽出することを「ウェブスクレイピング」と呼ぶらしい。

ウェブスクレイピング – Wikipedia
http://ja.wikipedia.org/wiki/%E3%82%A6%E3%82%A7%E3%83%96%E3%82%B9%E3%82%AF%E3%83%AC%E3%82%A4%E3%83%94%E3%83%B3%E3%82%B0

ウェブサイトから情報を取得する場合、RSSやウェブサービスなどのAPIが用意されていればそれを使うけど、そうじゃなければウェブページのソースから情報を抜き出す仕組みが必要になる。それがウェブスクレイピングだ。ウェブスクレイピングに役立ちそうなHTMLパーサーを探したところ幾つかヒットしたので、実際に試しているブログ記事などと共に以下にリンクをまとめておく。たぶん近いうちにお世話になりそう。