ウェブスクレイピングという言葉がある。英語だとWeb Scraping。ちなみにScrapは「新聞記事を切り抜いてスクラップする」の「スクラップ」と同じだけど、ingが付くと「スクラッピング」じゃなくて「スクレイピング」と読む。ウェブサイトから情報を抽出することを「ウェブスクレイピング」と呼ぶらしい。
ウェブスクレイピング – Wikipedia
http://ja.wikipedia.org/wiki/%E3%82%A6%E3%82%A7%E3%83%96%E3%82%B9%E3%82%AF%E3%83%AC%E3%82%A4%E3%83%94%E3%83%B3%E3%82%B0
ウェブサイトから情報を取得する場合、RSSやウェブサービスなどのAPIが用意されていればそれを使うけど、そうじゃなければウェブページのソースから情報を抜き出す仕組みが必要になる。それがウェブスクレイピングだ。ウェブスクレイピングに役立ちそうなHTMLパーサーを探したところ幾つかヒットしたので、実際に試しているブログ記事などと共に以下にリンクをまとめておく。たぶん近いうちにお世話になりそう。
Simple HTML DOM Parser
PHP Simple HTML DOM Parser
http://simplehtmldom.sourceforge.net/
PHPでHTMLをパースして解析、編集して保存する方法 – さとうさんのキロク
http://sato-san.hatenadiary.jp/entry/2013/05/06/155919
PHP Simple HTML DOM Parserの使用方法 – Webスクレイピング ライブラリ
http://www.crystal-creation.com/web-app/tech/programming/php/library/simplehtmldom/
PHP Simple HTML DOM Parserを使ったWebスクレイピング入門 – Qiita
http://qiita.com/esehara@github/items/db231c99f8076aabdfb2
DOMDocument
PHP: DOM – Manual
http://www.php.net/manual/ja/book.dom.php
PHPでHTMLをパースして解析する簡単な方法 | 三度の飯とエレクトロン
http://blog.katty.in/1400
Goutte
fabpot/Goutte · GitHub
https://github.com/fabpot/goutte
WebスクレイピングライブラリGoutteで遊んでみる – hnwの日記
http://d.hatena.ne.jp/hnw/20120115
そろそろ Simple HTML DOM Parser を使うのはやめたほうがいい – localdisk
http://localdisk.hatenablog.com/entry/2014/02/05/%E3%81%9D%E3%82%8D%E3%81%9D%E3%82%8D_Simple_HTML_DOM_Parser_%E3%82%92%E4%BD%BF%E3%81%86%E3%81%AE%E3%81%AF%E3%82%84%E3%82%81%E3%81%9F%E3%81%BB%E3%81%86%E3%81%8C%E3%81%84%E3%81%84