>>11
問題は負荷だよ。
それと収集した情報の公開方法か。

拾ってくるのは公開されているページだから収集はOK。
グーグルやヤフーのキャッシュなんかページ丸ごと取るわけだしね。