Strict-HTML スレッド24

**Name_Not_Found** · 04/10/21 17:48:02

>>284
例えば、漏れは某ディレクトリ型検索サイトのHTMLを取得して新着サイトをリストアップ、キーワード別に分類するようなソフトを書いたのだが、そのサイトがテーブルレイアウトのページでしか情報を提供してなかったのよ。
で、乱れ飛ぶtdタグと睨めっこをしながらフィールドを切り分け。当然ValidなHTMLでも整形式のXHTMLですらないから文字列として正規表現で切り分け。
しかもマークアップもたまに変則的なのが混ってたり、自然言語を解析しないと分らない記述や、酷いときには視覚に頼らないと分らない記述があって完全には解析できてない。

こういうソフトを作るのは一部の人間とはいえ、全てのサイトがせめてValidであれば検索エンジンやブラウザはもっと便利な機能を提供できる。
比較的ちゃんと書かれたものが多いRSSや、形式がある程度定まっている2chのdatファイルを処理するソフトはIEなんかよりずっと便利な機能を提供してるのが良い例。