例えば2chからスレの文字列を全部取得して、
京大とかが無償提供している形態素解析器とか使って
未知語をピックアップするシステムだけなら、
phpで500行で、1日で出来る。っていうか、昔大学でやっていたし。

で、それをベースにして後は一年掛けて言葉を付け加えていくだけ。
ちなみに、言葉を100%自動分類なんてできない。80%見つければ上々でしょ。