>>64の実装に向けた仕様

辞書として
ID<tab>単語<tab>区分<tab>言語
というフォーマットをもつ辞書を作成する。
ID:ユニークな文字列
単語:辞書に登録する単語
区分:名詞とかサ変動詞とか
言語:日本語とか英語とか

区分と言語については、将来用とする

入力された文章に対して辞書を参考にマッチングをおこない
該当する単語が見つかったところで、文章を切り分ける。
切り分けた文章を、再びマッチング作業にかける。

マッチングに当たらなければ、新語として評価対象とする。
マッチングするときには文字数の大きな単語を優先しておこなう。

新語であるかどうかの評価は、別なモジュールによっておこなう。
(このモジュールは、当面、人間が代用する。)
ここでは、候補を作ることのみをおこなう。

こんな仕様ならなんとなく実装できる気がする。