ってわけで、n-gram法での文章の特徴解析の実装例

http://www.ff.iij4u.or.jp/~ranmaru/ai/sor/yomiko.rb

今回は3文字づつ抽出する、3-gram法を使ってみた。
なんとなく、マルコフモデルの文作成と親和性が高そうな気がする。

この方法で文章の特徴を解析できるかもしれないが、
文そのものの意味を理解できるとは思えない。
まぁ、人工無能という観点でみると、意味を理解している必要は無いのだが

文章というものが「単語」を基礎単位として成り立っているものと考えると
「単語」を抽出できるのが、もっとも望ましいと考えることが出来る。

英語であれば「I am a pen」と言った感じに単語の区切りがはっきりしているが
日本語はその性質上はっきりしていない。

そこで、逆に日本語の性質である、漢字、カタカナ、ひらがな、といった多数の文字を
取り扱うことを利用して、単語抽出が出来ないか考えてみる。