トップページphp
476コメント155KB

人工無脳

■ このスレッドは過去ログ倉庫に格納されています
0001102/05/07 05:55ID:JxGSPxBK
いい人工無脳ありませんか?
0451nobodyさん2010/05/18(火) 15:19:22ID:???
>>450
>〜って何?
>とか

>成り立たない文章とか生成しないかい?
MeCabはタダの形態素解析エンジンだぞ?
人工無能で文章生成する部分はMeCabの担当じゃない
もちろん変な解析のせいで最終的に変になるかもしれ無いが
殆どは変な(若しくは簡単な)生成や変な構文解析のせいで変な文になると思うよ
0452nobodyさん2010/05/19(水) 01:00:01ID:???
多分行き違いがある値と思うんだがチャット等で人間の会話する時にも
解析させるとき単純に名詞だけ抜くのではなく無能にその言い回しを覚えさせたいので

あまりばらばらにされると困るばらばらにしすぎるから変な日本語になると思うんだ

辞書登録定分返し方式みたいに
こんにちは〜
と入力されたら
こんにちは と反射的に返すみたいに

半分定分にしたい

原文
こんにちは今日も良い天気ですね

解析後
こんにちは/今日も/良い/天気/ですね

このくらいの分解がほしい

mecabなどは逆に高精度過ぎて
すもももももももものうち
分解できてしまうのが困るんだ

とりあえず、辞書参照には改造できた
検索時間がもっとかかると思ったけど
なかなか早いエクセルのおかげだけど
ポケモンショックがおきそうだな

ほかの言語に移植したら死ぬほど遅くなるかもしれないが
0453nobodyさん2010/05/19(水) 02:55:41ID:???
品詞も教えてくれるんだから分けたあと希望の単位にくっつければ良いだけ
くっつけた塊も一つの品詞としてみなせば好きなだけ粗く出来る(最後は一つの文になる)
この方法なら塊単位のマルコフ連鎖でスムーズな日本後にも出来る

しかしお前さんには何を言っても無駄なようなのでもう諦める
0454nobodyさん2010/05/20(木) 00:13:15ID:???
説得いわれはないと思うんだが

普通に
>>453
のような無脳を作ってもほかの無脳と同じになるだけだろうに
それでは意味がない

ほかの手法を模索してるだけ

格段と入力は速くなったが
文節用の辞書登録も先が見えんとつらいなァ

5文字分総当りで作って その中から検索したほうが先が見えるだけ言いか
50^5=312500000とおりだからなぁ
0455nobodyさん2010/05/20(木) 04:46:00ID:???
説得と言うか俺としては
貴方のやってる事よりも
やろうとしてる事が出来るめんどくさく無い方法が有るから
教えてるつもり
もちろんはた迷惑の大きなお世話かもしれんが

あと>>453の方法を使った無脳はいまんとこ見た事無いぞ
(俺が以前作った構文解析もどきはこの方法使ったけど)
0456nobodyさん2010/05/21(金) 00:12:29ID:???
めんどくささは人が感じるものだろ
やってることが違うのでめんどくささが変わる

モレのやってるのは、半分辞書型、半分解析方


すもももももももものうち
これは、理解できないければ、分割しなくても良く
定分にするだけ

いま、分活用の辞書を作ってるが
たとえば

〜れるような〜

分割せず
れるようなで半分定分に

焼/かれるような/恋
とか
引き裂/かれるような/痛み
とか、定分返しにしようとしてるだけ
やってることは、辞書型に近い

下手に解析され
引き裂か/れる/よう/な/痛み
にされるとあとで合成というめんどくさいことをしなくてはならない

現在475品詞登録
ある文中
出現品詞総数769中636解析 82%
もう少し登録しながらいろんな文を読ませてみる
0457nobodyさん2010/05/21(金) 00:17:45ID:???
もう少し書くと単純にひらがな・漢字ではなく

原文
もう少し登録しながらいろんな文を読ませてみる

この分は
もう少し登録/しながら/いろんな文を読ませてみる
ここで分けるのは必要
0458nobodyさん2010/05/21(金) 13:42:49ID:???
原文
まりあさんじゅうなささい

解析
まりあさん/じゅうなささい

まりあ/さんじゅうなささい

難しい



0459nobodyさん2010/05/22(土) 00:44:26ID:???
品詞抜き出しは80%前後からもぐらたたき状態に
なったので
名詞につながる品詞を解析中

オーソドックスなのは
名詞 + ”は” だけど

会話だと
名詞 + ”wwwww”
とか使いやがる

漢字 と ひらがな 記号ではじめ分けたのが失敗だな
段落がわからん

ちょっと頭に上って改造しよう
0460nobodyさん2010/05/22(土) 00:56:01ID:???
ブログに書け
0461nobodyさん2010/05/22(土) 13:13:41ID:???
回らないスレッドをまわしてちょっと盛り上がって
ついてこれず切れるとこうなるのはパターン



無脳作ってると多分はまるパターンなんだが

みゆきちかわいいよみゆきち

元ねたを知ってるから

みゆきち/かわいいよ/みゆきち
に分割できるが

初めて登場するとうまく分割できない

解析器では
みゆき  名詞,固有名詞,人名,名,*,*,みゆき,ミユキ,ミユキ
ちかわ  動詞,自立,*,*,五段・ワ行促音便,未然形,ちかう,チカワ,チカワ
いい   形容詞,自立,*,*,形容詞・イイ,基本形,いい,イイ,イイ
よみ   名詞,一般,*,*,*,*,よみ,ヨミ,ヨミ
ゆ    名詞,一般,*,*,*,*,ゆ,ユ,ユ
きち   名詞,サ変接続,*,*,*,*,きち,キチ,キチ

どうやって解析しよう?
0462nobodyさん2010/05/22(土) 17:11:27ID:???
かわいいよ もしくは みゆきち
を辞書にいれれば終了
0463nobodyさん2010/05/23(日) 00:41:57ID:???
わかってないな

かわいいよ
いいよ
は事前に登録されているだろうから
みゆきちかわ/いいよ/みゆきち
もなくはない

それは、辞書未登録言語 が着たら
その発言に対して 無反応ってことだよ

〜ってなに?と聞く人工無脳
0464nobodyさん2010/05/23(日) 10:09:49ID:???
そこはコスト付けでどうとでもなる
例えばみゆきちって言葉を優先的に使っで欲しいなら
そのコストを小さく登録すれば良いし
又は何らかの方法でみゆきちは絶対一つの形態素と分かるなら制限付き解析してやれば良い

あと
>それは、辞書未登録言語 が着たら
>その発言に対して 無反応ってことだよ
ここは形態素解析とは無関係
未知語の処理はデフォルトでは文字種(ひらがな、数字、漢字等)
でわかつようだけどそこも設定出来るから
未知語を未知語として出力させる事も出来る
後はその出力をどう調理するかは作者の腕の見せ所

〜って何?
って方法しか思いつか無いならそれだけの腕って事だ
0465nobodyさん2010/05/23(日) 14:23:42ID:???
なぜ考え方が違うって考えないんだろうか

文法の自己学習を目指しているんだから
未知語が名詞なのか形容詞なのか動詞なのかを分けないといけない

単純に
未知語=名詞ではない

たとえ名詞だとしても
固有名詞なのか地名なのか一般名詞なのかによっても
次につながる助詞は違う
0466nobodyさん2010/05/23(日) 15:39:51ID:???
>>465
わから無い、分けれ無いから未知語な訳で
そこからはもう形態素解析の範囲外、限界なんだよ
例えば今スワヒリ語の単語聞かされてそれがどんな品詞かなんてわかる訳がないだろ?
そう言う事だ

ただ、MeCabデフォ辞書で日本語を解析した場合
未知語は名詞と考えてほぼ間違いない
動詞、助詞等などは数は限られてるから辞書に乗ってるのでかなりカバー出来る
それに比べ名詞はそれこそ無限にあるようなもんだから未知語は大抵名詞だと言える

ただ地名、固有名詞、普通名詞で分ける事はむずかしいだろう
一つの方法としてはすでに何名詞かわかってる名詞と助詞等の繋がりを文から学習させて同じ繋がりならそれと同じ名詞とする
等があるが絶対的に分けるのはむり

だけどそれは(あなたの考える無脳は違うかもしれ無いけど)文法的に正しい文を作る上で必要な情報じゃない
もちろん意味的に正しい文作りたいなら
この情報が必要だけど
これは人間にも無理だからしょうがない

例えば
明治のチョコ
って言った場合
この明治は会社名なのか、時代のことなのか、はたまた明治村の事かもしれ無い
これは人でも正確に形態素解析でき無い
でも大して問題では無いでしょ
0467nobodyさん2010/05/24(月) 21:43:25ID:???
すべて未知語=名詞にしてはいけない 日本語は文面からその言葉を探ってるって言うことをお忘れなく
〜 の 〜 は 名詞 の 名詞 〜な 〜 は 形容詞 + 名詞
未知語であったググる だって 〜る とつくから 動詞として扱われている
ケバい ナウい(死語)もそう

言葉尻で動詞なのか形容詞なのか名詞なのかは区別つくよ 
明治のチョコ なら 明治=名詞 チョコ=名詞だ
明治 には ほかにも会社名 時代名 など属性が着くがその明治がなにを指しているのかは物面から判別できるだろ
明治近辺につく動詞 形容詞は 学習できるから
明治のチョコはおいしい
という 文面があれば 明治 チョコ おいしい を関連付けて辞書に登録すればいい
0468nobodyさん2010/05/24(月) 21:52:45ID:???
明治 チョコ
チョコ 明治 おいしい
おいしい チョコ
そして、〜の〜の場合 終わりの名詞の方が重要になってくるからチョコのほうが話が持っていきやすい
名詞につながる一文字の品詞は

明治か 明治が 明治さ 明治だ 明治で 明治と 明治に
明治ね 明治の 明治は 明治へ 明治も 明治や 明治を
二文字は(80文字^2=6400語 その中で日本語の助詞として成り立っているものは)
そんなにない、今は143語登録済みまだ出るかもしれないが

明治る と 日本語は今は存在しないが
もし文面出てこれば 明治を動詞として扱えばいい
ただ、この場合名詞の明治と動詞の明治は別物だが 日本語としては成り立つはず
現在そこは作っている(辞書の完成度がまだまだだが80%は解析できる)
ひらがなにだけ分けたときの 接頭 接尾の判定はできる(現在は接頭だけ)
0469nobodyさん2010/05/24(月) 21:57:36ID:???

かわいいよみゆきち これはすでに判定できる
みゆきちかわいいよ これも多分判定できる
接頭を一文字ずつ削って 8回辞書を舐めればいい

みゆきちかわいいよみゆきち
これが判定できなくて困ってるんだ
辞書のほうから舐めるのが一番簡単だが総当りになるので時間がかかりそう
0470nobodyさん2010/05/25(火) 00:37:42ID:???
>>467-469
反論しようと思ったが結局堂々巡りになりそうなので辞める
そこら辺自分の考えで突き進むならブログに書いてね
ここに書くって事は他の人の意見が欲しいのかと思ったが
どうやら俺の考え凄いだろ!った言いたいだけの様だから
0471名無しさん@そうだ選挙に行こう2010/07/10(土) 20:09:17ID:???
関連スレ

・【Twitter】 BOT製作支援スレ part2
http://pc11.2ch.net/test/read.cgi/php/1263824322/

・Twitterボット板
Twitter Bot BBS
http://jbbs.livedoor.jp/internet/6629/


Twitterボットを見て思ったが、無脳でもネタ的に面白いものもあるし、
認証を得た他人に自動投稿させるようのものもある。
面白いという観点から見ると、AI的なものは必ずしも必要ないと思った
0472nobodyさん2011/10/28(金) 04:12:49.68ID:???
保守
0473電脳プリオン 忍法帖【Lv=40,xxxPT】(2+0:8) 【17.7m】 2013/02/10(日) 19:07:48.00ID:????PLT(12080)
ねーよ
0474nobodyさん2013/02/14(木) 11:54:52.35ID:ealeoysC
保守
0475nobodyさん2013/06/08(土) 16:19:04.95ID:Jp1wTRZq
保守
0476nobodyさん2014/06/14(土) 10:29:37.53ID:???
こんにちは 赤ちゃん
■ このスレッドは過去ログ倉庫に格納されています