手書き文字認識モジュールつくったんだけど
学習データが圧倒的に足りないんです、悲しいぐらいに。
とりあえず今はTomoeのデータ使わせてもらってるんだけど
素のTomoeのデータはとてもじゃないけど普通に使えるレベル
じゃないんです。

例えば、書き順がめちゃくちゃ
「止」「上」は、縦線から書くのがたぶん正しい書き順なんだろうけど
tomoeのデータだと、この2つは横線から始まってるし
かとおもったら「歩」に乗っかってる「止」の部分は縦線から始まってる。
「斗」と「科」の書き順も逆になってたり、バラバラで統一されてないし。
まぁ書き順はエンジンの方でなんとでもなるんだけど
もっと酷いのが「旨」
「ヒ」の横棒の部分、は右から左にはらうのが正しい書き方だとおもうんだけど
「指」と「旨」でバラバラだったり、こういうの直してるだけで泣きそうになる。