Francisの日記: 人間型ロボットの実環境での音声認識を実現
日記 by
Francis
うーん、これタイトル悪くない?
人間型ロボットの実環境での音声認識を実現
要はセンサフュージョンですな。
まず面白いのは、Prometのアプローチが継続している事。
Prometは実は3眼視である。人間が2眼なのに3眼を選ぶあたり合理的なのだ。
今度は音像の定位に耳二つじゃなくて8つと来ました。
人間の真似をさせて人間がどうやってたのか知る、というのがAIやロボットの目的の一つにあるんだけど、その目的をいったんうっちゃって人間並みの事をさせたいのなら、人間のハードウエアに縛られる必要はないのだ。
その「縛られない」姿勢が、プロメテに関しては好きだ。
まあ縛られなさ過ぎると2脚ってどうよ?ってなっちゃいそうだけどorz
今回のキモは耳で方向を特定して顔を見て方向を完全に決定、その方向以外の雑音を除去して音源分離してあとは音声認識。
あとこれ音声認識が驚くことにOSSなのな。連続音声認識ソフトウェアJulius
人間型ロボットの実環境での音声認識を実現 More ログイン