アカウント名:
パスワード:
より多くのコメントがこの議論にあるかもしれませんが、JavaScriptが有効ではない環境を使用している場合、クラシックなコメントシステム(D1)に設定を変更する必要があります。
吾輩はリファレンスである。名前はまだ無い -- perlの中の人
認識率がいい (スコア:3, 興味深い)
でも、でたらめな言葉を入れるとぜんぜんだめ。ハナモゲラ語には対応していない模様。
#推測しながらテキスト変換しているのかな?
Re:認識率がいい (スコア:5, 興味深い)
一般に音声認識では、単語の情報を辞書として保持しています。
決して、音のならびだけで認識しているわけではありません。
弱点として、当然ですが、知らない単語(辞書に含まない単語)を認識することはできません。
その対策として、コーパスを作って、単語を抽出し、辞書を作ったりするのですが、
新しい単語がどんどん生まれたりと、単語の情報を集めるのに苦労しています。
そこで今回の試みでは、利用者のみなさまから音声認識してほしい単語の情報を集めてみようと思っています。
http://w3voice.jp/engine/engine.html [w3voice.jp]
に、単語登録ページを用意してみました。
ちなみに、音声認識の場合、自然言語で使われる単語情報に加えて「読み」の情報が重要になります。
「東京」は、「トウキョウ」ではなく、「トーキョー」である。と、実際の発声に近い読みを与えてやる必要があります。
このため、音声認識でつかえるコーパスを作ることのハードルがすこしあがってしまいます。
ぜひ単語を登録にご協力ください。
Re:認識率がいい (スコア:4, おもしろおかしい)
塩たむらけんじ
と認識されたんですけど……。
ほかの単語でもちょくちょくたむらけんじが出てくるぅ。発音のせい?
Re:認識率がいい (スコア:3, 興味深い)
単語登録の機能 [w3voice.jp]で、追加された単語「たむらけんじ」が悪さしたようです。
単語登録はad-hocな実装にしてあるので、目で見てチェックするようにしています。
変なことがおこっているようなら、教えてほしいです。
とりあえず、「たむらけんじ」には消えていただきました。
Re:認識率がいい (スコア:0)
Re:認識率がいい (スコア:2, 興味深い)
かんせん→たむけん と誤認識し、それを変換して たむらけんじ
というロジックなら判る気がします。
Re:認識率がいい (スコア:3, 参考になる)
あたりです。
「たむらけんじ」が「タムケン」という読みで登録されていました。
まあ、この程度で誤認識はしてほしくないわけで、改良が必要ですね。
誤認識ばかりのときは、マイクのボリューム調整が悪いことが多いので、
一度、録音した自分の声を聞いて、確認してみてくださいね。
Re:認識率がいい (スコア:0)
Re:認識率がいい (スコア:1)
ところで今、目の前のテレビでちょうどアジアカップやってたので、「なかむらしゅんすけ」など吹き込んで遊んでみました。
(予想通り「俊輔」で変換されます)
Jリーグのいくつかのチーム名もやってみたのですが…
「コンサドーレ札幌」がいくら頑張ってもちゃんと認識されず寂しかったので登録したのですが…
発音が悪いのでしょうか?それともJ2だからなのでしょうか(苦笑)
アレゲやないわ!! 興味津々なだけや!!!
Re:認識率がいい (スコア:3, 興味深い)
言語情報は、コーパスを収集して、そこから統計情報を抽出することで作成されています。
このため、もととなったコーパスの性格を引き継ぎます。
今回、Webをクロールしてコーパスを作成していますが、比較的出現回数が少ない単語だと、
辞書から除外されてしまいます。まあ、つまり、J2だから。かと。
音声認識で、単語がなかなか出てくれない原因はほかにもいろいろあるんですが、
出力されないからといって落ち込まないようにお願いします。
固有名詞の音声認識はなかなか難しいのです。
ちなみに、いま、組み込んである言語モデルでは、放送局の名前が比較的よく認識されるようにチューニングしてあります。
# Web上から番組表みれたら便利かなとおもってチューニングしたんだけど、肝心の番組表をブラウズする部分を作っていない…
Re:認識率がいい (スコア:1)
試しに全国の駅名データを音声認識辞書に登録してみました。
これがうまくうごけば、Googleトランジットが音声だけで使えるのですが。
http://w3voice.jp/engine/ [w3voice.jp] から、どうぞ。
「○○駅から○○駅」で、経路探索ができます。
きびしいかな…。
Re:認識率がいい (スコア:0)
ついでに、マイナーな地元駅で試しても、成功。
実用性はともかくとして、少し未来を先取りしたみたいで、楽しいですね。
Re:認識率がいい (スコア:1, 興味深い)
他人の投稿の確認や修正が出来れば便利だと思うよ。
それに、テンプレ作っておけば、書式の乱れはあんまり起きないだろうし。
あとは、cron or タスク で定期的に辞書形式にコンバートすればいいんぢゃないの?
認識率がいいって・・・ (スコア:0)
> 新しい単語がどんだけ生まれたりと、単語の情報を集めるのに苦労しています。
空目したとは気づきませんでした