全てのフォームに音声認識機能を! 91
ストーリー by mhatta
手軽そうね 部門より
手軽そうね 部門より
Anonymous Coward曰く、
以前/.Jのストーリーで紹介されていたnisimura氏開発の w3voice ですが、精力的に開発を進められているようで、新たな機能が続々と追加されています。 今度は、たった一行を追加するだけで自分のWebサイトに音声認識/音声入力の機能が追加できる JavaScriptライブラリw3voiceIM.jsが公開されました。認識精度を高めるための実験でもあるので会話は全て録音され、分析・調査の対象となるとのことですが、遊ぶ分には楽しく遊べそうです。 そのうち、すらどの日記もおしゃべりするだけで書けるようになったりするのでしょうか。
試しに (スコア:5, おもしろおかしい)
何回かやってみたが無理だった
お約束 (スコア:3, おもしろおかしい)
というのはやってみたい。
でも実用性はあんましないかな。
キー入力の方が早いし楽だし静かだし。
Re:お約束 (スコア:3, おもしろおかしい)
Re:お約束 (スコア:2, 興味深い)
>実用性
議事録録るための補助ツールとして使えないかなぁ? あるいはその場で即座にインタビュー起こしとか。
むらちより/あい/をこめて。
Re:お約束 (スコア:0)
「うほっ」な音声を吹き込む精神的ブラクラが可能?
Re:お約束 (スコア:0)
認識率がいい (スコア:3, 興味深い)
でも、でたらめな言葉を入れるとぜんぜんだめ。ハナモゲラ語には対応していない模様。
#推測しながらテキスト変換しているのかな?
Re:認識率がいい (スコア:5, 興味深い)
一般に音声認識では、単語の情報を辞書として保持しています。
決して、音のならびだけで認識しているわけではありません。
弱点として、当然ですが、知らない単語(辞書に含まない単語)を認識することはできません。
その対策として、コーパスを作って、単語を抽出し、辞書を作ったりするのですが、
新しい単語がどんどん生まれたりと、単語の情報を集めるのに苦労しています。
そこで今回の試みでは、利用者のみなさまから音声認識してほしい単語の情報を集めてみようと思っています。
http://w3voice.jp/engine/engine.html [w3voice.jp]
に、単語登録ページを用意してみました。
ちなみに、音声認識の場合、自然言語で使われる単語情報に加えて「読み」の情報が重要になります。
「東京」は、「トウキョウ」ではなく、「トーキョー」である。と、実際の発声に近い読みを与えてやる必要があります。
このため、音声認識でつかえるコーパスを作ることのハードルがすこしあがってしまいます。
ぜひ単語を登録にご協力ください。
Re:認識率がいい (スコア:4, おもしろおかしい)
塩たむらけんじ
と認識されたんですけど……。
ほかの単語でもちょくちょくたむらけんじが出てくるぅ。発音のせい?
Re:認識率がいい (スコア:3, 興味深い)
単語登録の機能 [w3voice.jp]で、追加された単語「たむらけんじ」が悪さしたようです。
単語登録はad-hocな実装にしてあるので、目で見てチェックするようにしています。
変なことがおこっているようなら、教えてほしいです。
とりあえず、「たむらけんじ」には消えていただきました。
Re:認識率がいい (スコア:2, 興味深い)
かんせん→たむけん と誤認識し、それを変換して たむらけんじ
というロジックなら判る気がします。
Re:認識率がいい (スコア:3, 参考になる)
あたりです。
「たむらけんじ」が「タムケン」という読みで登録されていました。
まあ、この程度で誤認識はしてほしくないわけで、改良が必要ですね。
誤認識ばかりのときは、マイクのボリューム調整が悪いことが多いので、
一度、録音した自分の声を聞いて、確認してみてくださいね。
Re:認識率がいい (スコア:0)
Re:認識率がいい (スコア:1)
ところで今、目の前のテレビでちょうどアジアカップやってたので、「なかむらしゅんすけ」など吹き込んで遊んでみました。
(予想通り「俊輔」で変換されます)
Jリーグのいくつかのチーム名もやってみたのですが…
「コンサドーレ札幌」がいくら頑張ってもちゃんと認識されず寂しかったので登録したのですが…
発音が悪いのでしょうか?それともJ2だからなのでしょうか(苦笑)
アレゲやないわ!! 興味津々なだけや!!!
Re:認識率がいい (スコア:3, 興味深い)
言語情報は、コーパスを収集して、そこから統計情報を抽出することで作成されています。
このため、もととなったコーパスの性格を引き継ぎます。
今回、Webをクロールしてコーパスを作成していますが、比較的出現回数が少ない単語だと、
辞書から除外されてしまいます。まあ、つまり、J2だから。かと。
音声認識で、単語がなかなか出てくれない原因はほかにもいろいろあるんですが、
出力されないからといって落ち込まないようにお願いします。
固有名詞の音声認識はなかなか難しいのです。
ちなみに、いま、組み込んである言語モデルでは、放送局の名前が比較的よく認識されるようにチューニングしてあります。
# Web上から番組表みれたら便利かなとおもってチューニングしたんだけど、肝心の番組表をブラウズする部分を作っていない…
Re:認識率がいい (スコア:1)
試しに全国の駅名データを音声認識辞書に登録してみました。
これがうまくうごけば、Googleトランジットが音声だけで使えるのですが。
http://w3voice.jp/engine/ [w3voice.jp] から、どうぞ。
「○○駅から○○駅」で、経路探索ができます。
きびしいかな…。
Re:認識率がいい (スコア:1, 興味深い)
他人の投稿の確認や修正が出来れば便利だと思うよ。
それに、テンプレ作っておけば、書式の乱れはあんまり起きないだろうし。
あとは、cron or タスク で定期的に辞書形式にコンバートすればいいんぢゃないの?
Re:認識率がいい (スコア:0)
入力者自身が意味をなさないことを認識しているデータを入力しているのに、
それを機械が文脈を認識できるわけないし、ハナモゲラ語にならないのでは。
ただの一語一語の連なりとして認識できるはずだ、というのであれば、
音節を認識していると思うから、一語一語ゆっくり入れればいいのでは。
Re:認識率がいい (スコア:0)
#最近蝸牛みないねぇ。
こまった (スコア:3, おもしろおかしい)
どうやって入力しよう・・・
-- gonta --
"May Macintosh be with you"
Re:こまった (スコア:3, おもしろおかしい)
#2ch語スラ語対応とかされたら、スラング辞書と化す気が。
そんなことをしたら (スコア:1)
# 別にキーボードで打てばいいのか。
と~ちょ~されてる? (スコア:1)
------------
惑星ケイロンまであと何マイル?
Re:と~ちょ~されてる? (スコア:5, 参考になる)
盗聴というか、プライバシーへの配慮は、たしかに慎重な議論が必要な問題です。
今後、MacBookのように、マイク内蔵のPCが増えると、盗聴の可能性は増えるかもしれません。
http://w3voice.jp/ [w3voice.jp] では、ボタンを押している間だけ、録音をする仕様にしています。
技術的には、人間の発話をある程度自動検出することはできますが、あえてしていません。
インタフェースとしては、ボタンを押しながら発声するの面倒かもしれませんが、
プライバシーを配慮しての仕様だとご理解ください。
本当は音声インタフェースはハンズフリーのほうがいいんですけどね…。
Re:と~ちょ~されてる? (スコア:0)
というより、と~ちょ~してるから、と~ちょ~されても構わないことを話してね。
ってことだと思います。
# とーちょーっていうのは一発で変換できるけど
# と~ちょ~っていうのは~部分を別変換しないといけなくてメンドウ
# 温暖期のレイアクエで棘をGetするのに尻尾マラソンした。
# っていうのはきちんと変換されるのだろうか?
# あと、分析されちゃうのかなぁ?
# MHFで使えると楽です。マジで。
"あなたのくれたべったら漬け....." (スコア:1)
喫茶店でもマルチモニタ協会会員
偉大な兄弟 (スコア:0)
紙とペンなんて、もう時代遅れのシロモノなのです!
全ての家庭に口述器を!そしてテレスクリーンを!
# Big Brother is watching you
Re:偉大な兄弟 (スコア:1)
#ところどころ書き間違いが.....
kero
Re:「東京」は「トウキョウ」ではなく「トーキョー」になります (スコア:2, すばらしい洞察)
東京を「とうきょう」って発音する人と「とーきょー」って発音する人
前者の方が多いと思う?
Re:「東京」は「トウキョウ」ではなく「トーキョー」になります (スコア:1, 興味深い)
いい加減な人間の発話を理解するのであれば,現実的なデータを収集
するほうが,効果がでそうですね.
JR上野駅の「ウエノー,ウエノー」という独特の発話などが,場所情報と
共に蓄積されると面白いデータとなる気がします.
「体育」も「タイイク」ではなく「タイク」かな.
# 職場からなのでAC
Re:「東京」は「トウキョウ」ではなく「トーキョー」になります (スコア:3, 興味深い)
最初、正しい筆順の文字について認識させるようにしたら「ちゃんと書いたのになぜか認識されない」って苦情が多発し、
「間違った筆順でも認識する」ようにしたら問題解決したって話です。
人→機械方向の入力インターフェースについては、「人間は間違えるもの」って考えなければならないってことでしょうか。
Re:「東京」は「トウキョウ」ではなく「トーキョー」になります (スコア:2, すばらしい洞察)
「気をつけ、礼」が「きょーつけー、れー」とか。
誤読の「ふいんき」「シュミレーション」も考慮しておく必要がありそうです。
アナウンス関連の参考書とかにありがちな間違いとして例が集まってないですかね?
Re:「東京」は「トウキョウ」ではなく「トーキョー」になります (スコア:1)
Re:「東京」は「トウキョウ」ではなく「トーキョー」になります (スコア:1)
皆さん「トーキョー」って発音しているんですか?...
それはそれで問題ではないかな?と思う。
>前者の方が多いと思う?
わたしはそう発音していますが..
普通、「トウキョウ」って発音しませんか?
あ、でも「農協」は「ノーキョウ」って発音しているな>自分
Re:「東京」は「トウキョウ」ではなく「トーキョー」になります (スコア:1, おもしろおかしい)
Re:「東京」は「トウキョウ」ではなく「トーキョー」になります (スコア:2, 参考になる)
音韻や音素体型については、さまざまな定義が存在していますので、
ここで議論しようとはおもっていませんが、今回お願いしている読みには一応のガイドラインがあります。
すこし古いものですが、こちらの資料 [kyoto-u.ac.jp]
の24ページ「付録A 読み付与ガイドライン」をごらんください。
ちなみに、この資料で言及されている読み情報は、形態素プログラムChaSen [naist.jp]
で利用される辞書であるipadicにも収録されています。
例えば、
$ echo "東京" |chasen -F "%a"
トーキョー
と、ご確認いただくことができます。
Re:「東京」は「トウキョウ」ではなく「トーキョー」になります (スコア:1)
s/音素体型/音素体系/
s/形態素プログラム/形態素解析プログラム/
Re:「東京」は「トウキョウ」ではなく「トーキョー」になります (スコア:1)
はぁ?誰が?
君みたいなのが、ギャーギャー噛み付いているんだよね。
音韻と文字を理解してから、ギャーギャー噛み付くなりしなさいね
日本語の音韻律ってなんですか? (スコア:1)
WYWNWYS (スコア:1)
日本語でさえ、ひらがなで正確に発音を表記するのは無理でしょう。
音声認識で読みのデータをどのように使うのかよく分かりませんが、
正確さを期すなら国際音声記号でも使うしかないのかもしれません。
# What You Write is Not What You Say
WYWNWYSの具体例 (スコア:1)
IPA (国際音声記号) で書くと、同じ「ウ」の音でも音声が違うことが分かります。
トウキョウ: [toːkʲoː]
イノウエ: [inoɯe]
(日本音韻データベース [kanji.org]より)
Re:WYWNWYS (スコア:2, 参考になる)
これ,それほど簡単な問題ではないような.
まず語尾の「きょう」に関しては,福田恆存だったかが述べているようにそもそもから語尾の母音は
弱化する,に従って長音化していましたので,昨日今日の話ではないのではないかと思います.
そのため問題は,「とうきょー」なのか,「とーきょー」なのか,という点になるかと思います.
#まあ,ここで福田恆存持ってくるのってどうよ,とは自分でも思いますが.
「とう」に関しては,そもそも現代かなづかいの中でオの長音はオウと表記すると決められて
それに従って表記されるため,本来トーという発音だったとしても表記はトウになりますよね.
ですので,本来長音として発音していたものなのか,分けて発音していたのかってそう簡単では
無いように思うのですがいかがでしょう.
#古語とかあまり詳しくないんで,「東」がもともとどちらなのか判然としませんが.
#「遠」だったら単純に長音の「トー」でいいんですが.
http://www.bunka.go.jp/kokugo/pdf/kokugo_series_008_03.pdf [bunka.go.jp]
にしても,最初に発音に従った「ー」表記にしようとしたけど突き上げ食らって撤回,とか,結構
面白い経緯があるもんです.
知らなかったんですが,神戸の「コウ」とか近江の「アウ」とかは長音(コー,オー)なんですね.
http://www.bunka.go.jp/kokugo/pdf/01_007.pdf [bunka.go.jp]
#にしても,文化庁のページには思っていた以上に資料がありました.
Re:WYWNWYS (スコア:1)
(半円唇母音 [wikipedia.org]と呼ぶらしいですが)話をややこしくしている気がします。
本人の意識では[u]でもそうではなくなっていて、その発音は同様に半円唇の「お」と区別がつきにくいので、
「どっちかわからん」「人や地方によって揺らぐ」ということになると。
ただ、ダラーンと「とー」で発音するのではなく、
「と」の後に「う」の形に唇が動いていれば、それは「とうきょう」と発音していると見てもいいと思います。
これは明らかに違う発音ですので。
それで「う」を使っていると判定するなら、自分も間違いなく「とうきょう」って言ってる方の仲間ですね。
これならば別に珍しくも何ともないのではないでしょうか。
それを「とーきょー」と綴るのは確かに不自然な感じがします。
でもそれは決して「To u kyo u」(どっちかというと[ɯ]だと思うのですが)ではないと思います。
=-=-= The Inelegance(無粋な人) =-=-=
Re:WYWNWYS (スコア:1)
日本の発音の区別が非常に大雑把な文化である事を見事に表している気がします。
日本語が高低アクセントを使うことにも繋がっていますし。
でも音程と音色は別物です。連動はしますが。
ちなみに私の「東京」のイントネーションはほぼ平坦です。
#別に多数決を取りたい訳でも発音の白黒を付けたい訳では無し。
=-=-= The Inelegance(無粋な人) =-=-=
Re:WYWNWYS (スコア:2, 興味深い)
正しいとするも何も,「東京」という名が一般的になった(江戸ではなくなった)明治時代に,
すでに呼び方が「とーきょー」に近かった,って話なんですが,通じませんでしたでしょうか?
#頭の「とー」の部分に関しては前述のとおり(私の知識では)不確実ですが.
「とーきょー」ではなく「とうきょう」という(現代かなづかいそのままの)読みを使うべきだ,
という主張をされるのはもちろん自由ですが,「とーきょー」という発音が劣化だ云々だと
いうのは事実に反していると思いますが?
#劣化というならば,そもそもの発音が「とうきょう」であったことが示せねばならなくなります.
#示せるのでしたら,もちろん劣化というのは根拠のある主張になりますが.
Re:WYWNWYS (スコア:1)
式亭三馬の「浮世風呂」などの著作は、江戸時代後期の江戸言葉の発音を知る上で重要な資料とされています。これによると「平家」に「へへけ」、「弁慶」に「べんけへ」といった読みが与えられており、「ヘーケ」「ベンケー」と発音されていたことがうかがえます。これらはどちらかというと下町言葉であり、教養のある人間の発音ではこうした長音化の働きは弱かったことも同じ資料から知ることができます。
では昭和初期頃はどうであったか。この頃になると様々な学術調査が行われている上に録音されたものが多く残っていますので、ちゃんと調べればわかると思うのですが、ここではネットですぐ調べられる題材として、いわゆる「玉音放送」をネタにしてみましょう。まずこちらのページから玉音放送を実際に聞いてみてください。
玉音放送の頁 [tokai.or.jp]
これを聞くと、「帝國」は「テイコク」、「皇祖」は「コウソ」に聞こえます。しかし「共同宣言」は「キョードーセンゲン」と聞こえるし、「東亜」が「トーア」、「共栄」が「キョーエイ」と聞こえる部分もあります。もとより昭和天皇一人の例から全体の傾向を云々できるものではないし、詔(みことのり)の読み上げ方は通常とは異なるでしょうからこれをもって結論を導きだすことはできませんが、長音化が皇族・貴族階級の言葉の中にも見られただろうことは確かだと思われます。
こうした音韻の変化を「劣化」と捉え、母語を守れという元の yasudas 氏の考えはわからないでもないですが、だがどの時代の発音が「母語」なのか、という問題も残ります。「遠く」は「トホク」と読むべきか、あたりならまだしも、極端なことになれば「男」を「ウォトコ」、「母」は「パパ」と発音するべきだ、ということにもなりかねません。また、規則的な発音を是とし、「東」は「トウ」、「京」は「キョウ」なのだから、「東京」は「トウキョウ」であるべきだ、という論を立てたとしても、「白骨」は「ハクコツ」ではないのか、といった例もあり、一筋縄では行きそうにありません。
結局のところ、その時代のちょっと前に大勢を占めていた読み方が正当、というくらいに思っておくしかないのかもしれません。
Re:WYWNWYS (スコア:1)
普通だろ?
Re:WYWNWYS (スコア:1, 興味深い)
自分でも気づいているのでしょうけどね
知り合いなので AC で。すまんな。
Re:WYWNWYS (スコア:1)
http://w3voice.jp/tokyo/ [w3voice.jp]
ジョークです。くれぐれも結果を真剣に受け止めないでください。
音声認識は、マイクとか周辺雑音とか、いろんな条件に左右されますから…
Re:CDでもカセットでも (スコア:1)
____
#風邪をひきました、脳が故障しています
#残念ながら仕様です。