パスワードを忘れた? アカウント作成
15856 story

全てのフォームに音声認識機能を! 91

ストーリー by mhatta
手軽そうね 部門より

Anonymous Coward曰く、

以前/.Jのストーリーで紹介されていたnisimura氏開発の w3voice ですが、精力的に開発を進められているようで、新たな機能が続々と追加されています。 今度は、たった一行を追加するだけで自分のWebサイトに音声認識/音声入力の機能が追加できる JavaScriptライブラリw3voiceIM.jsが公開されました。認識精度を高めるための実験でもあるので会話は全て録音され、分析・調査の対象となるとのことですが、遊ぶ分には楽しく遊べそうです。 そのうち、すらどの日記もおしゃべりするだけで書けるようになったりするのでしょうか。

この議論は賞味期限が切れたので、アーカイブ化されています。 新たにコメントを付けることはできません。
  • 試しに (スコア:5, おもしろおかしい)

    by yuig (18456) on 2007年07月09日 22時08分 (#1187160)
    「えいちてーてーぴーころんすらっしゅすらっしゅすらっしゅどっとどっとじぇーぴー」

    何回かやってみたが無理だった
  • お約束 (スコア:3, おもしろおかしい)

    by Anonymous Coward on 2007年07月09日 17時15分 (#1186992)
    「カークよりエンタープライズへ、一名収容」
    というのはやってみたい。

    でも実用性はあんましないかな。
    キー入力の方が早いし楽だし静かだし。
  • by Anonymous Coward on 2007年07月09日 17時43分 (#1187021)
    適当な単語を話してみたけど、なかなか正確にテキストに変換してくれる。
    でも、でたらめな言葉を入れるとぜんぜんだめ。ハナモゲラ語には対応していない模様。

    #推測しながらテキスト変換しているのかな?
    • by nisimura (8731) on 2007年07月09日 19時19分 (#1187076) ホームページ
      こんにちは。作者です。

      一般に音声認識では、単語の情報を辞書として保持しています。
      決して、音のならびだけで認識しているわけではありません。

      弱点として、当然ですが、知らない単語(辞書に含まない単語)を認識することはできません。
      その対策として、コーパスを作って、単語を抽出し、辞書を作ったりするのですが、
      新しい単語がどんどん生まれたりと、単語の情報を集めるのに苦労しています。

      そこで今回の試みでは、利用者のみなさまから音声認識してほしい単語の情報を集めてみようと思っています。
      http://w3voice.jp/engine/engine.html [w3voice.jp]
      に、単語登録ページを用意してみました。

      ちなみに、音声認識の場合、自然言語で使われる単語情報に加えて「読み」の情報が重要になります。
      「東京」は、「トウキョウ」ではなく、「トーキョー」である。と、実際の発声に近い読みを与えてやる必要があります。
      このため、音声認識でつかえるコーパスを作ることのハードルがすこしあがってしまいます。

      ぜひ単語を登録にご協力ください。
      親コメント
      • Re:認識率がいい (スコア:4, おもしろおかしい)

        by Anonymous Coward on 2007年07月09日 19時28分 (#1187080)
        「しんかんせん」と言ったら

        塩たむらけんじ

        と認識されたんですけど……。
        ほかの単語でもちょくちょくたむらけんじが出てくるぅ。発音のせい?
        親コメント
        • by nisimura (8731) on 2007年07月10日 6時39分 (#1187270) ホームページ
          こんにちは。作者です。

          単語登録の機能 [w3voice.jp]で、追加された単語「たむらけんじ」が悪さしたようです。
          単語登録はad-hocな実装にしてあるので、目で見てチェックするようにしています。
          変なことがおこっているようなら、教えてほしいです。

          とりあえず、「たむらけんじ」には消えていただきました。
          親コメント
        • by Anonymous Coward on 2007年07月09日 22時38分 (#1187176)
          もしかして、活舌があまり良くないほうですか?だとしたら
          かんせん→たむけん と誤認識し、それを変換して たむらけんじ
          というロジックなら判る気がします。
          親コメント
          • Re:認識率がいい (スコア:3, 参考になる)

            by nisimura (8731) on 2007年07月10日 6時59分 (#1187273) ホームページ
            こんにちは。作者です。

            あたりです。
            「たむらけんじ」が「タムケン」という読みで登録されていました。
            まあ、この程度で誤認識はしてほしくないわけで、改良が必要ですね。

            誤認識ばかりのときは、マイクのボリューム調整が悪いことが多いので、
            一度、録音した自分の声を聞いて、確認してみてくださいね。
            親コメント
        • by Anonymous Coward
          おいおい、どんな発音だよ
      • さっそく使ってみた感想ですが、想像以上にいい音声認識でビックリです。

        ところで今、目の前のテレビでちょうどアジアカップやってたので、「なかむらしゅんすけ」など吹き込んで遊んでみました。
        (予想通り「俊輔」で変換されます)
        Jリーグのいくつかのチーム名もやってみたのですが…
        「コンサドーレ札幌」がいくら頑張ってもちゃんと認識されず寂しかったので登録したのですが…

        発音が悪いのでしょうか?それともJ2だからなのでしょうか(苦笑)

        --
        アレゲやないわ!! 興味津々なだけや!!!
        親コメント
        • by nisimura (8731) on 2007年07月10日 6時49分 (#1187272) ホームページ
          こんにちは。作者です。

          言語情報は、コーパスを収集して、そこから統計情報を抽出することで作成されています。
          このため、もととなったコーパスの性格を引き継ぎます。

          今回、Webをクロールしてコーパスを作成していますが、比較的出現回数が少ない単語だと、
          辞書から除外されてしまいます。まあ、つまり、J2だから。かと。

          音声認識で、単語がなかなか出てくれない原因はほかにもいろいろあるんですが、
          出力されないからといって落ち込まないようにお願いします。
          固有名詞の音声認識はなかなか難しいのです。

          ちなみに、いま、組み込んである言語モデルでは、放送局の名前が比較的よく認識されるようにチューニングしてあります。

          # Web上から番組表みれたら便利かなとおもってチューニングしたんだけど、肝心の番組表をブラウズする部分を作っていない…
          親コメント
      • by Anonymous Coward on 2007年07月10日 3時39分 (#1187262)
        専用のページぢゃ無くて、 wiki みたいな感じでやればどうよ。
        他人の投稿の確認や修正が出来れば便利だと思うよ。
        それに、テンプレ作っておけば、書式の乱れはあんまり起きないだろうし。

        あとは、cron or タスク で定期的に辞書形式にコンバートすればいいんぢゃないの?
        親コメント
    • by Anonymous Coward
      >でたらめな言葉を入れるとぜんぜんだめ。ハナモゲラ語には対応していない模様。

      入力者自身が意味をなさないことを認識しているデータを入力しているのに、
      それを機械が文脈を認識できるわけないし、ハナモゲラ語にならないのでは。
      ただの一語一語の連なりとして認識できるはずだ、というのであれば、
      音節を認識していると思うから、一語一語ゆっくり入れればいいのでは。
      • by Anonymous Coward
        「でれんるでれんるむるしりむるしりからたらつるむるり」とラリルレロを後ろに付けて歌うのが子供の頃にはやったなぁと思った。

        #最近蝸牛みないねぇ。
  • こまった (スコア:3, おもしろおかしい)

    by gonta (11642) on 2007年07月09日 19時31分 (#1187083) 日記
    「うわ何をするあqswでfrgtyふじこlp」

    どうやって入力しよう・・・
    --
    -- gonta --
    "May Macintosh be with you"
    • Re:こまった (スコア:3, おもしろおかしい)

      by HEEP's Gypsy (20069) on 2007年07月09日 19時36分 (#1187084)
      「うわなにをする」まで発言すると自動的に「qあwせdrftgyふじこlp」まで変換されますw

      #2ch語スラ語対応とかされたら、スラング辞書と化す気が。
      親コメント
  • by Tatenon (20311) on 2007年07月09日 18時18分 (#1187038) 日記
    仕事中にスラドへ書き込みができなくなるじゃないか。

    # 別にキーボードで打てばいいのか。

  • by Lurch (10536) on 2007年07月09日 18時30分 (#1187045)
    認識精度を高めるための実験でもあるので会話は全て録音され、分析・調査の対象となるとのことです
    --

    ------------
    惑星ケイロンまであと何マイル?
    • by nisimura (8731) on 2007年07月09日 19時05分 (#1187073) ホームページ
      こんにちは。作者です。

      盗聴というか、プライバシーへの配慮は、たしかに慎重な議論が必要な問題です。
      今後、MacBookのように、マイク内蔵のPCが増えると、盗聴の可能性は増えるかもしれません。

      http://w3voice.jp/ [w3voice.jp] では、ボタンを押している間だけ、録音をする仕様にしています。
      技術的には、人間の発話をある程度自動検出することはできますが、あえてしていません。
      インタフェースとしては、ボタンを押しながら発声するの面倒かもしれませんが、
      プライバシーを配慮しての仕様だとご理解ください。

      本当は音声インタフェースはハンズフリーのほうがいいんですけどね…。

      親コメント
    • と~ちょ~されてます。

      というより、と~ちょ~してるから、と~ちょ~されても構わないことを話してね。
      ってことだと思います。

      # とーちょーっていうのは一発で変換できるけど
      # と~ちょ~っていうのは~部分を別変換しないといけなくてメンドウ

      # 温暖期のレイアクエで棘をGetするのに尻尾マラソンした。
      # っていうのはきちんと変換されるのだろうか?
      # あと、分析されちゃうのかなぁ?
      # MHFで使えると楽です。マジで。
  • あのCMを完全再現できるぐらいの認識率に期待
    --
    喫茶店でもマルチモニタ協会会員
  • by Anonymous Coward on 2007年07月09日 18時55分 (#1187068)
    >会話は全て録音され、分析・調査の対象となる
    紙とペンなんて、もう時代遅れのシロモノなのです!
    全ての家庭に口述器を!そしてテレスクリーンを!

    # Big Brother is watching you
typodupeerror

アレゲはアレゲ以上のなにものでもなさげ -- アレゲ研究家

読み込み中...