パスワードを忘れた? アカウント作成
8899 story

IBMが自社の音声認識ソフトウェアをオープンソース化 57

ストーリー by wakatono
競争と改良のるつぼへ 部門より

skimsr 曰く、 "IBMが自社の音声認識関連ソフトウェアをオープンソース化すると発表した(タレコミ時点ではまだIBMからのニュースリリースは出ていない)。音声認識ソフトウェアをApache Software Foundationへ,音声編集ソフトウェアをEclipse Foundationへそれぞれ公開するとのこと。NewYork Timesの記事は,今回のオープンソース化の理由を,自社製品のWebSphereと競合しMS Speech Server 2004を擁するMicrosoft Windows .Netに対抗するため,と分析している。参考:/.本家の記事
ちなみに,IBMの音声認識ソフトウェアに関する最近のニュースとしては他にも,Opera 7.60プレビュー版への搭載米国ホンダのカーナビシステムへの搭載がある。
オープンソースの音声認識ソフトウェアとしては,Intelも音声認識ソフトウェア(AVSR: audio-visual speech recognition)をオープンソース化して公開している。日本でも大規模連続音声認識エンジンJuliusがオープンソースソフトウェアとして開発されている。"

この議論は賞味期限が切れたので、アーカイブ化されています。 新たにコメントを付けることはできません。
  • by tt_net (17623) on 2004年09月14日 3時35分 (#621786)
    おおっ、ViaVoiceがオープンソースかよ!と一瞬思ったのですが、元記事からリンクされているNY Timesの記事に


    One collection of speech software for handling basic words for dates, time and locations, like cities and states, will go to the Apache Software Foundation.


    とあるので、提供されるのは日付、時間、地名などの単語認識のエンジンとデータベースではないでしょうか。

    ViaVoiceは限られた単語のみだけではなく、文章でも認識できる、いわゆる「大語彙連続音声認識」と呼ばれる音声認識器なので、残念ながら今回提供されるのはViaVoiceそのものではないかもしれません。もしかしたらViaVoiceのエンジン+単語データベースかもしれませんが、いずれにせよ、連続音声用のデータベースがないと文章認識には使えません。


    The company is also contributing speech-editing tools to a second open-source group, the Eclipse Foundation.


    ところで、こちらの「speech-editing tools」は何でしょうね?
    • タレコミ人です。

      とりあえず補足リンク:
      IBMのプレスリリース [ibm.com]と,ITmediaの日本語速報記事 [itmedia.co.jp]。

      タレコミ時点ではよく分からなかったのですが,ここでオープンソース化されるのは,音声で操作可能なWebアプリケーションの開発/実行環境,という事のようです。応用先はWebアプリケーションだけでは無いのかもしれませんが…。

      今回オープンソース化されるのは,私の理解では:

      • 「"○○"と発声されたら"××"というアクションを実行"」というルールを定義する対話スクリプト(VoiceXML? 専用スクリプト?)のエディタ
      • 上記スクリプトを読み込み,音声入力を受け付けて認識し,対応するアクションを実行するサーバサイドプログラム(プラットフォーム)

      で,前者をEclipseへ,後者をApacheへ,それぞれ寄付する事を提案しているようです。

      後者は "Reusable Dialog Components (RDCs)" と呼ばれているものだそうです。詳細はよく分かりませんが,単語/コマンド音声認識なのだと思います。
      親コメント
  • 御約束 (スコア:2, おもしろおかしい)

    by Anonymous Coward on 2004年09月14日 2時45分 (#621783)
    Computer. Computer? Hello, Computer.

    Just use the keyboard.

    Keyboard. How quaint.
  • 使い道 (スコア:1, 参考になる)

    by Anonymous Coward on 2004年09月14日 5時42分 (#621790)
    うーん。なかなかイカしますねぇ。
    とりあえず使い道としてざっと思いつくのは
    • Mozillaのプラグインとして使いOperaをパチる
    • 音声認識によって操作するUIを作る
    • ロボットに組み込んで、音声操作
    • 口述式スクリプト言語を作る(言霊?)
      とかですかねぇ。
      折角だからIBMが思いもつかなかった使い方で使い倒すぐらいの勢いでいきたいもんです。
  • 2003年8月にはScanSoft Inc.にViaVoiceの販売・サポート業務が移行されているのを確認しました。

    ボイスらんど [ibm.com]
    スキャンソフト株式会社・IBM ViaVoice日本語版ホームページ [scansoft.co.jp]

    但し、これに関してはViaVoice V10以降となります。

    --
    Super Souya
  • by Inetpub (20077) on 2004年09月14日 9時12分 (#621821)
    音声認識を搭載したPC用ギャルゲやエロゲーが大量に開発されそう
    • by sakuya-m (14007) on 2004年09月14日 9時59分 (#621841) 日記
      すでにいくつかありますね。名前があげませんが。(eg○とか。)
      使い物になってたのかは知りません。
      # ViaVoiceでorzしたことあるのでID
      --
      ---にょろ~ん
      親コメント
    • by kamuy (1690) on 2004年09月14日 11時47分 (#621886) ホームページ 日記
      そちらの用途なら、むしろ音声「合成」の方に注力して欲しいかと。

      自分の名前に書き換えできるものだと、呼びかけを代名詞にしたようなモノ(「君(キミ)」やら「先生」やら「お兄ちゃん」やら、「兄チャマ」やら「兄様」やら(笑))とか、名前の部分を抜かして音録りしたものとか、そんなのがほとんどで、そうでないのは主人公の名前は決め打ちで固定されているわけで。
      移入しやすい作品なら代名詞とか主人公の名前とかで呼ばれてもいけますが(爆)、テキストには自分の名前が出ているのに音声では呼びかけが無かったりすると結構萎えるもので(笑)

      ソコをうまい具合に合成できるならばかなり有用ではありますが、モノがモノだけに半端なものはかえって萎え萎えになってしまうわけで、実現はかなり難しいとは思いますけどね…
      単に名前の音を呼ばせるだけでなく愛称とかにも対応しなくてはならないし、情感のこもった呼びかけにする必要も出てくるわけですし。

      #あと、ただでさえ軽く扱われがちな声優さんが、更に軽く見られそうなのも気になりますね。
      #…ハリウッド俳優がCGキャラを固辞したってハナシもありましたな、そういえば。

      ところで、音声認識によるこの手のゲームって、テキストウィンドウの科白をマイクに向かって読み上げないと先に進めないとか?
      …ただでさえアレなのに、更にアレな感じになってしまうな(笑)
      --
      -+- 想像力を超え「創造力」をも凌駕する、それが『妄想力』!! -+-
      親コメント
      • Re:予想 (スコア:2, 興味深い)

        by Elbereth (17793) on 2004年09月14日 15時21分 (#621980)
        ゲーム中で自分の名前(もしくは愛称)で呼んでほしいというなら、
        オンライン(とかハガキとか)でユーザー登録してもらって、
        その際に呼んでほしい文字列を指定しておいて、一週間後とかの
        一定期間後に声優が吹き込んだ音声データをインストールする
        プログラムのURLが送られてくる、みたいなシステム作ればいいんとちゃいますかねー。

        #でもそしたら変な愛称を言わせる奴が続出しそうな予感
        親コメント
      • by Minap (9371) on 2004年09月14日 12時04分 (#621894) ホームページ 日記
         すでにありますよ、名前を音声合成する恋愛ゲーム [moriyama.com]は……。
         ただし、あんまりブレイクしなかったというか……他社は採用していませんね。音声用にディスク丸ごと1枚ぐらい使ってたからかな?(w
        --
        --- どちらなりとご自由に --- --
        親コメント
        • by Anonymous Coward
          あいたくて…(ばーいこなみ) っていうのも書いておく。
          # 女の子には萌えなかったのは秘密だ。
    • by STRing (14928) on 2004年09月14日 12時59分 (#621930) 日記

      最近 Julius を利用したデスクトップアクセサリが公開されましたけど、家族が居るとかなり恥ずかしいです。

      さらにはエロゲだったらもう憤死ものかと^^;

      出力と違ってどうしても外部に漏れますし。

      親コメント
      • > 出力と違ってどうしても外部に漏れますし。
        ああ、確かに声はティッシュの中には収まらnqあwせdrftgyふじこlp;@:「」

        #マジでそう読んだ_ト ̄|○
      • by Anonymous Coward
        >Julius を利用したデスクトップアクセサリ

        見てみたいのだけど、どこにある何てソフトですか?
  • by Elbereth (17793) on 2004年09月14日 11時03分 (#621869)
    コマンド羅列したテキストを、テキスト読み上げ装置で読み上げてそれを音声認識ソフトウェアで
    認識してコマンドを実行……とかやってみた人いるんかな?

    さらに、電話をはさんでやるとか、テキスト読み上げ→音声認識→テキスト読み上げ→音声認識
    →(以下略)とか無駄なことやってみるとか……
    • > テキスト読み上げ→音声認識→テキスト読み上げ→音声認識

      これを聖書で13回繰り返すと、隠されたメッセージが出てきます。

      ΩΩ Ω<な、なんだってー
      親コメント
    • by fuchikoma (2044) on 2004年09月14日 13時07分 (#621933)
      最後に認識されたコマンドが
      rm -rf /
      親コメント
      • つーか、音声認識を使って文章を読み上げているそばで
        開発ブースがあったら面白いかも・・

        オペレータ:読み上げ開始
        システム:カイシシマス
        オペレータ:拝啓貴社ますますご発展の・・・EtcEtc
        システム:ハイケイ・・・・EtcEtc
        開発ブース:わー!なんじゃこりゃー!!
        システム:ワー!ナンジャコリャー!!
        開発ブース:デバッグ!デバッグ!
        システム:デバッグをカイシシマス。
  • by Anonymous Coward on 2004年09月14日 2時45分 (#621782)
    ViaVoiceのことかな?

    5年前くらいに使ってみて、だみだこりゃと思って投げ出した覚えがあるんですが、最近はどうなってるんですか?
    • Re:自社製品? (スコア:2, すばらしい洞察)

      by D7 (2526) on 2004年09月14日 3時23分 (#621785)
      私も最近のIBMの音声認識ソフトの出来については知りませんが、以前祖母に、他社製品の音声認識ソフトを試させた事があるのですが、方言のせいで認識される言葉が、復活の呪文の様になって笑った事があります。
      その時は、入力デバイスとして、キーボードの替わりとして使う事を想定していたので、認識しやすいように、抑揚をつけて方言を使わずに話す事の方がハードルが高かもしれないと当時感じました。:P
      親コメント
      • by habe (11732) on 2004年09月14日 9時09分 (#621820)
         対するJuliusは関西弁で鍛えられております。(@http://isw3.aist-nara.ac.jp/IS/Shikano-lab/Web/takemaru-1.jpg)
        親コメント
      • Re:自社製品? (スコア:1, おもしろおかしい)

        by Anonymous Coward on 2004年09月14日 12時50分 (#621924)

        ViaVoiceでなにがつらかったと言えば、余計なことは一切言えないこと。。。

        「えーと」 -> 「ええと」
        「あっ、違!」 -> 「あ血が」

        とか・・・。少なくとも推敲しながら文章を書いていくソフトではなかったですね。
        紙に書いておいて一気に読み上げるのが最も適した使い方かも。
        そういう場合の認識率は思った以上に高かった記憶があります。

        親コメント
    • Re:自社製品? (スコア:2, 参考になる)

      by ncube2 (2864) on 2004年09月14日 8時23分 (#621806)
      ViaVoiceなら先ごろ亡くなった「何年も掛けて自分用の骨壷を鍛えた」作家の水上勉という人がトライしたようですが、うまくいかなかったようで。
      http://www.honco.net/9905/in-mizukami-j.html
      親コメント
    • Re:自社製品? (スコア:2, 参考になる)

      by KAMUI (3084) on 2004年09月14日 19時27分 (#622156) 日記
      IBM が最初に PC向け音声認識ソフトを出したのは OS/2 版で
      その時の名前は VoiceType だったなんて事を記憶している人は
      今や OS/2 ユーザーだけなんだろうなぁ(苦笑)

      OS/2 Warp4 に同梱(無料)でした。
      もっとも日本語化が遅れてあとからダウンロード提供だった。
      後に Fix 入った Warp4 with VoiceType ってパッケージでは
      最初から日本語版が入ってましたね。

      #マシンスペックもあって入れた事ありませんけど(^_^;
      親コメント
  • by Anonymous Coward on 2004年09月14日 9時14分 (#621823)
    音声認識処理を専門にしてた院生あがりの人が、特許の抵触を避けるのが大変と言ってましたが(音声認識に限らずか?)、
    この上で作業するんなら(IBMなら保有特許も多そうだし)目くじら立てられることもなさそう。

    あぁ、違うな、特許ってもともと公開技術か。
    研究はやりやすくなりそうですか?>研究者の人。
    • by Anonymous Coward
      ちなみに今回の寄贈先はどっちも特許を意識したライセンスを採用してますね(Apache Software FoundationはApache License 2.0、Eclipse FoundationはCommon Public LicenseからEclipse Public Licenseに移行を進めている最中)。まあIBMの影響力が強いから当然と言えば当然か。
  • by Anonymous Coward on 2004年09月14日 10時37分 (#621859)
    例えば「Opera 7.60プレビュー版への搭載」なんですけど、
    これってもちろん英語のDB持って英語を認識するんですよね?

    「Opera 7.60」を単純に日本語化する場合に比べて、
    「Opera 7.60 上の ViaVoice」の日本語化ってかなりコストかかりそう。
    オープンソース化は良いけど、Opera の無料版にも
    『英語圏以外の人間がメリットを感じられるカタチで』載せれるのかな?
  • by Anonymous Coward on 2004年09月14日 12時12分 (#621900)
    MS SASDK or SAPI は、 windows + VC があれば、フリーで利用できたのに対して、
    IBM は、SDK に 150000円 [ibm.com] もとるなんてやっていたし。
    企業はいいかもしれないけど、個人がホビーユーズで利用するのにそりゃねーだろ、
    な金額だしなぁ。等身大フィギュアが買えるぞ(w

    で、お互いの認識力を見ると、どっちもかわらないバカなんで、
    同じバカなら、安いほうがいいし。
    #Juliusにしては、論外のバカなんで、熟成するのを待つ(放置の方向)で(w
    • > IBM は、SDK に 150000円 [ibm.com] もとるなんてやっていたし。
      > 企業はいいかもしれないけど、個人がホビーユーズで利用するのにそりゃねーだろ、
      > な金額だしなぁ。等身大フィギュアが買えるぞ(w

      150000円で等身大フィギュアって買えるものなの???

      #…と焦点のずれた質問をしてみる(汗)
    • いつのまにか有料になってたのか。昔、Webから請求してただで送ってもらったような。

      #ActiveXたんまりだったけど
    • 再配布ライセンスこみならそんなもんかな。 開発ライセンスだけなら当時だとDevCon(MSDNみたいなやつ) の契約をするのが普通だった。一年契約で2万弱だったかな。
  • by Anonymous Coward on 2004年09月14日 15時28分 (#621985)
    音楽再生ソフトに歌詞を読み取って
    自動で歌詞を表示させる機能がつくといいなぁ。

    もちろん、英語らしきものを含む歌詞に備えて
    ジャパニーズイングリッシュにもばっちり対応。
    ついでに外国語を日本語化するソラミミ機能付き。
  • by Anonymous Coward on 2004年09月14日 23時12分 (#622275)
    http://www.eclipse.org/proposals/eclipse-voicetools/main.html
typodupeerror

私はプログラマです。1040 formに私の職業としてそう書いています -- Ken Thompson

読み込み中...