パスワードを忘れた? アカウント作成
537 story

しゃべるKonqueror 20

ストーリー by Oliver
ワタシハHAL9000デス 部門より

Max 曰く,"KDE.Newsのこの記事によると、KDE2.xに標準搭載のブラウザKonquerorがFestival音声合成エンジンを使った、読み上げ機能をプラグインとして実装するようです。これにより視覚に障害のある利用者に対するWebブラウズ補助機能が提供されるようになるでしょう。
今はまだ最初のリリースがでたばかりの様子で、またマウスで対象文字列を選択してから読み上げをメニューから指示しなければならないなど、実際にハンディキャップを持った方が利用するにはまだ不十分なようですが、今後はおそらくこの動きに対応した音声認識によるメニューコマンド実行機能などのプラグインなどが開発されるのでは?期待したいところです。"

この議論は賞味期限が切れたので、アーカイブ化されています。 新たにコメントを付けることはできません。
  • norihiroさんへの返信もkonkitiさんへの返信で兼ねてしまいますがすみません。
    暴論多々、もとよりご容赦。

    >>利用者が少ないためピアレビュー効果が期待できない
    >バザール型以外の開発モデルに比べて少ないと言えるかどうか疑問に思います。

    資料が手元にないことで疑問を感じる点は同感です。
    しかし、数の多さがプロダクトの優秀さに即座につながるのかどうか、という点に
    は疑問を日頃から感じているので、ピアレビューアの多少がどの程度影響するのか
    という点もあまりステレオタイプに疑義を抱かないほうがいい気がします。

    >>(まだ発展途上)
    >発展途上ならまだこれからいけるかも。独自に作るのも可だと思う。

    結局目標はハンディキャップを持った方々自身が作らないとダメだろうなとは
    思います。だって、そうでないヒトにはやっぱり限界あるもの。

    が、その方々のシチュエーションを可能な範囲想像して、ケアすることは彼らにとって
    有益でしょうし、またそれ以外の人々にも恩恵をもたらしうるモノだと思います。
    こういったことは「垣根」を乗り越えて相互利益が得られる形にコーディネート
    できたモノ勝ちではないかと思います。
    キーボードやマウスやディスプレイなしで操作できるコンピュータが良さそうだな、
    と思うのは別にハンディキャップを持った人々だけの願いではないと思います。

    >>音声認識、読み上げなどは高度な技術やノウハウが必要なために 伽藍方式
    >>(必ずしもクローズドソースの意味ではない)の方が開発効率が良い。

    ピアレビューアの多さの重要性をにおわす文脈を前に置いてで、これはないんじゃ(笑

    開発の途中まではそうかもしません。が、結局はエンロールですらパスしない話者が
    多くて、ホコリをかぶっているソフト(どれとは言わないけど)がある実状で、
    ロードテストになるとできるだけ多くのテスタが協力しないと製品としての
    チューニングができません。また、入力デヴァイス自体の問題もこのテストで明確
    になると思います。クローズドソースの製品は系列会社やら支店の連中を総動員して
    こういうテストをすると思いますが、それがバザールモデル的に広く社会でテスト
    された方がよほどクオリティは高くなると思いますが、いかがでしょう。

    最終的にそれを形にするための作業は、伽藍の中で行った方が効率的かも知れませんが、
    開発するがこれによる利益を被る人々でないなら、おっしゃる「効率重視型」の開発
    モデルがベストではないと思います。

    Festivalにせよ、ViaVoiceにせよ、これまで世に出たいくつかのソフトウエア
    との対比で考えると、クローズドソースからよりメリットのあるオープンソースモデルへ
    移行しつつある途上にある気がします。
    この方がいい、と断言できるまでまだ世に問われていないのでは?

    これまで伽藍モデルやクローズソースで開発されていた経緯があったにせよ、それは
    経過であって、これがベターな方向だというのはどうでしょうか。
    で、

    >この手のものは企業にとってはあまりおいしくないものだと思いますので、こう
    >いうものこそバザール型のオープンソースで実現される、実現してほしいと思っています。

    おいしいかどうかは見極め方、R&Dに投入したものをどのように回収できるかという
    企業自体の能力優劣によるところが多いかとは思いますが、オープンソース的な
    アプローチについては賛成です:-)

    --
    -- (ま)
  • by Max (2524) on 2001年07月16日 22時54分 (#7518) ホームページ 日記
    >問題は国際化か。

    御意。
    これには別なアプローチが必要かもしれませんね。

    が、「標準的な発音」で読み上げはなんとかなったとしても、話者の癖とか方言とかを
    理解できる音声認識技術のローカライゼーションのほうがもっと難しい課題かもしれません。

    --
    -- (ま)
  • このシステムは純粋に読み上げ機能だけのようですが、
    音声認識によるコマンド実行はすでにデモがあります。
    IBMのViaVoiceを使う物です。

    問題は国際化か。
    --
    -- Che Che - Bye Bye
  • by G7 (3009) on 2001年07月16日 19時08分 (#7470)
    この手の話題を聞くたびに不思議に思うんですが、
    KonquerorっていわゆるGUIソフトですよね?
    というかKDE全体がGUI環境ですよね?

    #テキスト画面とかにも自分をレンダリングするViewが
    #別途存在するのかな?しませんよね?

    で、それって目の見えん人はどう使えばいいんでしょう?
    操作できへんやん。

    音声認識の話もあるようですが、目と手は関係ないのに
    手を事実上使わせてくれずに代わりに口を使わされる、
    ってのは、なんかおかしな話なように思えます。

    その辺はなんか良い話は無いんでしょうか?(^^;
    触覚で判るG(?)UIとか、PluggableLookAndFeelのバリエーションの1つとして
    「GUIの(文章じゃなく操作系の)」テキスト読み上げもサポートするとか、
  • GNOMEにもAccessibilityに関するプロジェクト が存在します。
    個人的に気になるのは、果たしてバザール型開発モデルでAccessibilityがどれだけ実現できるのかということです。
    • 利用者が少ないためピアレビュー効果が期待できない
    • LinuxにおけるUNIXおよびMinix,dotGNUにおける.NETのような参考、目標となるものが Accessibilityには存在しない(まだ発展途上)
    • 音声認識、読み上げなどは高度な技術やノウハウが必要なために 伽藍方式(必ずしもクローズドソースの意味ではない)の方が開発効率が良い。
    特に三番目に関して、わたしは FestivalJulius, ViaVoiceに匹敵するものを バザール方式で開発できるとはとうてい思えません。 商用ベンダーには、たとえ本体はクローズドソースでも各OS環境に対応できるインタフェースを 公開してくれることを強く望みます。
    ほかの二項目については皆さんどう思われるでしょうか。
  • by eukare (2230) on 2001年07月16日 20時14分 (#7486) 日記
    >触覚で判るG(?)UIとか
    そこで触覚マウスの出番が来るのでは。
    まだそこまで微妙な触感は出せないとは思いますけど。
  • 触るディスプレイというのが以前テレビで紹介されていました。

     いくつもの点が縦横ずらっと並べてあり
     その点がディスプレイのドットに対応して
     浮き上がったり沈んだりする・・・
    って感じだったと思います。

    確かNASDAだかどっかで使っているとか・・・。
    出所を示せないのが残念です...
  • >利用者が少ないためピアレビュー効果が期待できない
    バザール型以外の開発モデルに比べて少ないと言えるかどうか疑問に思います。逆に多いような気も...でもこれも根拠ないですね。

    >LinuxにおけるUNIXおよびMinix,dotGNUにおける.NETのような参考、目標となるものが Accessibilityには存在しない(まだ発展途上)
    発展途上ならまだこれからいけるかも。独自に作るのも可だと思う。どちらも時間はかかるんだろうけど。

    >音声認識、読み上げなどは高度な技術やノウハウが必要なために 伽藍方式(必ずしもクローズドソースの意味ではない)の方が開発効率が良い。
    そのような技術やノウハウを持った人々がプロジェクトを組んで長時間集中して取り掛かった方が効率がいいだろうとは思います。
    しかし、Festivalや Julius, ViaVoice の開発に必要な技術のレベルより低いレベルで Linux カーネルは開発可能だったってこともないと思いますし、高度な技術やノウハウが必要だからバザール型はあわないということであれば、ちょっと違う気もします。

    この手のものは企業にとってはあまりおいしくないものだと思いますので、こういうものこそバザール型のオープンソースで実現される、実現してほしいと思っています。

    う~む、主観的な意見ばっかりになっちゃいました。とりあえず、どう思うかってことで。
  • by norihiro (479) on 2001年07月16日 23時27分 (#7521) 日記
    ちょっと言葉が足りなかったかも知れません。
    音声認識・読み上げは、OSやコンパイラに比べれると特殊性が強いという意味で高度な 分野だと思います。
    OSやコンパイラの理論はコンピュータサイエンスを専攻すれば大抵学んでいるはずですし、 書籍もTanenbaumやPatterson&Hennessyの本、ドラゴンブックなどの定本を始めとしてたくさん 出版されています。また理論自身がそれなりに熟成しているので、あとはどう実装するか (ってこれが大変なんですが)を問題にすれば良いだけです。
    対する音声認識は、それほど確立された理論があるわけでもなく、情報系学科で学んだ人間が 全員知っている知識でもありません。開発者には一定以上の質のコードを書く能力だけでなく その分野に精通することが必須条件となるため、参加人数がどうしても限られてしまいます。

    個人的には、Accessibility(いい訳語知りませんか?だれか教えてぇ)の研究は 国が予算をつけて大学や(民間を含む)研究機関に研究を委託し、成果をBSD Licenceのようなもので 公開するのが一番有効(MacやWindowsなどにも採り入れやすい)だとおもいます。
  • by G7 (3009) on 2001年07月16日 23時37分 (#7524)
    Xerox(Fujiだけど)→Altoの再来→21世紀は触覚UIの時代だ!、
    というお気楽な未来を一瞬夢想してしまいました。
    危ない危ない。

    だけどこれ、「同時に1つの点しか「見る」コトができない」
    わけですよね。どうなのかなあ。

    目ぇ見えなくなったことないから知らないんだけど、
    触って情報をやりとりする手段(それこそ点字とか)って
    複数のドットを同時に上げ下げしているのが多いような…

    #Macは一部で(笑)、つつくボタンが1つしかないという理由で
    #馬鹿にされるそうですが、見える点が1つしかないのは
    #それ以上だったりして…

    一方で、多数の点を上げ下げできるデバイスってーと
    たとえば点字ディスプレイってのが有ると聞きましたが、
    あれって鼻血出るくらいにとんでもなく高価だ
    ってのは、ほんまでっしゃろか…
    CRTとかは技術革新が進んで安く(そして勿論高性能に)
    なったけど、点字画面とかはマダマダってことなのかな…

    おーい。見える人も見えない人も、
    なんかいいアイデアありませんかー?
  • by G7 (3009) on 2001年07月16日 23時41分 (#7526)
    そういや以前、ポケコンジャーナル(笑)に
    載ってるのを見たことがあったような。

    で、ポケコンだからというわけじゃないですが、
    (てゆーか何年も前の話なわけだが)
    点字が1列*8文字くらいの「面積」の代物だったようです。

    それはそれとして、今の野放図な(笑)GUIを
    そのまま触覚用にレンダリングするのって、
    どれだけ得策なのかな?と、かなり懐疑的な気分です。
    今こうして目で見ていても、強固に意味不明というか
    単に慣れているというだけの理由で「使える」UIで
    あるようにしか、思えないんですよねえ、今風のGUIって。

    意味論に基づいた(G)UIを研究してる人々も
    いるんでしたよねたしか。
  • ZipSpeak(視覚障害者向け音声合成内蔵Linuxディストリビューション) とかと組み合わせるとより効果的です。

    UNIX系マシンはディスプレイなしで運用する事が多いという点から考えても、音声認識・音声入力でも操作できると便利な場合も多いはずです。

  • ちょっとだけ障害者の立場から意見を言わせてください。
    私は聴覚障害者で補聴器を使用しています。現在使用している補聴器は両耳あわせて何十万もするデジタル補聴器です。しかし私はこの値段に不満は有りません。もちろんこれが百万を超えれば考えますが。なにより私にとって大切だったのは値段ではなく、健常者に囲まれた職場で会話をするたびに感じるストレスを緩和したいという願いでした。
    補聴器のような障害者向けの製品は市場が狭く、大量生産、大量消費で値段が下がるということはまずありません。その上開発に多くの時間と費用が必要になります。極論ではありますが、オープンソースのような開発者の興味や個人的なモチベーションに支えられている開発モデルは、障害者向けの製品のような地味で骨が折れ、かつ研究開発やテストに費用のかかるような製品の開発に向かないと思うのですが。。。
    反論、歓迎します。

  • で、それって目の見えん人はどう使えばいいんでしょう?
    操作できへんやん。

    そのあたりはまだこれからみたいですね。とりあえずしゃべれるようになっただけ。
    現時点では、せいぜいが弱視の人向けという事かな。


    音声認識の話もあるようですが、目と手は関係ないのに
    手を事実上使わせてくれずに代わりに口を使わされる、
    ってのは、なんかおかしな話なように思えます。

    別に、手を禁止にしてるわけじゃないと思いますが。
    手に加えて口も使えるようにするってことでは。
    --
    -- Che Che - Bye Bye
  • by G7 (3009) on 2001年07月17日 15時47分 (#7645)
    >別に、手を禁止にしてるわけじゃないと思いますが。
    >手に加えて口も使えるようにするってことでは。

    でも、対象物が見えてることを前提にして初めて使えるのが
    (少なくとも今の)GUIってもんですよね。
    キーボードは(マウスも当然)使えないわけで。

    #まぁいくつかの操作はマウス無しで使えないでもないけどさ>たとえば今のWindows
    #こうしていても俺も数時間くらいマウス触ってないし(笑)

    たとえば、
    「フォーカスの移動」ってなによ?ふざけんな?わかんねーよそんなもん?
    とかいう話になると思うのです。
    #あ。思ってるだけです。現場知りません。御免八百。

    その状態プラス音声入力「だけ」与えられた状態を以って
    「手に加えて」とは、言えないんじゃないかなあ?

    #禁止してる、ともいえませんけどね(^^;
  • やれる、またはやってくれる、という人や会社の絶対量が少ない
    という意味では、Openは似合わないと言えるのかもですね。

    一方で、値段が下がるのを期待できないという意味では、
    Openなものが出てくると事情が変化しないかな?という期待を、
    持てたりもするのかな、などと少し思います。

    というわけで、Openの伝家の宝刀(笑)としての
    「欲しいものは自分で作る」という考え方については、どう思いますか?
    納得いかねぇなら納得いくまで「納得したい人が」いじる、というアレです。

    幸いにしてソフトはハードより遥かに自助努力(厚かましくて御免なさい)を
    投入しやすいわけで、それがOpenの成り立つ理由の一つだったりするわけで。

    知らない無責任の勢いで妄想を続けます(笑)が、
    Hackerの自分のニーズから各種Unix toolが生まれた(極論)のと同様に
    見えない人はそれなりのニーズから各種ツールを作ったり、しちゃうかなーとか。

  • でも、対象物が見えてることを前提にして初めて使えるのが
    (少なくとも今の)GUIってもんですよね。

    ああ、なるほど。そういう意味でしたか。
    「目と手は関係ない」ということでしたので、別の意味にとってしまいました。
    失礼いたしました。

    私は「それってGUIだけなの?」と思ってますので、この話題はかみ合いにくいかも。
    視力へのハンデの前にGUI/CUIの違いってそんなに大きい物なんでしょうか。

    というわけで、ちょっと思考実験。
    現状、いわゆるCUIで利用されている方はいらっしゃるわけですよね。
    CUIだとアプリが対応してなくてもターミナルが対応してれば(カーソル上の文字の読み上げなど)
    苦労すれば画面の内容は把握できると。
    実際に利用しようとすると、各アプリに対する知識をどう取得するかが問題でしょうが。
    特にエディタなど。

    それをGUIでも何とかできるようにならないか…。
    アプリが対応しない状況だと無理でしょうね。
    視力が弱いだけの人だとフォントを大きくして利用する場合があるそうですが、
    それでも読めない人の為となると、
    GUIに疑問を持つのは納得がいきます。

    というわけで、私なりのスタンス。
    操作手段という意味ではCUI/GUIで大きな差はないのではないか。
    画面の把握はCUIの方がGUIよりは楽だろう。
    ただし、GUIできちんと対応させれば何とかなる可能性はあると思う。

    実際にハンデを持ってらっしゃる人はどう考えてるんだろう。
    --
    -- Che Che - Bye Bye
  • by G7 (3009) on 2001年07月17日 19時26分 (#7695)
    >私は「それってGUIだけなの?」と思ってますので、この話題はかみ合いにくいかも。

    あ。俺も、目くそ鼻くそだがどっちかと言えばよりダメなのはGUIだ、
    くらいにしか思っていません。CUIだってダメでしょうね。
    まして、本筋を考えるならば、viのようなビジュアルな(笑)エディタすら
    CUIといっても名ばかりであり無意味、だったりするかも知れないです。

    こっから先はどなたか当事者の人が教えてくれへんかな…

    視覚の、他の感覚と比べて際立って特異な点というと、
    一望性でしょうかねやっぱり。
    全部の画素をだいたい同時に「見る」ことが出来る。
    #いんちきが隠されているが、まぁ
    シリアライズ(笑)されていない。

    この特異性に依存すればするほど、他の媒体に移植しづらく
    なるんだろうなあ。

    >GUIできちんと対応させれば何とかなる可能性はあると思う。

    「きちんと」つってもなあ…
    なにを「見せ」ればいいのやら…
    一望性に思考が規定されてたりすると、案が全然出なかったりもするかも。

    もはや文化圏の問題だったり。体系を構築することから考えんと
    ダメなんじゃないかな。
  • ちょっと説明不足だったようです。

    窓'sとかをそのまま表示するというわけでは無かったと思います。
    あと、点字のそれとは面積とかも格段に違うものだと思います。
    それなりのグラフィック表示(VGA位かな?)が可能で、
    用途として、方角、角度などを数値だけでなく
    視覚的に(?)つかめるようにするためのものだったと思います。

    関係ないですが、窓'sを目が見えなくても使えるようにするというのがあったような・・・。
  • by Anonymous Coward on 2001年07月17日 2時08分 (#7545)
    音声認識ですと、Juliusはソースが公開されていると思 います。

    これを Linuxに移植して、Linux上でいろいろな音声認識のア プリが動くようになって欲しいですね。

    個人的にはやってみたいのですが、ライセンスがどうなって いるのか分かりません。移植した後GPLみたいに配ってい いのか、あくまで研究レベルでの配布しか許されないのか。 (法律は苦手で、ライセンスを読んでもよく分かりません でした。)

    この件について分かる人います?

typodupeerror

アレゲは一日にしてならず -- アレゲ見習い

読み込み中...