アカウント名:
パスワード:
この分野でも日本語対応って30年ぐらい停滞しているんだよなあ。一般への応用は進んではいるのだけれど、認識率とか、認識後の文章への補正とかあまり進んでいない。英語版の認識モジュールを流用すればいいという割り切りが、日本語特有の誤認識を生み出している。そのうえ、日本でも研究が盛んだった頃に知財による変な利権がついているようで、日本国内ではそれが足かせになっているというのもある。残念な話である。
玉虫色に的確な白黒つけるAIできたら日本で大ヒット間違いない罠
玉虫色とわかってるだけマシかと♯笑えねえ
日本は文脈だけでなくシチュエーションとか場所に依っても意味が変わったりするからなぁ。カメラとかGPSも付けないと正確な翻訳は難しいのじゃ。
「ぶぶづけでも」は「粗末な漬物しかないが、晩御飯を上がって行きなさい」では無いよね。でも文章的にストレートに意訳すると後者なんだ。でも実際の意味は逆だ。
> 日本は文脈だけでなくシチュエーションとか場所に依っても意味が変わったりするからなぁ。
それはどこの言葉でも同じでしょう。
> 「ぶぶづけでも」は「粗末な漬物しかないが、晩御飯を上がって行きなさい」では無いよね。> でも文章的にストレートに意訳すると後者なんだ。
「I wish I could.」も「私に(それが)可能であることを望んでいる」ではないよ。
「漬物」→「お茶漬け」。
「ぶぶ」は「お茶」。
そういう、いじめ認知件数(児童生徒1000人当たり)が日本一の地域の嫌みな表現はこの際撲滅されても良いと思うんだ。
「びーず」と発音した時に「B'z」なのか「ビーズ」なのか「びーず」なのか「Bees」なのか、パターン多すぎて難しいんだと思う。漢字も絡むから、さらに難易度高い。
認識するだけならまだしも、それを解釈してアクションを起こす時に、漢字とひらがな、の違いだけでも結果が変わってしまう。検索結果に出ないとか。世界でも最も複雑な言語の一つでは。
え? Googleの音声検索とか、30年前に比べたら圧倒的だと思うんですが? 30年前じゃようやく不特定話者連続発生が対応できたかどうかぐらいで認識対象語数もすかすか。その辺の町の店まで認識できるGoogleを停滞してるとはとてもいえない。
Cortanaの反応見る限り、停滞しているというほどじゃないそこそこ使える
入力された音を表音文字のカナに変換するまでだけの音声認識なら日本語も相当な正確性で認識しますよ。そういう意味では、日本語対応が30年遅れているというのはちょっと違うように思います。
ブレークスルーが待ち望まれているのはカナから漢字かな混じり文に変換する部分で、これは表音文字だけの言語には存在しない要素です。ここの技術がなかなか進んでいません。(それでも着実に少しずつ進展してはいるんですけどね)英語にも同音異字語はありますが、日本語でカナ→漢字かな混じり文の変換とは量も質も全く違います。
アクセントも含めていきなり漢字(熟語、単語)にするんじゃないのかね。英語だって発音記号に直したりアルファベットにしてから単語認識してるんじゃあるまいて
「わたしは」と聞き取れたときに、「わたしは」「ワタシは」「私は」「妾は」のどれにするか判断つかないってことじゃない?
全然違うw
> 「わたしは」「ワタシは」「私は」「妾は」のどれにするか判断つかないってことじゃない?
その例は人間がやったって判断付かないし、違った漢字をあてはめたところで意味はほぼ同じなので、問題にならない。文学作品を作っているんじゃなくて、ただの「聞き取り」なんだから。
ほぼ30年、テクノロジーの進歩が無いんですよね。英語版のモジュールの流量による誤認識、と言うのはどうなんだろ?それは聞いたことがないなぁ。知財による利権、と言うのはわからないけど、音声認識はマイクロソフトが権利を買っていて、研究では買われる前の不具合のあるツールを使ってるところが多いですね。
より多くのコメントがこの議論にあるかもしれませんが、JavaScriptが有効ではない環境を使用している場合、クラシックなコメントシステム(D1)に設定を変更する必要があります。
開いた括弧は必ず閉じる -- あるプログラマー
日本語対応 (スコア:0)
この分野でも日本語対応って30年ぐらい停滞しているんだよなあ。
一般への応用は進んではいるのだけれど、認識率とか、認識後の文章への補正とかあまり進んでいない。
英語版の認識モジュールを流用すればいいという割り切りが、日本語特有の誤認識を生み出している。
そのうえ、日本でも研究が盛んだった頃に知財による変な利権がついているようで、日本国内ではそれが足かせになっているというのもある。
残念な話である。
Re: (スコア:0)
玉虫色に的確な白黒つけるAIできたら
日本で大ヒット間違いない罠
Re: (スコア:0)
玉虫色とわかってるだけマシかと
♯笑えねえ
Re: (スコア:0)
日本は文脈だけでなくシチュエーションとか場所に依っても意味が変わったりするからなぁ。
カメラとかGPSも付けないと正確な翻訳は難しいのじゃ。
「ぶぶづけでも」は「粗末な漬物しかないが、晩御飯を上がって行きなさい」では無いよね。
でも文章的にストレートに意訳すると後者なんだ。
でも実際の意味は逆だ。
Re:日本語対応 (スコア:1)
> 日本は文脈だけでなくシチュエーションとか場所に依っても意味が変わったりするからなぁ。
それはどこの言葉でも同じでしょう。
> 「ぶぶづけでも」は「粗末な漬物しかないが、晩御飯を上がって行きなさい」では無いよね。
> でも文章的にストレートに意訳すると後者なんだ。
「I wish I could.」も「私に(それが)可能であることを望んでいる」ではないよ。
Re: (スコア:0)
「漬物」→「お茶漬け」。
「ぶぶ」は「お茶」。
Re: (スコア:0)
そういう、いじめ認知件数(児童生徒1000人当たり)が日本一の地域の嫌みな表現はこの際撲滅されても良いと思うんだ。
Re: (スコア:0)
「びーず」と発音した時に「B'z」なのか「ビーズ」なのか「びーず」なのか「Bees」なのか、パターン多すぎて難しいんだと思う。
漢字も絡むから、さらに難易度高い。
認識するだけならまだしも、それを解釈してアクションを起こす時に、漢字とひらがな、の違いだけでも結果が変わってしまう。
検索結果に出ないとか。世界でも最も複雑な言語の一つでは。
Re: (スコア:0)
え? Googleの音声検索とか、30年前に比べたら圧倒的だと思うんですが?
30年前じゃようやく不特定話者連続発生が対応できたかどうかぐらいで
認識対象語数もすかすか。
その辺の町の店まで認識できるGoogleを停滞してるとはとてもいえない。
Re: (スコア:0)
Cortanaの反応見る限り、停滞しているというほどじゃない
そこそこ使える
Re: (スコア:0)
入力された音を表音文字のカナに変換するまでだけの音声認識なら日本語も相当な正確性で認識しますよ。
そういう意味では、日本語対応が30年遅れているというのはちょっと違うように思います。
ブレークスルーが待ち望まれているのはカナから漢字かな混じり文に変換する部分で、これは表音文字だけの言語には存在しない要素です。
ここの技術がなかなか進んでいません。(それでも着実に少しずつ進展してはいるんですけどね)
英語にも同音異字語はありますが、日本語でカナ→漢字かな混じり文の変換とは量も質も全く違います。
Re:日本語対応 (スコア:1)
アクセントも含めていきなり漢字(熟語、単語)にするんじゃないのかね。
英語だって発音記号に直したりアルファベットにしてから単語認識してるんじゃあるまいて
Re:日本語対応 (スコア:1)
「わたしは」と聞き取れたときに、
「わたしは」「ワタシは」「私は」「妾は」のどれにするか判断つかないってことじゃない?
Re: (スコア:0)
全然違うw
> 「わたしは」「ワタシは」「私は」「妾は」のどれにするか判断つかないってことじゃない?
その例は人間がやったって判断付かないし、違った漢字をあてはめたところで意味はほぼ同じなので、
問題にならない。文学作品を作っているんじゃなくて、ただの「聞き取り」なんだから。
Re: (スコア:0)
ほぼ30年、テクノロジーの進歩が無いんですよね。
英語版のモジュールの流量による誤認識、と言うのはどうなんだろ?それは聞いたことがないなぁ。
知財による利権、と言うのはわからないけど、音声認識はマイクロソフトが権利を買っていて、研究では買われる前の不具合のあるツールを使ってるところが多いですね。