ドコモ、高音質音声符号化技術を開発 | maiaの日記

maiaの日記：ドコモ、高音質音声符号化技術を開発 26

日記 by maia 2007年04月06日 2時28分

Tech-On!の記事やITmediaの記事によれば、NTTドコモは、DoCoMo Communications Laboratories USAと共同で、携帯電話向けの高音質音声符号化技術を開発した（プレスリリース）。対応する周波数帯域を50Hz～16kHzとしながらも、ビットレートは38～48kbpsで送れ、演算量は「既存の技術に比べると半分程度」と軽いらしい。ちなみに普通の電話は300Hz～3.4kHz程度、Skypeですら50Hz～8kHz程度だ。

この議論は賞味期限が切れたので、アーカイブ化されています。新たにコメントを付けることはできません。

記事ページを表示すべてのコメント取得

検索26コメント Log In/Create an Account

μ-Law + mp3 ? (スコア:4, 興味深い)

by Anonymous Coward on 2007年04月06日 11時25分 (#1138125)

ぱっと見た限り、μ-Law(対数PCM)に近いですね。
全音量で均等に量子化するリニアPCMに対し、音量が大きい部分は荒く、小さい部分は細かく量子化ビットを割り振るのがμ-Lawで、ISDNの音声部分はコレです。

μ-Lawのサンプリング周波数を上げて、符号化する時にmp3のような圧縮符号化してるんでしょう。
もしかしたらADPCMのような軽い圧縮かもしれません。
(図を見た限り、ブロック化なども行っていそうですが。)

ちなみに、μ-Lawの圧縮率はリニアPCMに比較して1/2、ADPCMでも1/4程度です。

ところで、携帯電話の帯域って、ハーフレートで5.6kbps、フルレートでも11.2kbpsしかありません。PHSでも32kbpsです。
64kbpsの帯域があるISDNならともかく、携帯電話で38～48kbpsというのはちょっと無理があるような…。
- Re:μ-Law + mp3 ? (スコア:1)
  
  by Helion (8785) on 2007年04月06日 11時49分 (#1138137) 日記
  
  >携帯電話の帯域って、ハーフレートで5.6kbps、フルレートでも11.2kbpsしかありません。
  FOMAが採用しているW-CDMAではデータ転送時の帯域は上りでも64Kbps出てる筈なので、こちらを使えば十分だと思います。
  
  シェア
  
  親コメント
  - Re:μ-Law + mp3 ? (スコア:0)
    
    by Anonymous Coward
    
    >携帯電話の帯域って、ハーフレートで5.6kbps、フルレートでも11.2kbpsしかありません。
    
    FOMAが採用しているW-CDMAではデータ転送時の帯域は上りでも64Kbps出てる筈なので、こちらを使えば十分だと思います。
    データ通信は、バースト転送で遅延したりベストエフォートだったりするので、常に最低限の帯域と遅延が保証される必要がある音声通信には使えません。
    
    音声で使える品質のデータ回線を確保するなら、結局音声の帯域を広げるのと同じコトになります…。
    - Re:μ-Law + mp3 ? (スコア:1)
      
      by gesaku (7381) on 2007年04月06日 13時56分 (#1138261)
      
      >データ通信は、バースト転送で遅延したりベストエフォートだったりするので、
      >常に最低限の帯域と遅延が保証される必要がある音声通信には使えません。
      
      この場合の64Kbpsっていうのは回線交換接続のことだと思います。
      ＃パケットの場合は384Kbpsですので
      
      IPレベルでのQoSによる擬似的帯域保証ではなくて、網レベルの帯域保証ですから
      交換機まではきっちり64Kbpsの幅を使えるはずです。
      ちなみに通話にも使われています。
      ＃通話のときは32Kbpsだったかも
      
      シェア
      
      親コメント
      - Re:μ-Law + mp3 ? (スコア:2, 興味深い)
        
        by Anonymous Coward on 2007年04月06日 14時11分 (#1138277)
        
        んー、要するに、64kbps食うってことは回線効率が極端に悪化する、というコトを言いたかったんです。
        現在ハーフレートで10本通してる電波資源で、1本しか通せなくなる、という話です。
        
        データ用なら、常に全帯域を占有しているとは限りませんよね。また、ベストエフォートとして、輻輳時には帯域を絞る制御を行ってもたいして実害ありません。音声と異なり、融通が利きます。
        
        正直、32k～64kbpsも食わせればかなり高品質な音声になるのは当たり前であって、今回の符号化方式には見所が感じられません。
        せいぜいが、軽負荷でエンコード/デコードが可能という程度ではないでしょうか？
        もし、PHS(32kbpsのADPCM)と同じ程度の音質でハーフレート5.4kbpsに流せる、という話なら画期的だったんですが…。
        
        ところで、ドコモの研究なので電話用途を考えちゃいますが、電話以外の、たとえばネットラジオなどの用途にはそれなりに使えそうです。
        デコードの負荷が軽いってことは電池の持ちが良くなりますものね。
        
        シェア
        
        親コメント
        
        Re:μ-Law + mp3 ? (スコア:1)
        
        by TameShiniTotta (19794) on 2007年04月07日 1時37分 (#1138730)
        
        ＞データ用なら、常に全帯域を占有しているとは限りませんよね。
        
        音声通話なのにそんな不安定通信を使われても困るのですが…。
        たまたま他の通信で帯域奪われてたらどうしますか？
        データ通信と違って、音声系は原則論として遅延は許されないのですから。
        
        ＞せいぜいが、軽負荷でエンコード/デコードが可能という程度ではないでしょうか？
        
        性能面で大きなディスアドバンテージを抱え、
        バッテリー駆動と言う致命的な弱点を抱える携帯端末にとって、
        これ以上はないメリットだと思いますが。
        
        シェア
        
        親コメント
        
        Re:μ-Law + mp3 ? (スコア:0)
        
        by Anonymous Coward
        
        >＞データ用なら、常に全帯域を占有しているとは限りませんよね。
        >音声通話なのにそんな不安定通信を使われても困るのですが…。
        
        まったくその通りの主張してるんですが…。
        レスポンスツリーを上から読むコトをお勧めします。
        
        >＞せいぜいが、軽負荷でエンコード/デコードが可能という程度ではないでしょうか？
        >性能面で大きなディスアドバンテージを抱え、
        >バッテリー駆動と言う致命的な弱点を抱える携帯端末にとって、
        >これ以上はないメリットだと思いますが。
        
        このメリットを奪ってあまりあるデメリットがあると、述べているのです。
        残念ながら、何故こんな技術を今更発表したのか、まったく不明です。
        
        今時の音楽ケータイには、mp3やaacのデコードチップが搭載されています。
        １年ちょい前には音楽プレイヤー連続再生３時間とかでしたが、今では10時間を軽く超えていたりします。
        元記事にもあるように、PDAなどでソフトウェアデコードする時ぐらいにしかメリットは感じないでしょう。
        
        Re:μ-Law + mp3 ? (スコア:0)
        
        by Anonymous Coward
        
        あの、端末のことばかり考えてないですか？
        
        このコーデックは（固定系も含め）既存の回線交換（ベアラ）網に適している、というのが大きなメリットかな、と。
        
        ・38-48kbpsというビットレート
        既存の固定ベアラ網では64kbps(ITU-T G.711 μ-Law or A-Law)を1回線として作られてます。まずはそこに収めないと既存網では使えません。
        携帯系でも、3G(W-CDMA/cmda2000)であればこの程度の帯域確保は難しくないと考えます。現状では12k程度までしか使いませんが。この際、PDCやらPHS、GSMなど3G以前のものは考慮しないとします。
        固定網はIP化が進むと思われますが、その際にもμ-Law/A-L
- 8/31にやった夏休みの宿題 (スコア:1)
  
  by goji (949) on 2007年04月06日 21時21分 (#1138584) ホームページ日記
  
  プレスリリース見た限りでは何も新しいことやってませんよね。
  研究部門で遊んでた人達が何かアウトプットを求められて急遽でっちあげたんじゃないかと勘ぐりたくなります。
  
  シェア
  
  親コメント
- Re:μ-Law + mp3 ? (スコア:0)
  
  by Anonymous Coward
  
  > 軽い圧縮
  
  ニュースレベルでは画期的とか報じられる訳で、その実はデバイスの
  CPUをかなり食いまくるとかだったりして？？
エコーはどうなんだろう？ (スコア:1, 興味深い)

by Anonymous Coward on 2007年04月06日 9時47分 (#1138049)

だーれもコメントしないようなのですが、(br) 最近IP等でよく見られるエコー（自分の声が遅延して受話器から聞こえる）(br) 原因ってのは、この手の技術とは関係ないのでしょうか？(br) (br) 教えてエロい人！(br)
- Re:エコーはどうなんだろう？ (スコア:0)
  
  by Anonymous Coward
  
  よっぽどヘボいソフトじゃ無い限り、エコーキャンセラを持ってて、
  サンプリング後、符号化前にエコーは信号処理で消してます。
  「電話」ならあって当然の技術。
  - Re:エコーはどうなんだろう？ (スコア:0)
    
    by Anonymous Coward
    
    回線伝って音響遅延まで考えるとエコーキャンセラって効き目あるんでしょうか？
    
    コーデックLSIとかに組み込まれているエコーキャンセラって100msくらいの遅延までしか対応できていないと思うんですが。
  - Re:エコーはどうなんだろう？ (スコア:0)
    
    by Anonymous Coward
    
    そのエコーがなぜ発生するのか？という質問だと思うのだが。
    - Re:エコーはどうなんだろう？ (スコア:0)
      
      by Anonymous Coward
      
      エコーが発生するのは、自分の声が相手のスピーカから出力され、その一部が相手のマイクに拾われ自分に戻ってくるためです。符号化技術とエコーは関係ありません。
- Re:エコーはどうなんだろう？ (スコア:0)
  
  by Anonymous Coward
  
  相手がイヤホンマイク使ってて、声が回り込んでるなんてのがあったりするので
  心当たりある方は御注意を。
- Re:エコーはどうなんだろう？ (スコア:0)
  
  by Anonymous Coward
  
  単なる通信遅延じゃないかと。
もっと低ビットレートを目指さないと (スコア:1)

by gesaku (7381) on 2007年04月06日 10時00分 (#1138060)

これ、モノラルで38～48kbpsってことですよね。
ステレオだと倍の76～96kbps？
Windows Media Audio 9(9.2)でステレオの音楽を圧縮すると96kbpsでも
MP3の128kbps程度の音質はあるように感じますから、
通話目的の音質でモノラル38kbpsというのはあまり魅力的ではないような・・・・

＃WME9で54kbpsのビデオをストリーミングして@FreeDで観てるgesaku
- Re:もっと低ビットレートを目指さないと (スコア:0)
  
  by Anonymous Coward
  
  音楽の場合は、左と右で同じような波長の音がでるので、
  その分、圧縮率が高くなります。
  なので単純に倍にするのは間違っています。
  - Re:もっと低ビットレートを目指さないと (スコア:0)
    
    by Anonymous Coward
    
    J-POPしか聴かない人?
    - Re:もっと低ビットレートを目指さないと (スコア:0)
      
      by Anonymous Coward
      
      ＞J-POPしか聴かない人?
      
      J-Popに限らず、大抵の音楽は
      音のソースから出た音が左右に分かれて入っています。
      当然差があるんですが、
      それを利用した圧縮は普通に使われていますよ。
      
      そういう圧縮に適した音源かどうかを判定して
      適した圧縮を行うのがジョイントステレオだと思います。
    - Re:もっと低ビットレートを目指さないと (スコア:0)
      
      by Anonymous Coward
      
      クラシックも聴くよ！
    - Re:もっと低ビットレートを目指さないと (スコア:0)
      
      by Anonymous Coward
      
      アナログのTVのステレオだって差分だろうに・・・・どこで育ったの？
      - Re:もっと低ビットレートを目指さないと (スコア:2, 参考になる)
        
        by taka2 (14791) on 2007年04月07日 13時45分 (#1138881) ホームページ日記
        
        FMのステレオ放送もL+RとL-Rの2チャンネル伝送ですよ。
        元々モノラルだった規格をステレオ化するときの定番ですね。
        
        旧規格のデータとしてはL+Rを伝送し、追加でL-Rも伝送。
        ステレオ受信機は「(L+R)+(L-R)=2L」「(L+R)-(L-R)=2R」って演算で、左右のチャンネルを取り出す。
        
        従来のモノラル受信機はL+Rだけ受信するので、普通にモノラルとして聞こえます。
        
        シェア
        
        親コメント
音質が向上すると (スコア:0)

by Anonymous Coward on 2007年04月06日 11時51分 (#1138139)

音楽が流せるではないか
↓
著作権料を徴収できるぞ
↓
使用料に上乗せ

より多くのコメントがこの議論にあるかもしれませんが、JavaScriptが有効ではない環境を使用している場合、クラシックなコメントシステム(D1)に設定を変更する必要があります。

maiaの日記：ドコモ、高音質音声符号化技術を開発 26

ドコモ、高音質音声符号化技術を開発 More ログイン

μ-Law + mp3 ? (スコア:4, 興味深い)

Re:μ-Law + mp3 ? (スコア:1)

Re:μ-Law + mp3 ? (スコア:0)

Re:μ-Law + mp3 ? (スコア:1)

Re:μ-Law + mp3 ? (スコア:2, 興味深い)

Re:μ-Law + mp3 ? (スコア:1)

Re:μ-Law + mp3 ? (スコア:0)

Re:μ-Law + mp3 ? (スコア:0)

8/31にやった夏休みの宿題 (スコア:1)

Re:μ-Law + mp3 ? (スコア:0)

エコーはどうなんだろう？ (スコア:1, 興味深い)

Re:エコーはどうなんだろう？ (スコア:0)

Re:エコーはどうなんだろう？ (スコア:0)

Re:エコーはどうなんだろう？ (スコア:0)

Re:エコーはどうなんだろう？ (スコア:0)

Re:エコーはどうなんだろう？ (スコア:0)

Re:エコーはどうなんだろう？ (スコア:0)

もっと低ビットレートを目指さないと (スコア:1)

Re:もっと低ビットレートを目指さないと (スコア:0)

Re:もっと低ビットレートを目指さないと (スコア:0)

Re:もっと低ビットレートを目指さないと (スコア:0)

Re:もっと低ビットレートを目指さないと (スコア:0)

Re:もっと低ビットレートを目指さないと (スコア:0)

Re:もっと低ビットレートを目指さないと (スコア:2, 参考になる)

音質が向上すると (スコア:0)

スラド