maiaの日記: ドコモ、高音質音声符号化技術を開発 26
日記 by
maia
Tech-On!の記事やITmediaの記事によれば、NTTドコモは、DoCoMo Communications Laboratories USAと共同で、携帯電話向けの高音質音声符号化技術を開発した(プレスリリース)。対応する周波数帯域を50Hz~16kHzとしながらも、ビットレートは38~48kbpsで送れ、演算量は「既存の技術に比べると半分程度」と軽いらしい。ちなみに普通の電話は300Hz~3.4kHz程度、Skypeですら50Hz~8kHz程度だ。
μ-Law + mp3 ? (スコア:4, 興味深い)
全音量で均等に量子化するリニアPCMに対し、音量が大きい部分は荒く、小さい部分は細かく量子化ビットを割り振るのがμ-Lawで、ISDNの音声部分はコレです。
μ-Lawのサンプリング周波数を上げて、符号化する時にmp3のような圧縮符号化してるんでしょう。
もしかしたらADPCMのような軽い圧縮かもしれません。
(図を見た限り、ブロック化なども行っていそうですが。)
ちなみに、μ-Lawの圧縮率はリニアPCMに比較して1/2、ADPCMでも1/4程度です。
ところで、携帯電話の帯域って、ハーフレートで5.6kbps、フルレートでも11.2kbpsしかありません。PHSでも32kbpsです。
64kbpsの帯域があるISDNならともかく、携帯電話で38~48kbpsというのはちょっと無理があるような…。
Re:μ-Law + mp3 ? (スコア:1)
FOMAが採用しているW-CDMAではデータ転送時の帯域は上りでも64Kbps出てる筈なので、こちらを使えば十分だと思います。
Re:μ-Law + mp3 ? (スコア:0)
音声で使える品質のデータ回線を確保するなら、結局音声の帯域を広げるのと同じコトになります…。
Re:μ-Law + mp3 ? (スコア:1)
>常に最低限の帯域と遅延が保証される必要がある音声通信には使えません。
この場合の64Kbpsっていうのは回線交換接続のことだと思います。
#パケットの場合は384Kbpsですので
IPレベルでのQoSによる擬似的帯域保証ではなくて、網レベルの帯域保証ですから
交換機まではきっちり64Kbpsの幅を使えるはずです。
ちなみに通話にも使われています。
#通話のときは32Kbpsだったかも
Re:μ-Law + mp3 ? (スコア:2, 興味深い)
現在ハーフレートで10本通してる電波資源で、1本しか通せなくなる、という話です。
データ用なら、常に全帯域を占有しているとは限りませんよね。また、ベストエフォートとして、輻輳時には帯域を絞る制御を行ってもたいして実害ありません。音声と異なり、融通が利きます。
正直、32k~64kbpsも食わせればかなり高品質な音声になるのは当たり前であって、今回の符号化方式には見所が感じられません。
せいぜいが、軽負荷でエンコード/デコードが可能という程度ではないでしょうか?
もし、PHS(32kbpsのADPCM)と同じ程度の音質でハーフレート5.4kbpsに流せる、という話なら画期的だったんですが…。
ところで、ドコモの研究なので電話用途を考えちゃいますが、電話以外の、たとえばネットラジオなどの用途にはそれなりに使えそうです。
デコードの負荷が軽いってことは電池の持ちが良くなりますものね。
Re:μ-Law + mp3 ? (スコア:1)
音声通話なのにそんな不安定通信を使われても困るのですが…。
たまたま他の通信で帯域奪われてたらどうしますか?
データ通信と違って、音声系は原則論として遅延は許されないのですから。
>せいぜいが、軽負荷でエンコード/デコードが可能という程度ではないでしょうか?
性能面で大きなディスアドバンテージを抱え、
バッテリー駆動と言う致命的な弱点を抱える携帯端末にとって、
これ以上はないメリットだと思いますが。
Re:μ-Law + mp3 ? (スコア:0)
>音声通話なのにそんな不安定通信を使われても困るのですが…。
まったくその通りの主張してるんですが…。
レスポンスツリーを上から読むコトをお勧めします。
>>せいぜいが、軽負荷でエンコード/デコードが可能という程度ではないでしょうか?
>性能面で大きなディスアドバンテージを抱え、
>バッテリー駆動と言う致命的な弱点を抱える携帯端末にとって、
>これ以上はないメリットだと思いますが。
このメリットを奪ってあまりあるデメリットがあると、述べているのです。
残念ながら、何故こんな技術を今更発表したのか、まったく不明です。
今時の音楽ケータイには、mp3やaacのデコードチップが搭載されています。
1年ちょい前には音楽プレイヤー連続再生3時間とかでしたが、今では10時間を軽く超えていたりします。
元記事にもあるように、PDAなどでソフトウェアデコードする時ぐらいにしかメリットは感じないでしょう。
Re:μ-Law + mp3 ? (スコア:0)
このコーデックは(固定系も含め)既存の回線交換(ベアラ)網に適している、というのが大きなメリットかな、と。
・38-48kbpsというビットレート
既存の固定ベアラ網では64kbps(ITU-T G.711 μ-Law or A-Law)を1回線として作られてます。まずはそこに収めないと既存網では使えません。
携帯系でも、3G(W-CDMA/cmda2000)であればこの程度の帯域確保は難しくないと考えます。現状では12k程度までしか使いませんが。この際、PDCやらPHS、GSMなど3G以前のものは考慮しないとします。
固定網はIP化が進むと思われますが、その際にもμ-Law/A-L
8/31にやった夏休みの宿題 (スコア:1)
研究部門で遊んでた人達が何かアウトプットを求められて急遽でっちあげたんじゃないかと勘ぐりたくなります。
Re:μ-Law + mp3 ? (スコア:0)
ニュースレベルでは画期的とか報じられる訳で、その実はデバイスの
CPUをかなり食いまくるとかだったりして??
エコーはどうなんだろう? (スコア:1, 興味深い)
Re:エコーはどうなんだろう? (スコア:0)
サンプリング後、符号化前にエコーは信号処理で消してます。
「電話」ならあって当然の技術。
Re:エコーはどうなんだろう? (スコア:0)
コーデックLSIとかに組み込まれているエコーキャンセラって100msくらいの遅延までしか対応できていないと思うんですが。
Re:エコーはどうなんだろう? (スコア:0)
Re:エコーはどうなんだろう? (スコア:0)
Re:エコーはどうなんだろう? (スコア:0)
心当たりある方は御注意を。
Re:エコーはどうなんだろう? (スコア:0)
もっと低ビットレートを目指さないと (スコア:1)
ステレオだと倍の76~96kbps?
Windows Media Audio 9(9.2)でステレオの音楽を圧縮すると96kbpsでも
MP3の128kbps程度の音質はあるように感じますから、
通話目的の音質でモノラル38kbpsというのはあまり魅力的ではないような・・・・
#WME9で54kbpsのビデオをストリーミングして@FreeDで観てるgesaku
Re:もっと低ビットレートを目指さないと (スコア:0)
その分、圧縮率が高くなります。
なので単純に倍にするのは間違っています。
Re:もっと低ビットレートを目指さないと (スコア:0)
Re:もっと低ビットレートを目指さないと (スコア:0)
J-Popに限らず、大抵の音楽は
音のソースから出た音が左右に分かれて入っています。
当然差があるんですが、
それを利用した圧縮は普通に使われていますよ。
そういう圧縮に適した音源かどうかを判定して
適した圧縮を行うのがジョイントステレオだと思います。
Re:もっと低ビットレートを目指さないと (スコア:0)
Re:もっと低ビットレートを目指さないと (スコア:0)
Re:もっと低ビットレートを目指さないと (スコア:2, 参考になる)
元々モノラルだった規格をステレオ化するときの定番ですね。
旧規格のデータとしてはL+Rを伝送し、追加でL-Rも伝送。
ステレオ受信機は「(L+R)+(L-R)=2L」「(L+R)-(L-R)=2R」って演算で、左右のチャンネルを取り出す。
従来のモノラル受信機はL+Rだけ受信するので、普通にモノラルとして聞こえます。
音質が向上すると (スコア:0)
↓
著作権料を徴収できるぞ
↓
使用料に上乗せ