可逆圧縮で1/100に 140
ストーリー by yasu
小さくなるのは良いことだ 部門より
小さくなるのは良いことだ 部門より
masamic 曰く、 "ZDNetの「100分の1以下を実現するデータ圧縮の新技術」によると、米国の企業と数学者グループが、情報の欠損なしに圧縮・展開する技術理論を発表した模様だ。 単調な(アニメなど)の絵や情報の欠落が発生するJPEG圧縮であれば、数十分の1まで圧縮することが可能であるが、今回の理論ではランダムなデータ列を100分の1に圧縮し、完全に再現することができるらしい。 本当にできるのだろうか?"
これだけの圧縮率 (しかも可逆) が実現されればすごいが、 気になるのはパテントの問題。 無料でとは言わないが、安価に使えるようにして欲しいところだ。
現在の情報理論の常識から言えば (スコア:5, 興味深い)
しばらくは眉にツバをつけて見てたほうがいいかも.理論もまだ公開されてないわけだし.
Re:現在の情報理論の常識から言えば (スコア:2, すばらしい洞察)
Re:現在の情報理論の常識から言えば (スコア:2, 参考になる)
「ネットワーク上でやりとりされるデータをランダムに抽出したところ、平均1/100の圧縮率」
で可逆圧縮できる方法を編み出したのではないかな、と思います。
もしそうだとすれば、それはそれで素晴らしいことです。
Re:現在の情報理論の常識から言えば (スコア:2, おもしろおかしい)
フェルプス君やジェームズ・ボンド君に教えて上げてください。
特にボンド君は、残りの上映時間をすべて美女と楽しめることに大喜びするでしょう。Re:現在の情報理論の常識から言えば (スコア:1)
ていうか、もう少し詳しく説明してもらわないと、
何を言いたいのか理解できません。
Re:現在の情報理論の常識から言えば (スコア:1)
圧縮が可能なデータ列なら「完全なランダム」ということはあり得ないということです。だから圧縮された元データは
「一見ランダムに見えるだけで、厳密には完全なランダムなデータではなかった」
ということだろう、ということです。
Re:現在の情報理論の常識から言えば (スコア:1)
情報を含んだデータ列には必ず規則性が存在
です。
圧縮可能なら完全にランダムではない
なんてことを否定してはいません。
Re:現在の情報理論の常識から言えば (スコア:1)
>圧縮可能なら完全にランダムではない
ことを肯定することと
>情報を含んだデータ列には必ず規則性が存在
を否定することは矛盾してませんか?
完全にランダムな状態で情報が含まれるというのはどういうものがあるんでしょうか?
Re:現在の情報理論の常識から言えば (スコア:1)
> >圧縮可能なら完全にランダムではない
> ことを肯定することと
> >情報を含んだデータ列には必ず規則性が存在
> を否定することは矛盾してませんか?
しません。例えば、コイントスの結果を伝える場合を考えます。情報は、出た面が表なら 1、裏なら 0 というように符号化し、一回目から順に並べるとします。
コインに偏りが無ければ、このビット列はランダムですが、コイントスの結果と言う情報は正しく伝えています。
「情報」 (スコア:1)
それじゃ,あるファイルをgzip(でもcompressでも何でもいいですが)で可逆圧縮したとして,ヘッダ以外の「ランダムな」(=サイズがその情報量にほぼ等しい)部分には情報はないんですか? そんなことはないでしょう.
Re:「情報」 (スコア:1)
それは「完全なランダム」ではないです。
完全なランダムにしてしまうと復元はできません。復元するための規則性が必ず残ります。
Re:「情報」 (スコア:1)
大体、ランダムってどういう意味で使ってますか?
ごめんなさい (スコア:1)
完全にランダムな状態(全ての要素の出現率が均一)で情報量(エントロピー)が最大になるので、それ以上の圧縮は不可能。
でした m(_ _)m
Re:現在の情報理論の常識から言えば (スコア:1)
「完全な乱数列」というのが正しい日本語だと思いますが,ちと分かりにくいかと思ってこう書きました.失礼.
ノーベル賞 (スコア:3, 参考になる)
Re:ノーベル賞 (スコア:2, すばらしい洞察)
これでみんながハッピーになれればね。
Re:ノーベル賞 (スコア:1)
Re:ノーベル賞 (スコア:1)
正式名称 (スコア:1)
正式名称は
"Bank of Sweden Prize in Economic Sciences in Memory of Alfred Nobel"
--「アルフレッド・ノーベル記念スウェーデン銀行経済学賞」
なんだそうです。
ブロードバンド&大容量化 (スコア:1)
通信はギガビット
そんな時代になれば ムヨー とか言われるのだろうなぁ
Re:ブロードバンド&大容量化 (スコア:2, すばらしい洞察)
Re:ブロードバンド&大容量化 (スコア:1)
# 100GBのHDDを買ってきても、次の週には空きはわずか…
Re:ブロードバンド&大容量化 (スコア:2, 興味深い)
ウチでは「冷凍庫がいっぱいだから今日は冷凍食品買うのは止めとこう」とかいう会話が...
頼むから冷蔵庫の空き領域は埋めなくてはならないという強迫観念を何とかしてくれぇ>配偶者(^^;
ところで圧縮/展開にかかる時間は? (スコア:1)
どの程度なんだろうか?
100MBを1MBに圧縮するのに P4-2GHz でも1年かかったら
実用性がしばらくないと思うが...
嘘だっ (スコア:1)
カオスとかその辺でしょうか。
与えられたデータに適合する、「自然発生パターン」を発見する方法を見つけた、と。
…それならありうるかもしれない。
でも計算量かかりそうですね。
実用に耐えるためには P4 10GHz くらい必要だったりして。
-- wanna be the biggest dreamer
Re:嘘だっ (スコア:1)
何度か出て来ているようなので、その可能性はありそうですね。
最後の2つの論文がなんか怪しい…。誰か読んでみません?(^^;)
無限圧縮 (スコア:1)
そんなのできるわけない。
okome
Re:無限圧縮 (スコア:2, 興味深い)
試験に出るX1 (スコア:1)
確かその中の質問コーナーに、
「ダンプリストのチェックサム情報だけで
元のデータを復元することはできないでしょうか?」
などというものがあって、その答えのなかで、
「もし256バイトのダンプのチェックサムデータ
32バイトだけで元のデータが復元できるならば、
それを繰り返すことによって数十KBのデータが
たった32バイトだけで復元できることになってしまう。」
とかなんとか書いてあったような。
10年前にこの技術があれば、あのブ厚いI/Oの
ダンプリストをちまちまと入力することも無かっただろうに。
Re:試験に出るX1 (スコア:1)
#PCマガジン派
にわかには信じられませんね (スコア:1)
符号化が存在するとすれば、その圧縮率がたとえ数百分の一といわず、
ほんの 1/2 だったとしても、任意の文字列を 1bit で
表せることになってしまいますね。
同じ圧縮を繰り返しかけていけば、
最後には 1bit になってしまうでしょうから。
ということは、1bit、つまり零か壱かの弐状態で、
任意の文字列を表すことができることになりますが、
それは絶対に無理だということが直観的にわかるでしょう。
もちろん、文字列をビット列や画像に置き換えたところで
全く同じことが言えます。
ということで、元の情報の特性を全く利用しない圧縮は
ありえないわけで、もう少し詳しい情報が無いと
なんとも判定できませんね。
Re:にわかには信じられませんね (スコア:1)
Re:にわかには信じられませんね (スコア:1)
任意の文字列を常に短くできる圧縮なんか存在しない、
ということを説明している文章なんだが、この AC には解らんのだろうな。
もしや (スコア:1)
Re:もしや (スコア:1)
まさに「世界中のファイルのバリエーションなんざ2^64程度
に違いない」ってのが出発点だと聞いたような。
Re:もしや (スコア:1)
なんの雑誌だったかなぁ。あの人の話は好きでした。
-- やさいはけんこうにいちば〜ん!
もしかしてアレ? (スコア:1)
あの、定期的に出てくる、『世界中のすべてのファイルはだいたい8バイトくらいまで圧縮できる』ってゆーネタ?
# あれをまじめに実装するには、とんでもなく広い帯域とデカいディスクが必要な気がするのだが。
悔しい。 (スコア:1)
エントロピーライクなランダムシーケンスを形成するもの」
言葉尻だけ捕らえようとするとかなり難解ですね。
自然発生パターンっていうのは、規則性の認められるパターン?
エントロピーライク・・・
http://dictionary.goo.ne.jp/cgi-bin/dict_search.cgi?MT=%A5%A8%A5%F3%A5%C8%A5%ED%A5%D4%A1%BC&sw=2
言葉の意味すら理解できないですが、
その特許の名前が「BinaryAccelerator」はいかがなものか。
理解できず悔しいので謝辞を一つ、ば。
「今回の発表は、ランダムシーケンス解析法によるデータ形成過程、
その極微細構造制御及び復元・符号化を介した情報論理解析理論に
多大な貢献が認められる」
(注:言葉はすべて適当です)
翻訳チップ利用かな? (スコア:1)
"castigat ridendo mores" "Saxum volutum non obducitur musco"
実は先日、 (スコア:1)
約16MBになりましたが、こいつをWinZipで「フツー」に圧縮したら
156kB、つまり102%もの圧縮率となってブッたまげました。
これはWinZipがエラいんでもなんでもなく、単に一太郎が画像ファイル
を無駄に大きなサイズでセーブしてしまうのが原因のようです。
それにしても、結果だけ見るとちょっとビックリしてしまいますね。
今回の話で圧縮すると、圧縮率は一体いくらになるのやら...?
Eureka !
Re:実は先日、 (スコア:2, おもしろおかしい)
初代Lunatic Dawnのセーブデータ。
だが、いいこともあるぞ、外の天気は上々なんだ
Re:実は先日、 (スコア:1)
見事に笑わせてもらいましたが、あれはどちらかっつーとクラスタを食い荒らしてただけのような。(^^;
勝つて言はず、敗れて語らず、
謙譲を崇ぶ者は君子也、怨怒を起す者は小人也。
Re:実はその昔、 (スコア:1)
LHA で圧縮したら、元のサイズの 2%(すなわち 1/50)に
なったことならありました。
ところで、圧縮率 102% って何?
Re:実はその昔、 (スコア:1)
あわててちょいと間違えてしまいました、はは。
要は100分の一以下のサイズになったということでご理解ください。
では
Eureka !
立証に何年も? (スコア:1)
可逆圧縮だったら、エンコードしてデコードしたものを元ファイルと
比べるだけでOKな気がしますが、何を言いたいんでしょうね?
ひょっとして、この方式が適用できる確率を気にしているのかな。
ジャンルを限定しても1%とかだったら、実用になりませんものね。
Re:立証に何年も? (スコア:1)
例えば、メモリを100TB使用するとか、計算量が膨大すぎるとか。
BlockSortingも、論文通りに実装するとデータ量の2乗のメモリが必要だというのをどこかで見た記憶があります。
Re:立証に何年も? (スコア:1)
確実な立証にはまだ何年もかかるとしている
> 可逆圧縮だったら、エンコードしてデコードしたものを
> 元ファイルと比べるだけでOKな気がしますが、何を言いた
> いんでしょうね?
元記事に「今回の理論ではランダムなデータ列を100分の1に圧縮し、完全に再現することができるらしい」
と書いてあるので、「ある特定のランダムなデータ列」は圧縮できるけれど、それ以外のデータ列だと自信ないな、ってなところでしょか。(ははは
〜◍
推測 (スコア:1)
たとえば、そこそこのデータのCRC16とMD5を作成し、データ長とともに転送します。それを受け取った側ではbrute forceでデータを復元するような感じです。一応断っておきますが、あくまで例なのでこの方法で出来るとは私も思いませんし、大体出来たとしても気が遠くなるような速度です。これの非常に数学的で効率的な方法を編み出したと。
Shanonの定理に抜け道が見つかると言うのは考えづらいですが、これで事前にあらゆるデータプールが存在していると言うことになっていると、実際には最初に無限大のデータを転送していることになりますから、Shanonの定理に反しているとはいえないと思います。
P2Pと組み合わせて (スコア:1)
これでよいに違いない(よくあるネタですが)。当然、 1番目の処理ですでに破綻してますが。
あるいは、
この圧縮方式はよく採用されています(泣)。
#こないだ送っただろー!!探す手間も惜しいのか?!
Re:P2Pと組み合わせて (スコア:2, おもしろおかしい)
みんつ