推測 (#53099) | 可逆圧縮で1/100に

「可逆圧縮で1/100に」記事へのコメント

記事ページを表示すべてのコメント取得

検索140コメント Log In/Create an Account

推測 (スコア:1)

by L.star (163) on 2002年01月10日 21時51分 (#53099) ホームページ

勝手に推測ですが、あらゆるビットシーケンスを発生させることの出来るようなジェネレーターでないでしょうか？つまり「世の中のデータを高々８バイトで実現してしまう」の親を作ってしまう何か。そして、データ全体より圧倒的に少ないヒントで再現を試みることができると。あまりにもとっぴな想像ですが。
たとえば、そこそこのデータのCRC16とMD5を作成し、データ長とともに転送します。それを受け取った側ではbrute forceでデータを復元するような感じです。一応断っておきますが、あくまで例なのでこの方法で出来るとは私も思いませんし、大体出来たとしても気が遠くなるような速度です。これの非常に数学的で効率的な方法を編み出したと。
Shanonの定理に抜け道が見つかると言うのは考えづらいですが、これで事前にあらゆるデータプールが存在していると言うことになっていると、実際には最初に無限大のデータを転送していることになりますから、Shanonの定理に反しているとはいえないと思います。
- Re:推測 (スコア:1)
  
  by calappa (4940) on 2002年01月10日 23時59分 (#53148)
  
  > 勝手に推測ですが、あらゆるビットシーケンスを発生させる
  > ことの出来るようなジェネレーターでないでしょうか？
  
  おそらくそうでしょう。
  さらに勝手に推測してよければ、私はリー・ヨークの定理に触発されたものではないかと思う。
  理屈では任意のビット列を生成するような初期値を求めることができる。
  ただし、コンピュータでは数値を離散的にしか扱えないから、すぐに周期的になってしまって、"あらゆるビットシーケンス"はとうてい無理。
  あの正方形内に、現実データにありがちなパターンを良く生成するような線の引き方（関数）を見つけたということかな。
  まあ、そんな単純な話じゃないとは思うけど。
  
  シェア
  
  親コメント
- Re:推測 (スコア:1)
  
  by taz3 (5225) on 2002年01月11日 8時39分 (#53223) 日記
  
  Shanonの定理に抜け道が見つかると言うのは考えづらいですが
  
  多分抜け道はないと思います．記述長という考え方が統計っちゅうか機械学習の分野にあります． THComp [nurs.or.jp] とも関係があるのですが，要するに(圧縮後の)データ長＋圧縮ルールの記述長を考えなければならんということです．前者が通信媒体上を流れる量や，(圧縮後の)ファイルサイズに対応して, 後者が圧縮・伸張に必要なデータ・規則に対応します．
  # THComp は後者が巨大になっていくアルゴリズムと
  # いうことが出来るでしょう．
  ですから，件のアルゴリズムはマスターデータっちゅうか encode/decode のためのルールが複雑怪奇大鑑巨砲的なものになっているのではないかと推測します．
  
  「自然発生パターンを意図的に作り出して，エントロピーライクなランダムシーケンスを形成するもの」
  当たりに，その雰囲気を感じます．何というか・・・世界シミュレータを作るようなものに思える．
  #『と』な雰囲気もちょっと感じる
  
  ま，20bit 約 100万通り全てのパターンを 1万パターン(13～14bit) で記述するのはどだい無理な話だと思います．ありがちなパターンはそれぐらいまで圧縮できるけど，逆に膨れ上がる(30bit 要する)場合もあるというのがオチではないかと思います．
  
  --
  Koichi
  
  シェア
  
  親コメント
  - Re:推測 (スコア:1)
    
    by L.star (163) on 2002年01月11日 13時48分 (#53307) ホームページ
    
    ありがちなパターンはそれぐらいまで圧縮できるけど，逆に膨れ上がる(30bit 要する)場合もあるというのがオチではないかと思います
    このフレーズを見て思ったんですけど、エントロピーが最大になる無記憶ランダム情報源では、統計的に言うと0/1がほぼ同数になりますよね？そういうところも利用しているんじゃないかな、と。
    # つまり、RLEの得意な分野が徹底的に苦手になる？ま、そうであればRLEと組み合わせればすむ話ですが。
    # そういえば、昔見たFARってグラフィックフォーマットは複数アルゴリズムを選択するようになっていたな・・・ああいうアーカイブフォーマットは二度と出てこないのだろうか
    
    シェア
    
    親コメント
- Re:推測 (スコア:0)
  
  by Anonymous Coward
  
  同じMD5とCRC16を持つ元データは、理論上無限にあるんじゃ…
  無限にある元データ候補の中から、なんらかの方法で「答えっぽい」のを一つ選ぶことができても、それが正解って確証はどこにもないわけで…
  - Re:推測 (スコア:0)
    
    by Anonymous Coward
    
    あ、 データ長も送るのですね。
    なら元データ候補は、無限じゃないですね。
    
    ごめんなさい。はやとちりでした。
    それでも、元データの候補がいくつか出てくる可能性はありますね…
    
    もし
    - Re:推測 (スコア:1)
      
      by L.star (163) on 2002年01月11日 0時12分 (#53155) ホームページ
      
      あー、ですから、あくまで推測をでたらめなもので具体的に説明しただけであって、私もこれが可能と言うつもりはありません。ただ、そうやって生成したバイト列をさらにブロック化してそのCRC16+MD5を取って・・・という具合で進展するだろうと思います。
      ただ、どっちにしてもそんな単純な方法ではRC5-128bitを解く方が2^32倍ましな速度にしかならないと思います。
      
      シェア
      
      親コメント
      - Re:推測 (スコア:0)
        
        by Anonymous Coward
        
        そうですね。
        いまの計算機の能力では実用的ではないですね。
        
        MD5もCRCもこういう用途のために作られたわけじゃないでしょうし…
        
        でも、イメージとしては良く分かりました。
        このMD5やCRCのかわりに、情報の圧縮に適した「何か」を用いているのでは、ってことですね。
- Re:推測 (スコア:0)
  
  by Anonymous Coward
  
  無限のデータの中の任意の部分をインデックシングできるためには、
  インデックスの長さも無限じゃないといけないと思うぞ、と。
  - Re:推測 (スコア:1)
    
    by L.star (163) on 2002年01月11日 1時58分 (#53191) ホームページ
    
    無限のデータの中の任意の部分をインデックシングできるためには、
    実際には、圧縮率を発揮できるように適度な有限値で十分でしょう。律儀に無限個用意する必要は何もないと思います。そう言った諸条件を含めて「理論的には可能だが」という但し書きが必要なのでしょうね。
    
    シェア
    
    親コメント
    - Re:推測 (スコア:0)
      
      by Anonymous Coward
      
      有限というか、無限にあるデータの中から、実際に利用される確率の高そうなものを、短いインデックスで指し示せるような、インデックス方法が必要なわけだよね。
      
      それって結局、利用されるデータの性質に依存する圧縮法だから、現状の汎用ロスレス圧縮アルゴリズムと比べて、劇的によくなるとは思えないんだけどな。

より多くのコメントがこの議論にあるかもしれませんが、JavaScriptが有効ではない環境を使用している場合、クラシックなコメントシステム(D1)に設定を変更する必要があります。

可逆圧縮で1/100に More ログイン

「可逆圧縮で1/100に」記事へのコメント

推測 (スコア:1)

Re:推測 (スコア:1)

Re:推測 (スコア:1)

Re:推測 (スコア:1)

Re:推測 (スコア:0)

Re:推測 (スコア:0)

Re:推測 (スコア:1)

Re:推測 (スコア:0)

Re:推測 (スコア:0)

Re:推測 (スコア:1)

Re:推測 (スコア:0)

スラド