
okuの日記: スラドに聞く...までもない: 仲間外れを探すアルゴリズムに関する文献 10
日記 by
oku
- 0001
- 0002
- 0003
- 0004
- 4000
... といった感じの要素が並んでいた時に、最後の要素(4000)を「仲間外れ」と宣言するアルゴリズムを探しています。 ここで、0001→0002→...の順序性については考慮しないものとします(してもいいけど。 まあ、要は std::vector 的な集合ではなく、 std::multiset 的な集合を考えています、という趣旨です)。
直感的には、例えば、0001 → {0, 0, 0, 1}という四次元のベクトルに読みかえて、各要素間のノルムを取れば割と簡単だよね、と思うのですが、
- 理論的な裏づけがない
- 0001と00001が混ざったらどうしよう
というわけで、この辺りのアルゴリズムを(物理で言うと岩波物理シリーズレベルの上っ面を撫でる程度に)概説した、書籍なりURLなりを探しています (できれば和書、洋書でもいいけど英語まで。独仏西伊中韓の類は御容赦を)。
どなたかお勧めの文献があれば、例示いただけないでしょうか?
すぐに思いついたのは、 (スコア:0)
多変量解析の主成分分析とか。
Re: (スコア:0)
文字列だったらレーベンシュタイン距離とか、n-gramとか。
http://labs.timedia.co.jp/2013/12/internal-of-git-did-you-mean.html [timedia.co.jp]
「なかまはずれ」を認識する人間の主観に関する理解なら、
心理学方面なのかもしれません。
と考えると、なんかだれか調べてそうですねぇ。わたし、きになります!
Re:すぐに思いついたのは、 (スコア:1)
情報ありがとうございます。
敵は文字列ではあるのですが「"0"と"1"の距離は"0"と"A"より遠い」的なことにしてやりたいので、レーベンシュタイン距離をナイーヴに採用するのはちょっと... なんですよね。
「なかまはずれ」を認識する人間の主観に関する理解にまでは、今回、手を出すつもりはありませんです、はい (やりはじめたら一生物の課題になりそうな気がする... ^_^;)。
この界隈では0009が混ざったら一変するのでは? (スコア:0)
つまり、"仲間"とするのはたぶんに主観的なルール発見があるかどうかなので、分野が変われば結果も変わるのが殆どと思われます。
「仲間外れ」を定義しろ (スコア:0)
と答えない人は炎上案件に巻き込まれる素質があるという診断ですか?
Re:「仲間外れ」を定義しろ (スコア:1)
ユーザはわたし自身なので、それは大丈夫です (だといいんだけどなあ)。
# いわゆる「モノづくり」だけを一括請負で受ける前提だと
# このリクエストは極めて恐すぎですね。 :-)
Re: (スコア:0)
ですよねー
なんとなく (スコア:0)
意味もなく心が苦しくなる話題なんですが、それは。
Re: (スコア:0)
そうすると、これ [fukuinkan.co.jp] もダメなのか。
Re: (スコア:0)
ああ、いけませんね。
「なかまはずれ」という概念を想起させる書物は禁じて、焚書するべきです。
#そして、全てのものが区別できなくなり、全てが均一になって、数学という概念自体がなくなると
##たぶん、無くなるよね