総務省がWeb用「ウソ発見器」を開発へ 200
ストーリー by yoosee
...と言うのは、ウソ! 部門より
...と言うのは、ウソ! 部門より
renja曰く、"朝日新聞の記事によると「ウソや間違いらしい情報を自動的に洗い出し、ネットの利便性を高めるシステムの開発に総務省が乗り出す」そうだ。このシステムは、自動でネット上にある関連づけの深い情報を探しだし、そうした情報を比較していく事により「デマ率」を割り出すとのこと。国際情勢から企業や商品情報など、ジャンルは多岐に渡る模様。総務省は 2007年度の予算として 3億円を見積もっている。
「ウソをウソだと見抜けない人が利用するのは難しい」とは2ちゃんねるについての運営者の言葉だが、今やネット全体のみならず、従来のメディア報道にしても十分信用出来るとかぎらない事が明らかになっている時代とも考えられる。総務省が情報の選別をすることで「一般の人がデマに惑わされないように」という事なのかも知れないが、操りにくいネット上の情報を恣意的に選別し順位付けすることで操りやすくするシステムと見る事も出来る。
そもそも実用になるほどの情報量を選別出来るのかも不明だが、プロジェクトとしてどのような成果がみられるのか、なかなか興味深いとおもいませんか?"
疑心暗鬼 (スコア:5, おもしろおかしい)
Re:疑心暗鬼 (スコア:2, すばらしい洞察)
ここだけはウソじゃないと思うんですよ。
Re:疑心暗鬼 (スコア:1, すばらしい洞察)
永久ループ (スコア:5, おもしろおかしい)
という文章で永久ループに陥ったりとか。
Re:永久ループ (スコア:1)
みなさんも、真理省が推薦するニュースピーク [google.co.jp]を使いましょう。
Re:永久ループ (スコア:1)
Re:永久ループ (スコア:1)
真実? (スコア:5, すばらしい洞察)
ニュースがいくらあってもソースが限られてるんだから「レバノン内政のこの記述は自然か」なんてそんな例の典型。
せいぜい多数のドキュメントの中である一つが他の多数の食い違ってるのを見つけ出して「デマ率」と言って見せる位が関の山。
研究としてはありだけど「ウソ発見器」じゃないよね。
Re:真実? (スコア:2, すばらしい洞察)
> せいぜい多数のドキュメントの中である一つが他の多数の食い違ってるのを見つけ出して「デマ率」と言って見せる位が関の山。
これすらどんなもんかと思います。
だって… デマって拡がるもんでしょ? しかもネットではより無責任に高速に拡がっているように感じます。あちこちで述べられていることでも、元をたどると少数のソースに絞られたり。
そして、主張によって拡がり易いものとそうでないものとがあります。「政府がこうすれば税率は半分にできる」って話と「これこれの現状では今すぐ税率を5倍にすべきだ」って話では、前者の方が拡がりそうでしょ? 本来は根拠の確かさや論理性が考慮されるべきなのに、結論で選ばれることが多い。
多くが同意見だからデマでなさそう、というのはどんなもんかと。
最近の大きな例を挙げるなら嫌韓ブームとか。 良識ある人はスルーしていても、狂信的な人たちが 熱心に布教活動をしているので、ネット上では 主流派のように見られかねない。
Re:真実? (スコア:2, 興味深い)
ちょっと下品な話で申し訳ないのですが、
「エビオス錠を飲むと射精時の精液の量が増える」 [google.com]
という話を思い出しました。
あちこちの日記サイトやブログ、掲示板などで採り上げられていて
一見すると話題沸騰に見えるのだけど、冷静に情報源を辿ると
実は必ずこのURL [infoseek.co.jp]に辿り着く、と。
「少数」どころか「たったひとつ」のソースだけでも
それが多くの人間の興味をそそる内容でありさえすれば
あたかも真実のごとく伝播してしまうものなんですよね。
Re:真実? (スコア:2, 興味深い)
賛成意見と反対意見をまとめてくれるシステム」だと思えば色々と面白そうな
システムではあるような。
ただ、それだとblogwatcher [titech.ac.jp]あたりに先例があるわけで、
そこからどの位発展させられるか鍵やね。
要するに、 (スコア:4, すばらしい洞察)
システムの裏をかかれるだけでは (スコア:4, おもしろおかしい)
SEOと同じくいたちごっこな予感。
そんなのにお金使ってどうするんだか…
Re:システムの裏をかかれるだけでは (スコア:3, 参考になる)
実際のところ、既に使われています。
例えばWikipediaの「飛鳥配列」記事の件。
これは最終的にニセ記事として削除になったようですが。
他、㈱ウェディングがウェディングを絶賛するダミーサイトを
いくつか作ってサーチエンジンspamをしてた件とか。
>そんなのにお金使ってどうするんだか…
やり方次第では使った以上にお金をかせぐこともできますよ。
人を陥れることもできる。
Re:システムの裏をかかれるだけでは (スコア:2, すばらしい洞察)
だからそれは民間がやればいいことであって、国が税金でやることじゃないと思うのですよ。
そっか、「総務省『適』マーク」を配る特殊法人を作って天下りするのか。
U+3231 (スコア:2, 参考になる)
ちなみにNEC特殊文字では ADEA、IBM拡張漢字では 8FF4ABで、Windowsではマルチバイト文字列として前者をシフトJIS符号化した 878A が使われています。
屍体メモ [windy.cx]
Re:システムの裏をかかれるだけでは (スコア:2, おもしろおかしい)
すでにマスコミが使用しているような・・・
出来たら、真っ先に試したいのは (スコア:4, おもしろおかしい)
プロジェクトの成果 (スコア:3, おもしろおかしい)
> 興味深いとおもいませんか?
プロジェクトの成果として、総務省の御役人様の天下り先が増えました……と言うのは冗談に過ぎません。
2010年までの開発って (スコア:3, すばらしい洞察)
嘘を嘘と見抜けるという事を記述できなきゃ無理 (スコア:3, すばらしい洞察)
# 情報操作の面は別にしても、だ。
そんなことできたらとっくにGoogleが使ってます (スコア:3, すばらしい洞察)
・・・ということです。
きちんと教育するべき (スコア:3, すばらしい洞察)
愚の骨頂でしょう?
そんな事にお金つかうくらいなら (スコア:3, すばらしい洞察)
余程ネット利用者の利に適うと思いマス
#スパムまみれな人より
日式金盾? (スコア:2, 興味深い)
さらには、そういう国同士くっついて「大東亜ネット」ですか?
もうアレゲ関連(って何だ?)の皆様は海外脱出の準備をした方がよろしいのではないかと。
和製グーグルを作るプロジェクトよりは、なんぼかマシかも。 (スコア:2, 興味深い)
(出来上がった代物がグーグル以下なら目も当てられない)
隙間を付くモノや、今までにない特色あるモノを作る試みに
挑むならコケても全くの無駄遣いとまでは叩かれないだろう。
作るものにもよるだろう。 (スコア:2, すばらしい洞察)
情報の信憑性を機械的に割り出す技術の研究を行う、とかなら確かに無駄にはならないかもしれないが、今回のは「そういうシステムを開発する」という話。てことは、国が国民に提供する公的なサービスということになる。
公的なサービスならば、一定以上の信頼性が担保されて然るべきだが、果たしてこのようなサービスに、現時点で信頼性を求めることはできるだろうか?
どれほどの学術的研究の成果に基づくシステムであるかを明らかにした上で運用に臨むというのであれば、一人の国民として、生暖かく見守ることもアリかもしれない。まずはその辺について十分な説明を求めたい。
個人的な本音をいうのであれば、特定の情報に簡単に踊らされちゃったり騙されちゃったりするタイプの人は、結局はこのシステムを使いこなす (このシステムの不完全性を受け容れた上で使用する) こともできやしないんじゃないかと思うんだけどね。
むらちより/あい/をこめて。
アルゴリズム (スコア:2, すばらしい洞察)
ブログとかだと信頼度はゼロに近く、
政府発表は信頼度最高に設定されていたり。
サポートプログラムは情報収集に徹し、
true/false判定はあくまで本人にさせるべきですね。
Re:アルゴリズム (スコア:2, すばらしい洞察)
ブチ上げる話ではないと思いますが、
アイディアとしては、興味深いです。
「事実」と看做しうる記述のDBを構築して、
あるサイトの記述と、そのDBとの整合性を評価する
とゆう感じになるのでしょうか。
評価軸の多い政治的な記述(地域振興券が経済に
ポジティブな影響を及ぼしていない/ないことはない)、
現在進行形の事象(冥王星は惑星である/ない)
などの評価には弱いと思います。
ですが、「HTML解説サイトの記述が、W3Cの定義に
沿っているか」等の判断には、有用かもしれません。
役人が、自分達が何を作ろうとしているかについて、
どう考えているかは、想像の範囲外ですが、
完成すれば、自然言語テキストに作用する
クロスリファレンサになるのではないでしょうか?
Re:アルゴリズム (スコア:2, すばらしい洞察)
ひろゆき氏はネットのウソを見抜ける、ウソを見抜くアルゴリズムが存在すると言っているようなものでしょう。人間はどうやって判定しているんでしょうね。
ネットには「太陽は地球の周りを回っている」のような良く現れるウソがありますよね。典型的なウソの文例を集めて、それとの類似性で判定することが考えられます。
「私はウソをついている」「このハシ渡るべからず」のような真偽判定が困難な文とか、曖昧さが大きくとりようによってはウソになってしまう文というのがあります。「地域振興券が良い影響を及ぼしていないとは言えないことはない」のように時制のあいまいさや、否定がネストされていてわけわかんなくなる文もあります。
「地域振興券を利用して住民に現金を支給した」と言えば真偽は明確ですが、「よい影響があった」と言うと「住民に現金を支給した」のが「良い」のかどうかわからないし、大抵こういう文が現れる時は影響が何を指すかは隠れている場合が多いから、現実の政治でも議論して結論が見出しにくいのですよね。
これらは、文の構造の解析のレベルでその文の真偽を判定することの難しさの指標が取れるはずで、それで文の信頼性や、文の意味がどれだけ正確に伝わるか、どれだけウソであるかを推定するというのでしょうか。
Re:アルゴリズム (スコア:3, すばらしい洞察)
でしかないです。
強いて言えば物的証拠があるかどうかですが、
その物的証拠とやらが本物かどうかまで考えると、結局そこに行き着きます。
>ネットには「太陽は地球の周りを回っている」のような良く現れるウソがありますよね。
これも時計の秒針を固定してしまえば時計本体が回りだす(ほど力は無いだろうけど)のと一緒で、何を基準にしてるかにすぎません。
昔の人は地球(地面)を基準にしていて、今の人はもっと大きな枠を基準にしているだけです。
そういう基準などを信じさせるのが、だましのテクニックやマインドコントロールなわけで。
雑誌の裏表紙には「そんな研究所あんのかよ」みたいな教授がニッコリ微笑んでいたり、
80年代のお子様は存在しない出版社 [cool.ne.jp]によって何でも中国拳法起源だと信じてしまったり、
世論誘導があっさりと行われたりするわけです。
で、今回の技術ですが。
結局、「国がこう判断したからコレがホント」っていう世論誘導にしかならん気がする。
「ぐぐって上の方にあったコメントが大半そうだったからホント」と一緒とも思えるし。
「なんとかインチキできんのか?」
できるのか? (スコア:2, 興味深い)
いや、その分野に真剣に取り組んでいる方に敬意は払いますが、これを提案した連中が果たして実現できると思って提案したのか、予算ぶんどりたいから提案したのか・・・後者のように思えてなりません。
別の人もいっていますが、これが実現できなかったら、このプロジェクト自体ウソのページとして認識してもらわんと。
-- gonta --
"May Macintosh be with you"
Re:できるのか? (スコア:2, すばらしい洞察)
--
Re:できるのか? (スコア:4, 興味深い)
思わない。君はPopFileが何をネタにしてベイズ推定をやっているかを理解しているのかな?
spam/非spamが非常に偏っている場合は、ヘッダのベイズ推定への影響が大きいんだ。MLへ放り込まれたspamがほぼ大通しになってしまうのはこれが理由。この場合、学習すればする程、この傾向(ヘッダ重視)は強くなるよ。
spamまみれのアカウントへの非spamメールだけど、ちょっと言い足りなかった。希にしか連絡を寄越さないヤツからのメールがspamとされてしまう、という話。spam/非spamの表現(使用している単語)がばらついた状態であると、非spamメールを分離するだけの閾値を稼げないんだ。
PopFileダメダメじゃん、じゃあ自前で作るか、てんで本文に重みを置くベイズフィルタを作った。PopFileの問題はほとんど解消されたけど、やはり誤認識はあるんでね。spamが非spamとされるのはウザイが許容できたとしても、非spamがspamとされてしまうの許容できないんで、結局ベイズのフィルタリングは止めちゃった。
今はpostfixのポリシーデレゲーションを使ってエンベロープ情報でフィルタするようにしてあるんだけど、毎日5000通程度来るspamで通してしまうのが10通程度なんで、まあ良いかなと思ってる。非spamの誤認識は無いしね。
このソフトの検査基準 (スコア:2, おもしろおかしい)
・国会の政府答弁がすべて「真実」と判定されること
ほかにありましたっけ?
Re:このソフトの検査基準 (スコア:1)
を満たせないので、結局は稼働差し止めということになるのでは....
Re:このソフトの検査基準 (スコア:1)
やっぱり真面目に作れば作るほど、一般公開できないソフトウェアに
なってしまいそうです。主任設計者は幽閉されるかも知れません。
不真面目な設計方針のひとつとしては、「ウソと判定されては困る文書」の
集合を定義して、そこから階層的にもっともらしい文書の集合を
区別していく、というものがあります。言うまでもなく、
garbage in, garbage out の原理に則っています。
3億もいらないよ (スコア:2, おもしろおかしい)
googleで検索して、数が少ないほうがデマ
これでよし
Re:3億もいらないよ (スコア:2, 興味深い)
数で判別するのはともかく、私もGoogleが基本ですねぇ。情報のソースをどんどん遡っていって、一次情報がどこなのかで大体判別できるんじゃないかと。
その情報が真実かどうかはわからなくても、伝言ゲームやってるうちにデマくさくなってしまう情報もあるので、元を辿るのは結構重要かと思います。情報の流れを整理して表示するくらいでも結構使えそうですが、どうでしょうかね。
Re:3億もいらないよ (スコア:2, すばらしい洞察)
デマ? (スコア:2, 興味深い)
「Web用」とは朝日新聞の記事には書いていない。
そもそも。 (スコア:2, 興味深い)
その場合、何を持ってデマと判断するんだろうか。
リンク先に書いてる例の
「この企業分析は適切か」とかさ。
「レバノン内政のこの記述は自然か」に至っては失笑してしまう。
電子製品の性能表に間違いが無いか確認するってのは便利かもしれんが。
そもそも。 50%のデマ率というのは。
「その項目は50%の確率でデマ」なのか
「その項目の記述が半分程度のデマで構成されている」なのか
そこを明確にしてもらいたい!!
==========================================
投稿処理前プレビュー確認後書込処理検証処理前反映可否確認処理後……
朝日新聞紙上「ウソ発見器」 総務省が開発へ (スコア:2, 興味深い)
総務省のサイトを探してみたが見つからなかった。
代わりにこんなの見つけたよ。 「放送分野におけるメディア・リテラシー教材」の公募 [soumu.go.jp]
こんな教材を募集してるってさ。↓ わはははは!総務省GJ!
おれならこれを教材にするね。朝日 珊瑚 [google.co.jp]
何かネタが欲しいのか!? (スコア:1, 興味深い)
なんだか基本的にコンピュータの事わかってないやつが
考えてるにおいがプンプンするなぁ。
とにかく予算たてたいからネタを起こしてるんだろうか?
次はどんなネタでいってくるんだ!?
「少年犯罪を防ぐように暴力的なコンテンツは自動的に
消去させる技術」とかか? (もちろん御役所は既存技術を知らない)
Re:何かネタが欲しいのか!? (スコア:1)
#嘘発見器は、大抵のところ「嘘発見器にかけられたら嘘がばれる」という威嚇程度にしか役立ってない
Re:ま た 総 務 省 か (スコア:1)
で、そこの「認定」を取ったサイトのスコアを著しく上げて、認定を取っていないサイトや「大本営発表」と著しく反する内容のサイトはスコアを著しく下げる。
で、こいつと官製検索エンジンの検索スコアをリンクさせたりする
…あぁ、なんともいえない「地上の楽園」が日本のネットにもたらされる訳です罠(^_^;
第五世代コンピュータ? (スコア:1)
Re:第五世代コンピュータ? (スコア:1, 参考になる)
自然言語の理解は諦めて,(多少はツールがサポートしてくれるとしても)人間が(今の計算機では自動的に判定するのが難しい)タグをつけてやることで,計算機が自然言語を扱いやすくするのが,自然言語処理におけるセマンティック・ウェブの意義だと思います.
表層的な情報だけで機械的にできるのなら,そもそもそんなタグを元データに付ける必要はないのですから……
Re:第五世代コンピュータ? (スコア:1, 参考になる)
http://www.kanzaki.com/docs/sw/ [kanzaki.com]
とりあえず、ここかな。
だから、この構想は、どうしても同じことをやっているように思えてならない。
Re:IEモデレーターバーとか (スコア:2, 興味深い)
もうちょっとマシに運用できたとしても、
「不当モデ」合戦になったあげく、
「フレームのもと」で沈んでいきそうな気が…。
モデ権付与を絞ると、ヤフオクや金券屋で「モデ権売ります」とかなりそう。
#実際、「視聴率」を売る人が居たりするらしい。