ブログの文体で書き手の性別を自動判別 72
ストーリー by mhatta
ネカマがばれる? 部門より
ネカマがばれる? 部門より
Anonymous Coward曰く、
ITproの記事によると、リクルートの子会社であるブログウォッチャーは、2008年2月を目処に「プロファイルパスポート」というシステムを立ち上げるそうだ。
東工大の奥村学・准教授の研究をベースにした独自技術で、ブログやSNSといった消費者発信型メディア(CGM)に書き込まれた文章を分析し、書き手の属性や行動パターンを判定。これをプロファイルパスポートに反映させ、書き手に合った広告を配信するという仕組みらしい。「おいしい」「まずい」という言葉の使用から評判の良し悪しを判定したりできるそうだが、タレコミ子が気になったのは、「文体から書き手の性別を90%以上の精度で自動判定できる」というところ。性別によってよく使う言葉、使わない言葉があるということだが、自分が異性だと判定されたらちょっとショックかも。
昔似たようなcgiがあったような (スコア:3, 興味深い)
調べてみてらほとんど情報が残っていなくて、携帯用のアプリで似たような仕組みの有料サービスがあるぐらいのようですが……。
当時は友人同士で面白がって使っていたんですが、時代が変わると商材になるんですね(もちろん、分析の精度とかは段違いなのでしょうけど)。
Re:昔似たようなcgiがあったような (スコア:1)
この手のものは、何を基準に判別するか興味があるのだけれど、もし書き手の性別が分かっているブログ記事のデータがたくさんあれば、機械学習によって基準が分からなくても判別できるというか、そうやって初めて性別の差がどう現れるか分析できるんじゃない?
個人情報である性別が入っているブログ記事はどうやって集めるんだろう。
サンプルデータ (スコア:3, 興味深い)
Re:サンプルデータ (スコア:0)
と
「たったひとつの冴えたやりかた」
で、測定を
Re:サンプルデータ (スコア:2, すばらしい洞察)
つまり (スコア:2, すばらしい洞察)
Re:つまり (スコア:2)
#性別の違う複数のネトゲのアカウントを持ってる人間を知ってるのでID
Re:つまり (スコア:3, 興味深い)
ネカマやってたわけでも無いのにオフに行ったら、
「お前男だったのか!!!」と、言われたこと多数。。。。。
まー、どんなところで女だと思ったのかを聞いてみたところ、
言葉遣いよりもその人の反応する話題で見当つけるみたいですね。
ファッションやらスイーツ(笑)やらの話題に
それなりに応対してるとそれだけで間違えられるみたいです。
普通に生活してたらなんとなく耳目に入ってくる程度の情報で
適当に応対してるだけなんですけどね。(・・
-- 星を目指さない理由は何もない -- 「MISSING GATE」by 米村孝一郎
Re:つまり (スコア:1, おもしろおかしい)
「エ□ゲに実装して欲しい」に空目した。
それだけなのでAC.
Re:つまり (スコア:0)
哺乳類失格の方ですか?
こう書けってお告げがあった (スコア:0)
検索避け阻止 (スコア:0)
Re:つまり (スコア:1, すばらしい洞察)
ゲームはゲームとして、性別も含めてRPするものだと理解してますが。
Re:つまり (スコア:0)
リアルの人間がいる(しかもインターナショナルに)ということを忘れては
いけないと思います。
そういうのを考えずにロールプレイに酔いしれる(たとえば集団戦闘で参謀気取りとか
ハートマン軍曹になった気分とか)方も希にいますが、やっぱりリアル同様に
空気を読むという努力は必要ではないでしょうか。
Re:つまり (スコア:2, おもしろおかしい)
高橋:姫に忠誠を誓う山本帝国の白騎士
鈴木:暗い影を背負った美形のドラゴンライダー
鬼塚:山本皇帝の娘にして清純な僧侶、天然
岩沼:お転婆なエルフの美少女
Re:つまり (スコア:1)
発表しただけで騒然として、結局は共同研究を取りやめたって事例があるから、ゲームにはちと難しいんじゃ…
#オンライン「RPG」なら、性別含めて「役」になりきるのが何ぼだから、別にどうでもいいことだけどさ。
個人的にはメールサーバーにそういう機能を実装したほうが良いな。
SPAMの発送者がフィルター潜り抜ける巧妙な文面にした奴でも、男性が女性口調で書いたメールだと判断すれば、そのままゴミ箱往きにするとかね。
/* Kachou Utumi
I'm Not Rich... */
Re:つまり (スコア:2, おもしろおかしい)
普段読んでる小気味よくてサバサバしたBlogを、実は綺麗なおねーさんが書いてたりしたら色々とワクテカするだろ!
# 次は、綺麗かどうかを判別する技術が必要だな
Re:つまり (スコア:0)
それなんて真鍋かをり [cocolog-nifty.com]?
Re:つまり (スコア:2, おもしろおかしい)
こういう技術が一般化すると、今度はネカマ支援ツールが出てきたりして。
文中で「素敵な装身具」と書いたりすると、
ツール「この箇所は『かわいいアクセサリー』と言い換えるべきです」
ネカマ男「おおそうか、なるほどね」
#「リボンの騎士」のサファイア[王子|姫]はどんな文章を書くのだろう?
ネカマ支援ツール (スコア:1)
たとえば「私の名前はclausemitzです。よろしくお願いします。」が
「禾ムσ名前レ£clдμ∫ёмiтzτ〃£★∋ЗU<ぉ願レヽUма£★」に。
…って、読めないよ、こんなの(-ω-;)
clausemitz
Re:つまり (スコア:1)
っていうか、記述する文体は(IME|FEP)の癖に依存するような気がします。
だって自分のもっている表現文体だけでは、まともにかな漢字変換できなくって「(IME|FEP)の使いにくさ」みたいに感じているんじゃないでしょうか。
大槻昌弥(♀) http://www.ne.jp/asahi/pursuits/ootsuki/
Re:つまり (スコア:1)
プレーヤーキャラの横に、中の人判定で
『←♂』とか『←♀』とか『←?』とか出た方が。
# ・・・自分で言っといてなんだが、ヤなゲームだな。
Re:つまり (スコア:0)
狙いがよくわからない (スコア:2, 興味深い)
トラックバックspamかなぁ……
書き手の9割が男の業界 (スコア:1, すばらしい洞察)
# 要はblogの9割ってspamじゃないだろうかと
対応”言語”は? (スコア:1)
#そういう連中はそもそもターゲットではないのかもしれないが……。
しもべは投稿を求める →スッポン放送局がくいつく →バンブラの新作が発売される
そっとしといて。 (スコア:1)
実はかわいいものが大好きだったり、手芸が趣味だったり、
ぬいぐるみサイト作ってたりするんです。
会社で軍曹の異名を持つあの人だって、
週末にはスイーツ食べ歩きしてるかもしれないし、
携帯の待ち受けが子猫の写真だったりするかもしれないんです。
そっとしておいてあげてください。
#このコメントに特定のモデルはいません。多分。
メーラーに実装できないかしら? (スコア:1)
・本文の文体が女性っぽい && 本文に「○○○(卑猥な言葉)」が含まれる
→ Junk フォルダに移動
・本文の文体が女性っぽい && 本文に「食事」または「映画」が含まれる
→ 優先度を「最高」に設定
・本文の文体が男性っぽい && 本文に「飲み会」が含まれる
→ サーバから削除
…みたいなメッセージフィルタが作れれば素敵。
誰か Thunderbird の Add-on とか作ってくれないかしら?
#特に意味もなく女性っぽい文体で書いてみたのでID
性同一性障害 (スコア:0)
男性ですが (スコア:0)
別にネカマじゃないしホモセクシュアルでもないんだけど。
Re:男性ですが (スコア:1)
そのうち、免疫がつきますよ、きっと。
言葉は刃物。使いようでどうにでもなるものさ。
Re:男性ですが (スコア:1)
なんてことがありました。
# 別に三角関係とかじゃなくて
Re:男性ですが (スコア:0)
どちらか判定できないと思うし
そこで判断してしまうとかなりの間違いを引き起こすのではないだろうか?
Re:男性ですが (スコア:1)
Re:男性ですが (スコア:1, おもしろおかしい)
昔からいわゆるショタ絵ばっかり描いてたせいか。
最近では珍しくもないけどなー。
Re:男性ですが (スコア:1)
どうしたらよいですか?
Re:男性ですが (スコア:1)
とある求人サイトでWebサイト制作の相談というのに反応して
じゃぁ電話で・・・と言われて電話したらすっごい怪訝そうに
「え・・・?・・・男?」
と言われたことあります。orz
オフ会に行ったら行ったで、初対面の女性二人に
「すっごーい!Takaha.さん犬っぽーい!」とか言われた新宿駅東口。
犬扱いされる事多いです。orz
嫁さんとか・・・
お義母さん、甥、姪にはワンコさんと呼ばれてるし。
先日子供保育園に迎えに行ったら(ロシア帽っていうか飛行帽かぶってたら)いぬだー!いぬー!
と幼児たちにまで大人気orz
#もうお手とかおかわりくらいはデフォルトなのであきらめてる
Re:男性ですが (スコア:1, おもしろおかしい)
Re:男性ですが (スコア:1)
アッーは勘弁してください。
あなたは、 (スコア:1)
出身は北海道?
Re:あなたは、 (スコア:1)
Vodafoneユーザーではありましたが。
出身は新潟です。(生まれたのは・・・ですが、育ったのは関東です)
人間が書いたかどうかも… (スコア:0)
最近は自動生成されたものが多すぎ。
Re:人間が書いたかどうかも… (スコア:2, 参考になる)
Re:人間が書いたかどうかも… (スコア:1)
# 中国語の部屋の問題が解けるのか(違います
M-FalconSky (暑いか寒い)
サブジェクト (スコア:0)
何でもかんでも「お」つけまくり、
動物に敬語使いまくりの
きんもーっ☆ブログ敬語野郎はどのように判定されるのだろうか?
Re:サブジェクト (スコア:1)
Re:サブジェクト (スコア:0)
Re:さっそくで何だが (スコア:1)
mhatta was here
Re:PRみたら情報大航海プロジェクト関連じゃないですか。 (スコア:1, おもしろおかしい)
>45% は男性、残りの 45% は女性ということですねっ
違う違う、「90%以上の性別」なんだから「性別」というカテゴリー分けには
少なくとも10個のカテゴリーがある、ってコトだよ。
単純な「男(異性愛)」と「女(異性愛)」で2個、
「男(男性体のままの同性愛)」と「女(女性体のまま同性愛)」で2個、
「男(女性体になって男性を愛したい)」と「女(男性体になって女性を愛したい)」で2個、
「男(女性体になって女性を愛したい)」と「女(男性体になって男性を愛したい)」で2個、
で、8つ。あと何だ?
ああ、「こんな可愛い子が女なわけないじゃないですか」と
「こんな凛々しい子が男な分けないじゃないですか」かな。
これのうち、見分けるのが難しい「残り10%の性別」ってどれだろう?
Re:PRみたら情報大航海プロジェクト関連じゃないですか。 (スコア:1)
「男(女性体になって両性を愛したい)」と「女(男性体になって両性を愛したい)」で2個、
ってのを加えると、12種類かな
ま、最後の二種類は知り合いには居ないけど