アカウント名:
パスワード:
嫌だと思うポイントが-自動生成で低情報含有率のくせに検索上位に来る-アフィリエイトをやっているのどちらであるかで、賛同できるかどうかが分かれますね。
両方だろう。
自動生成で低情報含有率で検索上位で、しかもアフィリエイトだからムカツク。どれか一つでも欠ければ、ここまで毛嫌いされないと思うがどうか。
でもまぁ、一番とほほなのは、他人のblogやニュース記事引き写しで自分の意見が3語ぐらいしかないblogですね。しかも、「とても楽しみですね」程度だったり。。。独り言の日記ならチラシの裏に書くか検索にひっかからないようにしてくれと。
自動生成された文章は技術的に排除できないのかね。逆に一応人間が引用している場合は内容の重み付けに利用したりとか。
自動生成かつアフィリエイトは論外ですねぇ。
>情報スカスカなページも上位に来る
スラドの日記のことかー!
自動生成された文章は技術的に排除できないのかね。
閾値をどうするかという問題はありますが、構文解析をすれば不可能ではないでしょう。
a. 「徹夜明けでヘミ猫互助会の健康食品hogeはすばらしい」 b. 「先日通販で買った健康食品hogeは良かった」
とあったとき、「aはbよりも日本語として変だ」と判定することはできます。 通常の日本語の言語モデルを何らかの方法で用意して(googleは「google-Nグラム」として実際にそういうものを研究者相手に売っています)、その言語モ
構文解析だけじゃ意味ないかと。例えば、
「やば、何が起きたか分からん、ポルナレフ状態w」「wwwwwwwwwwwww」「ちょ、おま、草生やしすぎwwww」
とか2chでは普通に見かける文章ですが、wの羅列はもちろんのこと、「草を生やす」なんて文脈的にも文章的にも意味不明ですし、「ポルナレフ状態」って何の状態だよって話ですよね。
機械的な判定であればこうした文章は意味のない文として全てはじかれることになります。でも見る人が見ればちゃんと意味が成立している文章であり、少なくとも自動生成ではないですよね。他にはAAやコピペなんかもはじかれる対象になりそうです。
言葉は時代により変遷するので、そうした変遷を常に追い続けている辞書の存在がなければ、構文解析ごときでなんとかなる世界ではないですよ。
率直に言ってその例文だったら情報量がないものとして弾かれても何の問題もないと思いました。いわゆる2chコピペブログでも、その手のセリフまで含めてすべてのレスが掲載されていることはまずないことを考えると、人間でも同じように判定するのではないですか。> 他にはAAやコピペなんかもオリジナルの1つを除いて弾かれて何の問題もない、むしろ弾かれてほしいと思います。現在、AAやコピペの初出を調べようと思ってもGoogleではまず不可能です。セリフ改変したものなどはそこに十分な情報量があれば弾く必要なしと機械的に判定できますし。
> a. 「徹夜明けでヘミ猫互助会の健康食品hogeはすばらしい」> とあったとき、「aはbよりも日本語として変だ」と判定することはできます。
きっとそんな文章になるのは徹夜明けだから(^^;)どっちかというとより“人間的”かも。
>でもまぁ、一番とほほなのは、他人のblogやニュース記事引き写しで自分の意見が3語ぐらいしかないblogですね。
/.Jのアレたまでも引用だけとか、一行+引用見るとげんなりするときあります。#せっっかくなんだから、もちょっとなんか書けよ。とか突っ込みたくなる。
いっそアフィリなしのページのみ検索するオプション作って欲しい。
自動生成はほぼ100%アフィリを含んでいると思うし、アフィリを踏んでもらいたいから自動生成しているんだと思う。といってもブログ運営側の広告アフィリも含んでしまうので、全部消えてしまう可能性があるから、そこを工夫しないといけないが…アフィリのドメインやアフィリIDなどで判別するか、アフィリへのリンク個数分ランクにペナルティを与えて順位を下げるとか…どこかやらないだろうか?ブログ検索ってろくな検索結果が出ないので役にたたないと思っている人多いと思う。
より多くのコメントがこの議論にあるかもしれませんが、JavaScriptが有効ではない環境を使用している場合、クラシックなコメントシステム(D1)に設定を変更する必要があります。
海軍に入るくらいなら海賊になった方がいい -- Steven Paul Jobs
アフィリブログも消えてくれたらいいのに (スコア:0)
Re: (スコア:1, すばらしい洞察)
嫌だと思うポイントが
-自動生成で低情報含有率のくせに検索上位に来る
-アフィリエイトをやっている
のどちらであるかで、賛同できるかどうかが分かれますね。
Re:アフィリブログも消えてくれたらいいのに (スコア:2, すばらしい洞察)
両方だろう。
自動生成で低情報含有率で検索上位で、しかもアフィリエイトだからムカツク。
どれか一つでも欠ければ、ここまで毛嫌いされないと思うがどうか。
でもまぁ、一番とほほなのは、他人のblogやニュース記事引き写しで自分の意見が3語ぐらいしかないblogですね。
しかも、「とても楽しみですね」程度だったり。。。
独り言の日記ならチラシの裏に書くか検索にひっかからないようにしてくれと。
Re:アフィリブログも消えてくれたらいいのに (スコア:1)
自動生成された文章は技術的に排除できないのかね。
逆に一応人間が引用している場合は内容の重み付けに利用したりとか。
自動生成かつアフィリエイトは論外ですねぇ。
Re:アフィリブログも消えてくれたらいいのに (スコア:1, 参考になる)
ブログ以外でも(オフトピ:-1) (スコア:0)
あと、Wikipediaのコピーサイトとか2chのコピーとか。
1個出てくりゃそれで十分だというのに。
最後のはバックアップとして価値があるからまだマシだが、それ以外の連中にはきれいさっぱり消えてもらいたい。
Re: (スコア:0)
>情報スカスカなページも上位に来る
スラドの日記のことかー!
Re: (スコア:0)
自動生成された文章は技術的に排除できないのかね。
閾値をどうするかという問題はありますが、構文解析をすれば不可能ではないでしょう。
a. 「徹夜明けでヘミ猫互助会の健康食品hogeはすばらしい」
b. 「先日通販で買った健康食品hogeは良かった」
とあったとき、「aはbよりも日本語として変だ」と判定することはできます。 通常の日本語の言語モデルを何らかの方法で用意して(googleは「google-Nグラム」として実際にそういうものを研究者相手に売っています)、その言語モ
Re:アフィリブログも消えてくれたらいいのに (スコア:2, 興味深い)
構文解析だけじゃ意味ないかと。
例えば、
「やば、何が起きたか分からん、ポルナレフ状態w」
「wwwwwwwwwwwww」
「ちょ、おま、草生やしすぎwwww」
とか2chでは普通に見かける文章ですが、
wの羅列はもちろんのこと、
「草を生やす」なんて文脈的にも文章的にも意味不明ですし、
「ポルナレフ状態」って何の状態だよって話ですよね。
機械的な判定であればこうした文章は意味のない文として全てはじかれることになります。
でも見る人が見ればちゃんと意味が成立している文章であり、
少なくとも自動生成ではないですよね。
他にはAAやコピペなんかもはじかれる対象になりそうです。
言葉は時代により変遷するので、
そうした変遷を常に追い続けている辞書の存在がなければ、
構文解析ごときでなんとかなる世界ではないですよ。
Re:アフィリブログも消えてくれたらいいのに (スコア:1)
#他にはブロガー猫 [srad.jp]のブログはどう判定されるのだろう、とか
Re: (スコア:0)
率直に言ってその例文だったら情報量がないものとして弾かれても何の問題もないと思いました。いわゆる2chコピペブログでも、その手のセリフまで含めてすべてのレスが掲載されていることはまずないことを考えると、人間でも同じように判定するのではないですか。
> 他にはAAやコピペなんかも
オリジナルの1つを除いて弾かれて何の問題もない、むしろ弾かれてほしいと思います。現在、AAやコピペの初出を調べようと思ってもGoogleではまず不可能です。セリフ改変したものなどはそこに十分な情報量があれば弾く必要なしと機械的に判定できますし。
Re:アフィリブログも消えてくれたらいいのに (スコア:1)
> a. 「徹夜明けでヘミ猫互助会の健康食品hogeはすばらしい」
> とあったとき、「aはbよりも日本語として変だ」と判定することはできます。
きっとそんな文章になるのは徹夜明けだから(^^;)どっちかというとより“人間的”かも。
Your 金銭的 potential. Our passion - Micro$oft
Tsukitomo(月友)
Re:アフィリブログも消えてくれたらいいのに (スコア:1)
>でもまぁ、一番とほほなのは、他人のblogやニュース記事引き写しで自分の意見が3語ぐらいしかないblogですね。
/.Jのアレたまでも引用だけとか、一行+引用見るとげんなりするときあります。
#せっっかくなんだから、もちょっとなんか書けよ。とか突っ込みたくなる。
Re: (スコア:0)
いっそアフィリなしのページのみ検索するオプション作って欲しい。
自動生成はほぼ100%アフィリを含んでいると思うし、アフィリを踏んでもらいたいから自動生成しているんだと思う。
といってもブログ運営側の広告アフィリも含んでしまうので、全部消えてしまう可能性があるから、そこを工夫しないといけないが…
アフィリのドメインやアフィリIDなどで判別するか、アフィリへのリンク個数分ランクにペナルティを与えて順位を下げるとか…どこかやらないだろうか?
ブログ検索ってろくな検索結果が出ないので役にたたないと思っている人多いと思う。