パスワードを忘れた? アカウント作成
344463 story

Twitter、日本語ハッシュ タグ入りツイートが可能に 34

ストーリー by wakatono
おいしそうなハッシュタグを見てお腹が鳴りました(実話) 部門より

ZUN.jp 曰く、

Twitter上で日本語、ハングル、キリル文字を用いたハッシュタグが使えるようになった。日本語ハッシュ タグの前後には空白や句読点を入れる必要があるなど、使用時には注意を要する。
ハッシュ タグとは、ツイート内に入れる「#」(ハッシュ マーク)で始まる単語のこと。特定の話題のツイートに何らかの共通ハッシュ タグを付けておくと、検索で関連するツイートを見つけやすくなる。これまでハッシュ タグには、英数字しか使えなかった。
今回の日本語対応により、日本語のひらがな、カタカナ、漢字がハッシュ タグとして使用できるようになった。先頭のハッシュ マークとタグ中のカタカナ、英数字については、半角と全角のどちらも使える。ただし、日本語には単語を分かち書きする習慣がないため、日本語ハッシュ タグの前後には必ず空白または句読点を入れ、地の文と区別できるようにしなければならない。
例えば「これは #日本語ハッシュタグ になります。」および「これもOK。#日本語ハッシュタグ 」というツイートだと「#日本語ハッシュタグ」がハッシュ タグとして認識される。それに対し「これは#日本語ハッシュタグにはなりません。」は、文と「#」が直接続いているため、ハッシュ タグとならない。さらに「#日本語ハッシュタグのあとに空白や句読点がないと全てハッシュタグになります。」とすると、「#日本語ハッシュタグ」だけでなく最後の句読点直前までハッシュ タグとなってしまう。
また、「☆」や「♪」などの記号はハッシュ タグに使えない。携帯電話メールの絵文字も使えない。

Twitter上では、通常のハッシュタグとしての使い方だけでなく、文章まるごとをハッシュタグにして遊んだり、#芋でハッシュドポテト、#牛肉でハッシュドビーフといった冗談が飛び交っている。

実際に #芋 を試してみたところ、ブラウザ経由で見たTweetははきちんとハッシュタグが機能しているようだ。しかし、Twitterクライアントソフトのほうがどの程度対応しているのかは不明。タレコミにもあるが、使える文字が限られる&使い方を誤ると文章全体がハッシュタグという面白いことにもなりそうなので、使う際にはご注意を。

この議論は賞味期限が切れたので、アーカイブ化されています。 新たにコメントを付けることはできません。
  • by fx (21145) on 2011年07月14日 10時18分 (#1986380) ホームページ 日記
    ざっと調べたところでは
    ・使える漢字はCJK統合漢字及び拡張Aまで
    ・ハングルも使える
    ・小書きのカタカナ「ヵ」「ヶ」はカタカナ扱いなのでタグとして使用できる
    ・「ー」「々」は記号扱いでハッシュタグが途切れる
    ・繰り返し記号「ゝゞヽヾ」も記号扱いなのでハッシュタグが途切れる
    ・「仝」は漢字扱いでタグとして使用できる

    以下はJISX0213追加関連
    ・濁点かな「ゔ」、二つの小書きかな「ゕ」「ゖ」は使用できる
    ・四つの濁点カナ「ヷ」「ヸ」「ヹ」「ヺ」も使用できる
    ・アイヌ語用の小書きのカタカナは使用できない(「ㇰ」「ㇱ」等)

    ただ、「WEB上でリンクにならない」というだけで、検索自体は問題なく
    出来るようです(検索フォームに入力して確認)。

    単にリンク生成の問題であれば、じきに修正される気もします。
  • 中途半端 (スコア:2, 参考になる)

    by SD (32008) on 2011年07月14日 5時04分 (#1986320) 日記

    上の例

    #芋でハッシュドポテト、#牛肉でハッシュドビーフ

    だと後者は #牛肉でハッシュドビ になってしまう(音引き記号で切れる)ので、使うには気を付けるべし。

    #せっかくラーメン二郎のハッシュを作ろうと思ったのに。

    • by ktz (33447) on 2011年07月14日 9時04分 (#1986349)
      長音記号(ー)を漢数字の一に置き換えるライフハックで回避可能です。
      親コメント
    • by Sam.Mem (42350) on 2011年07月14日 10時13分 (#1986377)
      #牛肉でハッシュドビーフ は、#牛肉でハッシュドビーフ なら大丈夫。 「ー」は半角だといいみたいね。
      親コメント
    • by Anonymous Coward

      #らき☆すた はともかくとして
      #デスノート は簡単に途切れるんだがな

    • by Anonymous Coward

      #ジロリアン
      とか

    • by Anonymous Coward

      Unicodeかどこかで、「ー」が「、」「。」のたぐいに分類されてるのかも。

    • by Anonymous Coward

      #芋→ハッシュドポテト
      #牛肉→ハッシュドビーフ

      って意味でないの?

      • by Anonymous Coward
        てことは、

        #飯 → ハヤシライス

        ってことでいいのかな
  • タレコミ説明+1 (スコア:2, すばらしい洞察)

    by Anonymous Coward on 2011年07月14日 6時28分 (#1986323)

    twitterはやってないので、タイトル見て「ハッシュタグそれなに?」状態の自分でも趣旨がよく理解できる良タレコミと思う。

    • by Anonymous Coward
      そろそろ「三行を超えると文意を理解できなくなる病気」の人が「長文うざい」と文句を言い始める頃かな。
  • 日本語隔離w (スコア:2, 興味深い)

    by paku (11283) on 2011年07月14日 6時49分 (#1986327) ホームページ 日記

    日本語ハッシュタグで日本語ツイートを隔離することができるんですね(笑)

    まあ漢字を使うと文字数を節約できる可能性があって面白いのかな。

    #音引きとか~とかWEB系では結構きちんと扱ってもらえないことがありましたが、twitterでもかぁ。
    単語間に空白がなく、空白とその数に意味のある不可思議言語だと記号類の扱いはなかなか理解してもらえないのかもなぁ…。

  • ソース (スコア:2, 参考になる)

    by Anonymous Coward on 2011年07月14日 7時01分 (#1986329)
    • Re:ソース (スコア:2, すばらしい洞察)

      by Anonymous Coward on 2011年07月14日 9時41分 (#1986363)
      そこの例に、実際には使えない「#クールビズ」が挙げられている件
      親コメント
  • 文字種 (スコア:2, 参考になる)

    by sempreff (22146) on 2011年07月14日 7時53分 (#1986337) ホームページ 日記

    ☆や♪は記号だと思いますが、「々」なども対応外の模様ですね。
    記号めいてはいますが、日本語固有の文字だと思うので、対応してほしいものです。

    もしくは

    「日本語対応」じゃなくて「かなと漢字に対応」と言ってほしいものです。
    (…なので、タレコミ文はとても良いと思います。)

    • by Motohiko (15295) on 2011年07月14日 10時01分 (#1986372) ホームページ

      ☆や♪は記号だと思いますが、「々」なども対応外の模様ですね。
      記号めいてはいますが、日本語固有の文字だと思うので、対応してほしいものです。

      言いたいことは分かりますが暦とした記号です (Wikipedia: 踊り字#同の字点(どうのじてん) [wikipedia.org])。「ー」 [wikipedia.org] (長音符) が除外されてることからも単純に記号を除外しちゃったんでしょうね。

      日本語は語の区切りを表す記号がないから面倒ですね。言い出すと「~」とか「。」とか、果てはAAに使われ得る文字まで及びかねないけどどうやって線引きすればいいのか。
      # 単純に空白か文末かまででもよさそうだが。

      親コメント
      • おお、ビシっと記号に分類されてしまっているのですね。不勉強でした。
        まさか これを 機に わかちがきが はやる ように なる …かしら?
        親コメント
        • by Anonymous Coward
          マジレスすると、、、

          日本語の場合、文節(または単語)で区切るのが適当でしょう。 ところが、文節(および単語)の定義が微妙に曖昧なんですね。 提案されている日本語文法ごとに、切れ目が微妙に変わります。

          ここで、記述の揺らぎを許すなら、各人が勝手に分かち書きをすれば良いだけなので、おしまい。 みんなで、長年使えば、一定のところに落ち着くかもしれません。

          一方、なるべく記述の揺らぎを減らしたいのなら、いろいろな方法はあるでしょう。 例えば、ちょっと強引ですが、文法を一つ選びその文法に従って記述する方法(正書法)を決めるなんてのも考えられます。 知識階級しか読み書きできなたった時代ならいざしらず、現代では困難でしょうね。

      • by Anonymous Coward

        >暦とした記号です
        「歴(れっき)とした」?

  • by Anonymous Coward on 2011年07月14日 7時31分 (#1986334)

    Twitterの日本語ハッシュタグ対応で気を付けたいこと
    http://matome.naver.jp/odai/2131053761007003301 [naver.jp]

    > 全角の長音記号(ー)は使えない
    > 「パ行」だけは全角にしないと通らない

    このあたりは仕様だとしてもバグのような…

    • Twitterを使っていないので想像で書くと、平仮名 (U+3041-3096) 、片仮名 (U+30A0-30FA)、半角片仮名 (U+FF66-FF9E) 、漢字 (U+4E00-9FFF他) の範囲指定をしているだけかと。

      長音符 (U+30FC) が通らないのはそれが片仮名の範囲から微妙に外れているためと推測。半角片仮名 (ここはツッコミ不要) のパ行が通らないのは半濁点 (U+FF9F) が漏れただけと推測。半角片仮名の範囲の末尾だし。

      --
      だが、いいこともあるぞ、外の天気は上々なんだ
      親コメント
    • by Anonymous Coward on 2011年07月14日 10時20分 (#1986381)

      Togetter - 「#日本語ハッシュタグ で使える文字、使えない文字」 [togetter.com]
      こちらも。技術的な解説もついています。

      親コメント
      • by Anonymous Coward

        この件は、上記コメントにある「いま話題の #日本語ハッシュタグ ですが、以前からある日本語処理の問題が漏らさず全部入ってて凄いですね。」が結論かなぁ。
        まだ「やってみた」というだけの段階を出てないと思う。

    • by Anonymous Coward

      #1986329 [srad.jp]によると、「クールビズ」はOKとのことなので、少なくとも長音が使えないのはバグか、ソースの情報が間違っているのかのいずれかでしょう。

      • by Anonymous Coward

        単純に
        「書いたけれどもテストしていない」
        というありがちなオチ?

  • 日本語ハッシュタグに使えるかどうか確認するだけのツイートが増加しそうな希ガス。
    • by Anonymous Coward
      ご想像の通り(昨日)瞬間的には増えたのですが、
      不可解な不具合やクライアントの未対応などもあって、
      皆すぐに飽きました。
  • by Anonymous Coward on 2011年07月14日 7時12分 (#1986330)

    日本語ハッシュタグのために検索アルゴリズムを変更したのか、
    日本語で検索してもかなりまともな結果が出るようになったのは嬉しい。

    でも twitter 全体が重くなったような気も…

  • by Anonymous Coward on 2011年07月14日 7時19分 (#1986332)

    Ver 2.56にて対応。
    http://aki-null.net/yf/distribution/changelog_sl_ja.html [aki-null.net]

    ハッシュタグの正規表現(Objective-C)
    https://gist.github.com/1079686 [github.com]

  • 数式を多用する、数学などの理系掲示板(特に質問系の)では、分かち書きの習慣がないことを実感することが多々ありますね。

    数式がまったく分かち書きされずにべた組みされてしまうと、紙に逐一書き出すなどでもしないと、どこで区切れるのかすらもわからないというものが結構な頻度で出てきます。べた組みの式が少し長かったり入り組んだりすると、それだけで本当に一気に可読性が落ちてしまうんです。さらに全角半角入り混じった日にゃもう、まともに読めるものはまずないといって間違いないです。また、不等式をべた組みするせいでHTMLのタグと解釈されてレスが壊れまくってる(しかも投稿者本人にそういう認識がなくて壊れたものを連投)なんてのもザラです。

    そういうのを多く見ている身としては、この日本語ハッシュタグの件でも、壊れたタグが作られまくる状況が延々と長く続きそうな気もしてくるんですが。

    • by Anonymous Coward

      分かち書きをしなければ #hashtagというハッシュタグを使用したつもりが文末の句点までがハッシュタグになってしまいますね。

  • by Anonymous Coward on 2011年07月14日 14時40分 (#1986560)

    独り言はまとめりゃいいんだよ

typodupeerror

長期的な見通しやビジョンはあえて持たないようにしてる -- Linus Torvalds

読み込み中...