パスワードを忘れた? アカウント作成
13787869 journal
Perl

route127の日記: 濁点が5個以上付くJリーグ選手

日記 by route127

カタカナが2文字以上連続する駅名がどのくらいあるかWikipediaの駅名一覧から調べてたら168駅と意外とたくさんあった。
もうちょっと切り口変えないと面白くないけど特殊な駅名一覧だとラテン文字表記にLQVXが含まれる駅とか色々まとまってた。

ところで毎週土曜日はNACK5であまがみ神社聞いてるのだが、これは五和(禁書目録じゃなくてランク王国)の人がつっかえずに読めるかどうかで吉凶を占う番組内コーナーなのだが、これによくサッカー選手の名前が出題される。
今週はルカ・モドリッチと川口能活が出題されていた。
先週はダビド・ビジャが出題されていたが、音で聞くよりも活字のインパクトの方がすごいな。
この名前を眺めて居て濁点が5個以上付く選手が他にも居るのか気になりJリーグの選手一覧を調べていた。

濁点が3個付く選手は割と多いのだが、4個付くのはバングーナガンデ 佳史扶が居た。
舞行龍ジェームズ(マイケル ジェームズ)みたいな括弧内に濁点がある例も含めれば濁点4個もそれなりの数になるけど趣旨から外れる気がする。
また濁点5個も1人居てマケドニア生まれのダビド バブンスキーがそうであった。

濁点の数え上げ箇所はこんな感じで書けた。

my $daku = scalar grep{$_==12441}unpack('U*', NFD encode('unicode', $name));

unpackのUテンプレートはunicodeが与えられるとコードポイントを返すので、Unicode::Normalizeが提供するNFD関数で濁点付きの文字を分解して、濁点のコードポイント12441の出現回数を数えている。
最初はコードポイントを求める前に文字列をdecode('utf8', $name)としていたが必要ないようだ。
ただバイト列(内部文字列)に対して「unicodeでエンコード」というのもなんか変な感じはする。
実態はUTF-8文字列をUnicodeにデコードしているような気分なのだが。
もしかすると動くものが出来たにはせよ間違った理解をしているのではないかという懸念が拭えずにいる。

この議論は賞味期限が切れたので、アーカイブ化されています。 新たにコメントを付けることはできません。
typodupeerror

あつくて寝られない時はhackしろ! 386BSD(98)はそうやってつくられましたよ? -- あるハッカー

読み込み中...