アカウント名:
パスワード:
文字コードが1か2前の文字に化けているようだけど変わってないものもあるし文字列が切れている「ペッパーくん」だけは人間の入力ミス、他は何らかの処理の過程で化けた。現存人物の人名(ペンネーム)らしきものがいくつか見られるので、これが原因で正誤表で済ますわけにはいかなかったのかな。
アホなエンジニアが計算ミスで文字コード表の座標を間違えただけ? と気づいたが(バギーに書き捨てコード作る自分もその手のアホをよくやらかすので境界判定と双頭w)
拗音の「ょ」「ョ」が「ら」「ラ」になってる以外に長音「-」に化けてるのもあるのが謎なのよね
本当にPDFから変換したのならありうる話であほなエンジニアが計算ミスしたわけではない。PDF内の文字コード(?)はフォントの位置を示しているのでその位置から文字コードを逆算しなければいけない。(文字コードそのままの時もあってその時は問題が少ない)その場合、変換表がPDF内にあればいいけどない物もある。無くてもそれが既知の場合は何とかなる。変換表があったとしてもその変換表が実際と違うこともある。一つのフォントに複数の文字コードが対応していて変換表は最初の文字と結びついていても実際は2番目の文字ということもある。本当にPDFからIllustratorならAdobe頑張れと思うと同時に自分が作った変換ソフトがダメダメでもまあいいかと安心する。
どこにレスをつけるか迷ったけど、とりあえずわかってそうなここに。
「グリフコード」と「文字コード」の変換表のはなしだよね。基本的な(得に欧米とかの)フォントだと「グリフコード」と「文字コード」が一致しているので問題がおきないけど、日本語とかで使われるCIDフォントではこの二つは一致していないため変換表が必要になる。
PDFの作り方にもよるけど印刷用の最終PDFの場合はこの変換表をPDFに埋め込まずにグリフコード直で埋め込む場合もある(これをやるとコピペとかが文字化けするんだけど印刷用なら問題なし)
そういう処理をしたやつを再編集して、後から別のフォントに置き換えると文字化けが起こる(フォントによってグリフコードは異なるので)。今回は主に振り仮名で発生しているみたいなので、印刷用PDFを再編集して振り仮名のフォントを別のみ変更したんじゃないかな?
ときどき話題になる康煕部首混入問題もこれが原因(Adobe Japan-1では康煕部首と通常の漢字に同じCIDを使っているので逆変換がうまくいかないことがある)。
当時Photoshopがサブスクになったのが嫌でCS2や6.0を無理やりインストした時もフォント周り以外は動作できたAdobeはフォント周りが弱い
半角カナと全角カナが混在していて、「ョ」(e383a7) → 「ラ」(e383a9)「ョ」(efbdae) → 「ー」(efbdb0)となってるのかな?
長音だけ半角にしていることを説明できる理由が思いつかないけど
これが文字コード変換のミスなら出版社が使ってるソフトの問題ということでは…
たぶん全体的にUTF-8の表で2文字前になってしまってる。ペッパーくんは不思議ですねぇ・・・
ShiftJIS→UTF8/16の変換ライブラリのどれかで、似たような形の別の文字に変換される事例がありますね。どういうロジックでそうなるのかは知らんけど。
より多くのコメントがこの議論にあるかもしれませんが、JavaScriptが有効ではない環境を使用している場合、クラシックなコメントシステム(D1)に設定を変更する必要があります。
アレゲは一日にしてならず -- アレゲ見習い
規則性が分からん (スコア:0)
文字コードが1か2前の文字に化けているようだけど
変わってないものもあるし
文字列が切れている「ペッパーくん」だけは人間の入力ミス、他は何らかの処理の過程で化けた。
現存人物の人名(ペンネーム)らしきものがいくつか見られるので、これが原因で正誤表で済ますわけにはいかなかったのかな。
Re: (スコア:0)
アホなエンジニアが計算ミスで文字コード表の座標を間違えただけ? と気づいたが
(バギーに書き捨てコード作る自分もその手のアホをよくやらかすので境界判定と双頭w)
拗音の「ょ」「ョ」が「ら」「ラ」になってる以外に長音「-」に化けてるのも
あるのが謎なのよね
Re:規則性が分からん (スコア:2, 興味深い)
本当にPDFから変換したのならありうる話であほなエンジニアが計算ミスしたわけではない。
PDF内の文字コード(?)はフォントの位置を示しているのでその位置から文字コードを逆算しなければいけない。(文字コードそのままの時もあってその時は問題が少ない)
その場合、変換表がPDF内にあればいいけどない物もある。無くてもそれが既知の場合は何とかなる。
変換表があったとしてもその変換表が実際と違うこともある。一つのフォントに複数の文字コードが対応していて変換表は最初の文字と結びついていても実際は2番目の文字ということもある。
本当にPDFからIllustratorならAdobe頑張れと思うと同時に自分が作った変換ソフトがダメダメでもまあいいかと安心する。
Re:規則性が分からん (スコア:1)
どこにレスをつけるか迷ったけど、とりあえずわかってそうなここに。
「グリフコード」と「文字コード」の変換表のはなしだよね。
基本的な(得に欧米とかの)フォントだと「グリフコード」と「文字コード」が一致しているので問題がおきないけど、日本語とかで使われるCIDフォントではこの二つは一致していないため変換表が必要になる。
PDFの作り方にもよるけど印刷用の最終PDFの場合はこの変換表をPDFに埋め込まずにグリフコード直で埋め込む場合もある(これをやるとコピペとかが文字化けするんだけど印刷用なら問題なし)
そういう処理をしたやつを再編集して、後から別のフォントに置き換えると文字化けが起こる(フォントによってグリフコードは異なるので)。今回は主に振り仮名で発生しているみたいなので、印刷用PDFを再編集して振り仮名のフォントを別のみ変更したんじゃないかな?
Re:規則性が分からん (スコア:1)
ときどき話題になる康煕部首混入問題もこれが原因(Adobe Japan-1では康煕部首と通常の漢字に同じCIDを使っているので逆変換がうまくいかないことがある)。
Re: (スコア:0)
当時Photoshopがサブスクになったのが嫌で
CS2や6.0を無理やりインストした時もフォント周り以外は動作できた
Adobeはフォント周りが弱い
Re: (スコア:0)
羽生九段は振り飛車が苦手
みたいな話やな
日本のベンダがAdobeの半分でもフォントに強ければよかったのにね
Re:規則性が分からん (スコア:1)
半角カナと全角カナが混在していて、
「ョ」(e383a7) → 「ラ」(e383a9)
「ョ」(efbdae) → 「ー」(efbdb0)
となってるのかな?
長音だけ半角にしていることを説明できる理由が思いつかないけど
Re: (スコア:0)
これが文字コード変換のミスなら出版社が使ってるソフトの問題ということでは…
Re: (スコア:0)
たぶん全体的にUTF-8の表で2文字前になってしまってる。
ペッパーくんは不思議ですねぇ・・・
Re: (スコア:0)
ShiftJIS→UTF8/16の変換ライブラリのどれかで、似たような形の別の文字に変換される事例がありますね。
どういうロジックでそうなるのかは知らんけど。