アカウント名:
パスワード:
文字コードが1か2前の文字に化けているようだけど変わってないものもあるし文字列が切れている「ペッパーくん」だけは人間の入力ミス、他は何らかの処理の過程で化けた。現存人物の人名(ペンネーム)らしきものがいくつか見られるので、これが原因で正誤表で済ますわけにはいかなかったのかな。
アホなエンジニアが計算ミスで文字コード表の座標を間違えただけ? と気づいたが(バギーに書き捨てコード作る自分もその手のアホをよくやらかすので境界判定と双頭w)
拗音の「ょ」「ョ」が「ら」「ラ」になってる以外に長音「-」に化けてるのもあるのが謎なのよね
本当にPDFから変換したのならありうる話であほなエンジニアが計算ミスしたわけではない。PDF内の文字コード(?)はフォントの位置を示しているのでその位置から文字コードを逆算しなければいけない。(文字コードそのままの時もあってその時は問題が少ない)その場合、変換表がPDF内にあればいいけどない物もある。無くてもそれが既知の場合は何とかなる。変換表があったとしてもその変換表が実際と違うこともある。一つのフォントに複数の文字コードが対応していて変換表は最初の文字と結びついていても実際は2番目の文字ということもある。本当にPDFからIllustratorならAdobe頑張れと思うと同時に自分が作った変換ソフトがダメダメでもまあいいかと安心する。
どこにレスをつけるか迷ったけど、とりあえずわかってそうなここに。
「グリフコード」と「文字コード」の変換表のはなしだよね。基本的な(得に欧米とかの)フォントだと「グリフコード」と「文字コード」が一致しているので問題がおきないけど、日本語とかで使われるCIDフォントではこの二つは一致していないため変換表が必要になる。
PDFの作り方にもよるけど印刷用の最終PDFの場合はこの変換表をPDFに埋め込まずにグリフコード直で埋め込む場合もある(これをやるとコピペとかが文字化けするんだけど印刷用なら問題なし)
そういう処理をしたやつを再編集して、後から別のフォントに置き換えると文字化けが起こる(フォントによってグリフコードは異なるので)。今回は主に振り仮名で発生しているみたいなので、印刷用PDFを再編集して振り仮名のフォントを別のみ変更したんじゃないかな?
ときどき話題になる康煕部首混入問題もこれが原因(Adobe Japan-1では康煕部首と通常の漢字に同じCIDを使っているので逆変換がうまくいかないことがある)。
より多くのコメントがこの議論にあるかもしれませんが、JavaScriptが有効ではない環境を使用している場合、クラシックなコメントシステム(D1)に設定を変更する必要があります。
身近な人の偉大さは半減する -- あるアレゲ人
規則性が分からん (スコア:0)
文字コードが1か2前の文字に化けているようだけど
変わってないものもあるし
文字列が切れている「ペッパーくん」だけは人間の入力ミス、他は何らかの処理の過程で化けた。
現存人物の人名(ペンネーム)らしきものがいくつか見られるので、これが原因で正誤表で済ますわけにはいかなかったのかな。
Re: (スコア:0)
アホなエンジニアが計算ミスで文字コード表の座標を間違えただけ? と気づいたが
(バギーに書き捨てコード作る自分もその手のアホをよくやらかすので境界判定と双頭w)
拗音の「ょ」「ョ」が「ら」「ラ」になってる以外に長音「-」に化けてるのも
あるのが謎なのよね
Re: (スコア:2, 興味深い)
本当にPDFから変換したのならありうる話であほなエンジニアが計算ミスしたわけではない。
PDF内の文字コード(?)はフォントの位置を示しているのでその位置から文字コードを逆算しなければいけない。(文字コードそのままの時もあってその時は問題が少ない)
その場合、変換表がPDF内にあればいいけどない物もある。無くてもそれが既知の場合は何とかなる。
変換表があったとしてもその変換表が実際と違うこともある。一つのフォントに複数の文字コードが対応していて変換表は最初の文字と結びついていても実際は2番目の文字ということもある。
本当にPDFからIllustratorならAdobe頑張れと思うと同時に自分が作った変換ソフトがダメダメでもまあいいかと安心する。
Re: (スコア:1)
どこにレスをつけるか迷ったけど、とりあえずわかってそうなここに。
「グリフコード」と「文字コード」の変換表のはなしだよね。
基本的な(得に欧米とかの)フォントだと「グリフコード」と「文字コード」が一致しているので問題がおきないけど、日本語とかで使われるCIDフォントではこの二つは一致していないため変換表が必要になる。
PDFの作り方にもよるけど印刷用の最終PDFの場合はこの変換表をPDFに埋め込まずにグリフコード直で埋め込む場合もある(これをやるとコピペとかが文字化けするんだけど印刷用なら問題なし)
そういう処理をしたやつを再編集して、後から別のフォントに置き換えると文字化けが起こる(フォントによってグリフコードは異なるので)。今回は主に振り仮名で発生しているみたいなので、印刷用PDFを再編集して振り仮名のフォントを別のみ変更したんじゃないかな?
Re:規則性が分からん (スコア:1)
ときどき話題になる康煕部首混入問題もこれが原因(Adobe Japan-1では康煕部首と通常の漢字に同じCIDを使っているので逆変換がうまくいかないことがある)。