パスワードを忘れた? アカウント作成
この議論は賞味期限が切れたので、アーカイブ化されています。 新たにコメントを付けることはできません。

Pythonコンパイラ「Codon」誕生」記事へのコメント

  • 日本語が標準で使えないじゃないかよ。
    自作スクリプトのほとんどを置き換えられないよ。

    アメリカ人からみたら、ASCII以外を使うのは不要なオーバーヘッドにしか見えないんだろうけど。

    • by Anonymous Coward

      > Unicodeが使えないとなると
      これ、どこの情報ですか?

      • by Anonymous Coward on 2023年03月14日 17時13分 (#4426609)

        Strings: Codon currently uses ASCII strings unlike Python's unicode strings.
        https://docs.exaloop.io/codon/general/differences [exaloop.io]

        親コメント
        • by Anonymous Coward

          今時ASCIIに限定する意味が分からん
          UTF-8も駄目なのか

          • by Anonymous Coward

            Unicode文字列の処理はかなり面倒なので後回しにしたんでしょ。UTF-8は入出力のエンコーディングであって、内部では別の表現になっている。

            • by Anonymous Coward

              Unicode自体がだいぶスジの悪い多言語対応なのよね、いったい実装上いくらあれば十分なんだ?
              UTF-16なら十分か?UTF-32か?UTF-65536か?
              将来において太陽系外惑星と接触したときのことまで考えられているのか?
              Unicode、UTF系だから安心だと考えるその精神構造がまず理解できない

              • by Anonymous Coward

                太陽系外惑星と接触したときには地球人が思いつかなかった、あっと驚く基礎的なテクノロジーに出会うと思う。
                どうしてそれを思いつかなかったのか?くやしい!っていうレベルの。

              • by Anonymous Coward

                「いくらあれば十分」って、そりゃUTF-32でしょ。
                最大コードがU+10FFFFなんだから、21ビットで十分。
                もちろん、結合文字とか異体字セレクタなんかがあるから、表示上や編集上の単位は1文字より大きくなる場合がままあるけどね。
                それは言語レベルでやる必要はないでしょ。ライブラリでいい。

                ただ、ぶっちゃけUTF-8で十分なんだよね。
                第1バイトと第2バイトが同じ値を取りうるShift_JISなんかと違って、UTF-8はそのバイト値が先頭から何バイト目なのかすぐにわかる。
                Shift_JISは検索したときに文字境界を判別しないと誤ヒットするけど、UTF-8はそれもない。
                文字数はすぐには求められないけど、Shift_JISだって同じことだし。
                スジの良し悪しで言ったら、Shift_JISやEUC-JPなんかよりずっとマシだよ。

              • by Anonymous Coward

                分かっていて敢えて意味不明を装ってます?
                UTF-8, UTF-16, UTF-32という文字符号化形式には一定の妥当性を感じるが、Unicode本体の符号空間0 - 10FFFFの扱い方や運用の仕方には…世の中には妥協も必要だとは思うが…未来永劫通用するとは思えない。

                バイト列からUTF-8, UTF-16, UTF-32を把握させた後に正規化しないと、例えば濁点『 ゙ 』や半濁点『 ゚ 』 との合成で表現されている場合(Macのファイルシステム等)に泣く目になるのよね。

              • by Anonymous Coward

                まずはRFC8369を嫁、話はそれからだ。

              • by Anonymous Coward

                分かった。では仮にJISをUTF-8方式で符号化したエンコードがあったとして、UnicodeのUTF-8とそれとのスジの良し悪しはどうだろうか?

            • by Anonymous Coward

              内部でも単なる8ビットバイト列として扱っていて文字の途中で平然とぶった切ってくる手抜き実装も普通にあるけどな

未知のハックに一心不乱に取り組んだ結果、私は自然の法則を変えてしまった -- あるハッカー

処理中...