• 用户头像

    Derek谭伟华

    在Python里,'测'='\xe6\xb5\x8b',而u'测'=u'\u6d4b\u8bd5'。迷惑的就是u'测'其实是unicode类实例,此类实现了__str__(类似于toString),用code point来展现此unicode string而已,与编码无关。但此类的内部肯定是需要实现某种编码来存储这个string的,至于是UTF16还是UTF32与编译器有关。
    展开全文
    年前研究过UTF8,那时候烂熟于胸。今天遇到一个unicode的bug,又是记不清了。有几个概念,首先字符的code point是不变的,可以理解U+hhhh是逻辑层次的东西,所以在表现层一般都用这样展现unicode。UTF-8是编码的实现方式,物理层面上的存储无非是字符序列,要正常处理需要告诉系统这是UTF-8编码。
    展开全文
    转发 1评论 0
    原微博