Derek谭伟华
在Python里,'测'='\xe6\xb5\x8b',而u'测'=u'\u6d4b\u8bd5'。迷惑的就是u'测'其实是unicode类实例,此类实现了__str__(类似于toString),用code point来展现此unicode string而已,与编码无关。但此类的内部肯定是需要实现某种编码来存储这个string的,至于是UTF16还是UTF32与编译器有关。 展开全文年前研究过UTF8,那时候烂熟于胸。今天遇到一个unicode的bug,又是记不清了。有几个概念,首先字符的code point是不变的,可以理解U+hhhh是逻辑层次的东西,所以在表现层一般都用这样展现unicode。UTF-8是编码的实现方式,物理层面上的存储无非是字符序列,要正常处理需要告诉系统这是UTF-8编码。 展开全文转发 1评论 0 原微博