欢迎您访问 最编程 本站为您分享编程语言代码,编程技术文章!
您现在的位置是: 首页

最详细的代码表基础知识(UNICODE 编码和 GB 编码) - UTF8、UTF16、UTF32、GBK、GB2312-1 简介

最编程 2024-03-11 21:35:50
...
  • 国标的编码和Unicode 系列的编码在下面的将讲解中将会表现出两个层次。第一层是固定码表,这一层会固定字符与数字的映射关系。在第二层编码方式中,你可以随便制作码表,但是码表的字符排布顺序一定要按照第一层固定码表中的顺序排布,这样就保证了同一系列的编码方式所表示的字符顺序是统一。但是国标的编码表和Unicode的编码表是不一致的,所以这是两个系列的编码方式。
  • 在国标的编码中,区位号就是上述思想的体现。根据区号来划分不同种类的符号,再根据位号指定具体的字符位置。但是根据区位号制作出来的码表不能直接用于实践当中,但是它规定了字符之间的顺序。
    • 国标码 = 区位码+ 2020H,它实际上就是咱们国家的前辈们设计好的编码方式,但是只用国标码的时候,无法和ASCII码区分开来。例如"啊"的国标码 0x3021 = 00110000 00100001B,它的第一个字节到底是ASCII码还是咱们的国标码?为了兼容ASCII 码,所以必须要把每个字节的首位变为1,所以才有了机器码 = 国标码 + 8080H。
    • 区位码制作的基础码表就是第一层码表,国标码的符号排布顺序要和区位码的码表一致,国标码相当于是第二层码表,而机器码是为了兼容ASCII码而存在的,它相当于是第三层码表。
    • 在部分的网站当中国标码和机器码有时候是相同的,就是拿着机器码来表示国标码,每个字节的首位给变为1了,但没必要计较这么细致,在内存中存储的就是机器码。所以我在第三章也就不做明显区分,大家知道是怎么回事就好。