编码格式不同在数据的传输和显示会有很大的影响。最近在使用的过程中发现一些网络文件传输的编码格式问题,会影响文件的正常传输,于是查看了一下网上的资料,自己也写一篇小总结。
uicode是万国码,用16位二进制(65536个编码)表示字符串,几乎包括了所有语种的文字UTF -8 全称8-bit Unicode Transformation Format 是一种编码格式,另外还有UTF-16,UTF-32分别用8位,16位和32位来表示unicode字符 unicode转换成utf-8是遵循一定的原则的,了解即可。
下面是一张unicode 和 utf-8的转换关系图

简单来说是可以把不同位数的unicode码(最大31位)拆分成0-6个的8位二进制字节,即所谓的补码操作。
目前基本所有语言都是支持将unicode码转换为utf-8格式的,而且utf-8兼容以前的ASCII码,所以utf-8在编程
语言中很流行,逐渐成为电子邮件、网页及其他存储或发送文字的应用中,优先采用的编码。当要定义字符集时,一般采用utf-8,可以避免乱码问题。