经验首页 前端设计 程序设计 Java相关 移动开发 数据库/运维 软件/图像 大数据/云计算 其他经验
当前位置:技术经验 » 程序设计 » Python » 查看文章
python学习笔记:第6天 小数据池和编码转换
来源:cnblogs  作者:zhipengzhu  时间:2018/10/25 9:31:44  对本文有异议

目录

1. id 和 ==

  • idid是一个内置的函数,可以查看变量存放的内存地址(实际上不是真正的物理地址,这里暂时这样理解),用于判断是变量否属指向了同一块内存地址
  • ==:== 可以用于判断两个变量的值是否相等,这个在之前的例子中也有用过

下面来看几个例子,以及具体的使用方法:

  1. In [1]: a = 'abc'
  2. In [2]: b = 'abc'
  3. In [3]: a == b
  4. Out[3]: True
  5. In [4]: a is b
  6. Out[4]: True
  7. In [5]: c = 100
  8. In [6]: d = 100
  9. In [7]: c == d
  10. Out[7]: True
  11. In [8]: c is d
  12. Out[8]: True
  13. In [9]:

通过上面的例子可以总结出:字符串和数字在之前有定义过的话,后续再用到这个变量时,不会再分配内存,而是直接把新的变量直接指向之前定义过的值,因此使用is判断时结果都为True,这种机制被称作为缓存机制。但是这里也有比较坑的一点,我们再来看下面的例子:

  1. In [9]: c = 1000
  2. In [10]: d = 1000
  3. In [11]: c is d
  4. Out[11]: False
  5. In [12]:

同样是数字,但是100和1000的结果却不一样,这个要根据下面的一个知识点来看。

2. 小数据池

通过上面的例子可以看出,100和1000的值在经过相同的运算之后得到不同的结果,那么我们可以这样认为:如果内存地址一样,那么对应的值一定是相等的,但是反过来值一样的话内存地址不一定一样;我们先在来看几个例子:

  1. In [15]: a = -5
  2. In [16]: b = -5
  3. In [17]: a is b
  4. Out[17]: True
  5. In [18]: c = -6
  6. In [19]: d = -6
  7. In [20]: c is d
  8. Out[20]: False
  9. In [21]: c = 300
  10. In [22]: d = 300
  11. In [23]: c is d
  12. Out[23]: False
  13. In [24]:

这种现象是因为小数据池的存在。小数据池(非官方解释):是一种缓存机制,也被称为驻留机制,其他语言中也有类似的机制,他会把数据存储起来方便下次赋值时使用,以避免多个内存存放相同值的元素。

小数据池对数据的处理方法:

  • 小数据池只针对数字、字符串和布尔值有效
  • 数字的处理:在python中对-5到256之间的整数会被驻留在内存中. 将?定规则的字符串缓存;
  • 对字符串的处理:如果字符串的?度是0或者1, 都会默认进?缓存;字符串?度?于1, 但是字符串中只包含字?, 数字, 下划线时才会缓存

使用小数据池的优缺点:

  • 优点: 能够提??些字符串, 整数的处理速度. 省略的创建对象的过程.
  • 缺点: 在'池'中创建或者插入新的内容会花费更多的时间.

3. 编码和解码

编码回顾:

  • ASCII:是最早的一种编码,是其他编码的基础,占用8bit,1byte
  • GBK:中文国标码,16bit,2byte
  • Unicode:万国码,包含了全世界各国的语言,32bit,4byte
  • UTF-8:可变的Unicode,是Unicode的一种实现
    • 英文:8bit,1byte
    • 欧洲文字:16bit, 2byte
    • 中文:24bit,3byte

在网络传输和文件存储中,经常需要在各种编码之间转换,最常用的如UTF-8和Unicode等。
Unicode的表现形式:即python程序存储在内存中的字符串
byte表现的形式:

  • 英文:b'i like python',除了前面加b之外跟普通字符串一样
  • 中文:b'\xe4\xb8\xad'

字符编码之间的转换使用encode和decode操作:

  1. In [24]: a = 'i like python'
  2. In [25]: b = '我喜欢python'
  3. In [26]: a.encode('utf-8')
  4. Out[26]: b'i like python'
  5. In [27]: b.encode('utf-8') # 编码成utf-8字符
  6. Out[27]: b'\xe6\x88\x91\xe5\x96\x9c\xe6\xac\xa2python'
  7. In [28]: c = b'\xe6\x88\x91\xe5\x96\x9c\xe6\xac\xa2python'
  8. In [29]: c.decode('utf-8') # 以utf-8的编码来解码
  9. Out[29]: '我喜欢python'
  10. In [30]: b
  11. Out[30]: '我喜欢python'
  12. In [31]: b.encode('GBK')
  13. Out[31]: b'\xce\xd2\xcf\xb2\xbb\xb6python'
  14. In [32]: e = b'\xce\xd2\xcf\xb2\xbb\xb6python'
  15. In [33]: e.decode('GBK').encode('utf-8') # 把GBK编码转换成UTF-8编码
  16. Out[33]: b'\xe6\x88\x91\xe5\x96\x9c\xe6\xac\xa2python'
  17. In [34]: f = e.decode('GBK').encode('utf-8')
  18. In [35]: f.decode('utf-8')
  19. Out[35]: '我喜欢python'
  20. In [36]:
 友情链接:直通硅谷  点职佳  北美留学生论坛

本站QQ群:前端 618073944 | Java 606181507 | Python 626812652 | C/C++ 612253063 | 微信 634508462 | 苹果 692586424 | C#/.net 182808419 | PHP 305140648 | 运维 608723728

W3xue 的所有内容仅供测试,对任何法律问题及风险不承担任何责任。通过使用本站内容随之而来的风险与本站无关。
关于我们  |  意见建议  |  捐助我们  |  报错有奖  |  广告合作、友情链接(目前9元/月)请联系QQ:27243702 沸活量
皖ICP备17017327号-2 皖公网安备34020702000426号