经验首页 前端设计 程序设计 Java相关 移动开发 数据库/运维 软件/图像 大数据/云计算 其他经验
当前位置:技术经验 » 程序设计 » Python » 查看文章
Pandas中DataFrame常用操作指南
来源:jb51  时间:2022/6/21 16:41:03  对本文有异议

前言

Pandas是Python下一个开源数据分析的库,它提供的数据结构DataFrame极大的简化了数据分析过程中一些繁琐操作。

1. 基本使用:

创建DataFrame. DataFrame是一张二维的表,大家可以把它想象成一张Excel表单或者Sql表。

Excel 2007及其以后的版本的最大行数是1048576,最大列数是16384,超过这个规模的数据Excel就会弹出个框框“此文本包含多行文本,无法放置在一个工作表中”。

Pandas处理上千万的数据是易如反掌的sh事情,同时随后我们也将看到它比SQL有更强的表达能力,可以做很多复杂的操作,要写的code也更少。 说了一大堆它的好处,要实际感触还得动手码代码。

首要的任务就是创建一个DataFrame,它有几种创建方式:

  • 列表,序列(pandas.Series), numpy.ndarray的字典
  • 二维numpy.ndarray
  • 别的DataFrame
  • 结构化的记录(structured arrays)

其中,我最喜欢的是通过二维ndarray创建DataFrame,因为代码敲得最少:

  1. import pandas as pd
  2. import numpy as np
  3. df = pd.DataFrame(np.random.randn( 3 , 4 ))
  4. df
  5. 0 1 2 3
  6. 0 0.236175 - 0.394792 - 0.171866 0.304012
  7. 1 0.651926 0.989046 0.160389 0.482936
  8. 2 - 1.039824 0.401105 - 0.492714 - 1.220438

当然你还可以从mysql数据库或者csv文件中载入数据到dataframe。

dataframe中index用来标识行,column标识列,shape表示维度。

  1. # 获得行索引信息
  2. df.index
  3. # 获得列索引信息
  4. df.columns
  5. # 获得df的size
  6. df.shape
  7. # 获得df的行数
  8. df.shape[0]
  9. # 获得df的 列数
  10. df.shape[1]
  11. # 获得df中的值
  12. df.values

通过describe方法,我们可以对df中的数据有个大概的了解:

  1. df.describe()
  2. 0 1 2 3
  3. count 3.000000 3.000000 3.000000 3.000000
  4. mean - 0.050574 0.331786 - 0.168064 - 0.144496
  5. std 0.881574 0.694518 0.326568 0.936077
  6. min - 1.039824 - 0.394792 - 0.492714 - 1.220438
  7. 25 % - 0.401824 0.003156 - 0.332290 - 0.458213
  8. 50 % 0.236175 0.401105 - 0.171866 0.304012
  9. 75 % 0.444051 0.695076 - 0.005739 0.393474
  10. max 0.651926 0.989046 0.160389 0.482936

2. 数据select, del, update。

按照列名select:

  1. df[ 0 ]
  2. 0 0.236175
  3. 1 0.651926
  4. 2 - 1.039824

按照行数select:

  1. df[: 3 ] #选取前3行

按照索引select:

  1. df.loc[ 0 ]
  2. 0 0.236175
  3. 1 - 0.394792
  4. 2 - 0.171866
  5. 3 0.304012

按照行数和列数select:

  1. df.iloc[ 3 ] #选取第3行
  2. df.iloc[ 2 : 4 ] #选取第2到第3行
  3. df.iloc[ 0 , 1 ] #选取第0行1列的元素
  4. dat.iloc[: 2 , : 3 ] #选取第0行到第1行,第0列到第2列区域内的元素
  5. df1.iloc[[1,3,5],[1,3]] #选取第1,3,5行,第1,3列区域内的元素

删除某列:

  1. del df[0]
  2. df
  3. 1 2 3
  4. 0 - 0.394792 - 0.171866 0.304012
  5. 1 0.989046 0.160389 0.482936
  6. 2 0.401105 - 0.492714 - 1.220438

删除某行:

  1. 5
  2. df.drop(0)
  3. 1 2 3
  4. 1 0.989046 0.160389 0.482936
  5. 2 0.401105 - 0.492714 - 1.220438

3.运算。

基本运算:

  1. df[ 4 ] = df[ 1 ] + df[ 2 ]
  2. 1 2 3 4
  3. 0 - 0.394792 - 0.171866 0.304012 - 0.566659
  4. 1 0.989046 0.160389 0.482936 1.149435
  5. 2 0.401105 - 0.492714 - 1.220438 - 0.091609

map运算,和python中的map有些类似:

  1. df[ 4 ]. map ( int )
  2. 0 0
  3. 1 1
  4. 2 0

apply运算:

  1. df. apply ( sum )
  2. 1 0.995359
  3. 2 - 0.504192
  4. 3 - 0.433489
  5. 4 0.491167

4. Group by 操作。

pandas中的group by 操作是我的最爱,不用把数据导入excel或者mysql就可以进行灵活的group by 操作,简化了分析过程。

  1. df[ 0 ] = [ 'A' , 'A' , 'B' ]
  2. df
  3. 1 2 3 4 0
  4. 0 - 0.394792 - 0.171866 0.304012 - 0.566659 A
  5. 1 0.989046 0.160389 0.482936 1.149435 A
  6. 2 0.401105 - 0.492714 - 1.220438 - 0.091609 B
  7. g = df.groupby([ 0 ])
  8. g.size()
  9. A 2
  10. B 1
  11. g. sum ()
  12. 1 2 3 4
  13. 0
  14. A 0.594254 - 0.011478 0.786948 0.582776
  15. B 0.401105 - 0.492714 - 1.220438 - 0.091609

5. 导出到csv文件

dataframe可以使用to_csv方法方便地导出到csv文件中,如果数据中含有中文,一般encoding指定为”utf-8″,否则导出时程序会因为不能识别相应的字符串而抛出异常,index指定为False表示不用导出dataframe的index数据。

  1. df.to_csv(file_path, encoding='utf-8', index=False)
  2. df.to_csv(file_path, index=False)

总结

到此这篇关于Pandas中DataFrame操作的文章就介绍到这了,更多相关Pandas DataFrame操作内容请搜索w3xue以前的文章或继续浏览下面的相关文章希望大家以后多多支持w3xue!

 友情链接:直通硅谷  点职佳  北美留学生论坛

本站QQ群:前端 618073944 | Java 606181507 | Python 626812652 | C/C++ 612253063 | 微信 634508462 | 苹果 692586424 | C#/.net 182808419 | PHP 305140648 | 运维 608723728

W3xue 的所有内容仅供测试,对任何法律问题及风险不承担任何责任。通过使用本站内容随之而来的风险与本站无关。
关于我们  |  意见建议  |  捐助我们  |  报错有奖  |  广告合作、友情链接(目前9元/月)请联系QQ:27243702 沸活量
皖ICP备17017327号-2 皖公网安备34020702000426号