经验首页 前端设计 程序设计 Java相关 移动开发 数据库/运维 软件/图像 大数据/云计算 其他经验
当前位置:技术经验 » 程序设计 » Python » 查看文章
python验证多组数据之间有无显著差异
来源:jb51  时间:2022/1/2 16:37:41  对本文有异议

一、方差分析

1.单因素方差分析

通过箱线图可以人肉看出10组的订单量看起来差不多,为了更科学比较10组的订单量有无显著差异,我们可以利用方差分析

  1. from statsmodels.formula.api import ols
  2. from statsmodels.stats.anova import anova_lm
  3. model = ols('orders~C(label)',data=need_data).fit()
  4. anova_table = anova_lm(model, typ = 2)
  5. print(anova_table)

结果显示,p值为0.62大于0.05,不能拒绝原假设,所以这10组的订单量分布没有显著差异。

二、卡方检验

如果是比较多组之间的非连续值指标是否存在差异呢?

如检查上面10组的男女比例是否存在显著差异

计算各组观察频数:

  1. data2=data1.melt(id_vars=['性别'],value_name='观察频数')
  2. data2.head()

计算总体的男女比例:

  1. rate=(data2.groupby(['性别'])['观察频数'].sum()/data2.groupby(['性别'])['观察频数'].sum().sum()).reset_index()
  2. rate.columns=['性别','rate']
  3. rate

计算各组用户总数:

  1. group_sum=data2.groupby(['组别'])['观察频数'].sum().reset_index()
  2. group_sum.columns=['组别','组内用户数']
  3. group_sum

计算卡方值:

  1. import math
  2. data3=pd.merge(data2,group_sum,on=['组别'],how='left')
  3. data3=pd.merge(data3,rate,on=['性别'],how='left')
  4. data3['期望频数']=data3['组内用户数']*data3['rate']
  5. data3['卡方值']=data3.apply(lambda x: math.pow((x.期望频数-x.观察频数),2)/x.期望频数,axis=1)
  6. data3.head()

本案例的自由度为(10-1)*(2-1)=9,选取显著性水平为0.05,查卡方分布表得临界值为18.31
因为7.01<18.31,所以不能拒绝原假设,即各组的性别分布不存在显著性差异。

到此这篇关于python验证多组数据之间有无显著差异的文章就介绍到这了,更多相关python验证多组数据之间有无显著差异内容请搜索w3xue以前的文章或继续浏览下面的相关文章希望大家以后多多支持w3xue!

 友情链接:直通硅谷  点职佳  北美留学生论坛

本站QQ群:前端 618073944 | Java 606181507 | Python 626812652 | C/C++ 612253063 | 微信 634508462 | 苹果 692586424 | C#/.net 182808419 | PHP 305140648 | 运维 608723728

W3xue 的所有内容仅供测试,对任何法律问题及风险不承担任何责任。通过使用本站内容随之而来的风险与本站无关。
关于我们  |  意见建议  |  捐助我们  |  报错有奖  |  广告合作、友情链接(目前9元/月)请联系QQ:27243702 沸活量
皖ICP备17017327号-2 皖公网安备34020702000426号