课程表

Apache Pig 基础

Apache Pig 诊断运算符

Apache Pig 分组和连接

Apache Pig 合并和拆分

Apache Pig 过滤

Apache Pig 排序

Pig Latin 内置函数

Apache Pig 其他执行模式

工具箱
速查手册

Apache Pig TOP()函数

当前位置:免费教程 » 大数据/云 » Apache Pig

Pig Latin的 TOP() 函数用于获取包的顶部 N 个元组。对于这个函数,作为输入,我们必须传递一个关系,我们想要的元组的数量,以及其值被比较的列名。此函数将返回包含所需列的包。

语法

下面给出了函数 TOP() 的语法。

  1. grunt> TOP(topN,column,relation)

假设在HDFS目录 /pig_data/ 中有一个名为 employee_details.txt 的文件,其中包含以下内容。

employee_details.txt

  1. 001,Robin,22,newyork
  2. 002,BOB,23,Kolkata
  3. 003,Maya,23,Tokyo
  4. 004,Sara,25,London
  5. 005,David,23,Bhuwaneshwar
  6. 006,Maggy,22,Chennai
  7. 007,Robert,22,newyork
  8. 008,Syam,23,Kolkata
  9. 009,Mary,25,Tokyo
  10. 010,Saran,25,London
  11. 011,Stacy,25,Bhuwaneshwar
  12. 012,Kelly,22,Chennai

通过使用关系 emp_data 将此文件加载到Pig中,如下所示。

  1. grunt> emp_data = LOAD 'hdfs://localhost:9000/pig_data/ employee_details.txt' USING PigStorage(',')
  2. as (id:int, name:chararray, age:int, city:chararray);

按年龄对关系 emp_data 进行分组,并将其存储在关系 emp_group 中。

  1. grunt> emp_group = Group emp_data BY age;

使用 Dump 运算符验证关系 emp_group ,如下所示。

  1. grunt> Dump emp_group;
  2. (22,{(12,Kelly,22,Chennai),(7,Robert,22,newyork),(6,Maggy,22,Chennai),(1,Robin, 22,newyork)})
  3. (23,{(8,Syam,23,Kolkata),(5,David,23,Bhuwaneshwar),(3,Maya,23,Tokyo),(2,BOB,23, Kolkata)})
  4. (25,{(11,Stacy,25,Bhuwaneshwar),(10,Saran,25,London),(9,Mary,25,Tokyo),(4,Sara, 25,London)})

现在,你可以按升序(基于id )排列每个组的前两个记录,如下所示。

  1. grunt> data_top = FOREACH emp_group {
  2. top = TOP(2, 0, emp_data);
  3. GENERATE top;
  4. }

在这个例子中,我们正在检索具有较大id的组的前2个元组。由于我们基于 id 检索前2个元组,我们将列名id的索引作为TOP()函数的第二个参数传递。

验证

使用 Dump 运算符验证 data_top 关系的内容,如下所示。

  1. grunt> Dump data_top;
  2. ({(7,Robert,22,newyork),(12,Kelly,22,Chennai)})
  3. ({(5,David,23,Bhuwaneshwar),(8,Syam,23,Kolkata)})
  4. ({(10,Saran,25,London),(11,Stacy,25,Bhuwaneshwar)})
转载本站内容时,请务必注明来自W3xue,违者必究。
 友情链接:直通硅谷  点职佳  北美留学生论坛

本站QQ群:前端 618073944 | Java 606181507 | Python 626812652 | C/C++ 612253063 | 微信 634508462 | 苹果 692586424 | C#/.net 182808419 | PHP 305140648 | 运维 608723728

W3xue 的所有内容仅供测试,对任何法律问题及风险不承担任何责任。通过使用本站内容随之而来的风险与本站无关。
关于我们  |  意见建议  |  捐助我们  |  报错有奖  |  广告合作、友情链接(目前9元/月)请联系QQ:27243702 沸活量
皖ICP备17017327号-2 皖公网安备34020702000426号