课程表

Apache Pig 基础

Apache Pig 诊断运算符

Apache Pig 分组和连接

Apache Pig 合并和拆分

Apache Pig 过滤

Apache Pig 排序

Pig Latin 内置函数

Apache Pig 其他执行模式

工具箱
速查手册

Apache Pig IsEmpty()函数

当前位置:免费教程 » 大数据/云 » Apache Pig

Pig Latin的 IsEmpty() 函数用于检查包或映射是否为空。

语法

下面给出了 IsEmpty() 函数的语法。

  1. grunt> IsEmpty(expression)

假设在HDFS目录 /pig_data/ 中有两个文件,即 emp_sales.txt emp_bonus.txt ,如下所示。emp_sales.txt 包含销售部门员工的详细信息, emp_bonus.txt 包含获得奖金的员工详细信息。

emp_sales.txt

  1. 1,Robin,22,25000,sales
  2. 2,BOB,23,30000,sales
  3. 3,Maya,23,25000,sales
  4. 4,Sara,25,40000,sales
  5. 5,David,23,45000,sales
  6. 6,Maggy,22,35000,sales

emp_bonus.txt

  1. 1,Robin,22,25000,sales
  2. 2,Jaya,23,20000,admin
  3. 3,Maya,23,25000,sales
  4. 4,Alia,25,50000,admin
  5. 5,David,23,45000,sales
  6. 6,Omar,30,30000,admin

分别使用关系 emp_sales  emp_bonus 将这些文件加载到Pig中,如下所示。

  1. grunt> emp_sales = LOAD 'hdfs://localhost:9000/pig_data/emp_sales.txt' USING PigStorage(',')
  2. as (sno:int, name:chararray, age:int, salary:int, dept:chararray);
  3. grunt> emp_bonus = LOAD 'hdfs://localhost:9000/pig_data/emp_bonus.txt' USING PigStorage(',')
  4. as (sno:int, name:chararray, age:int, salary:int, dept:chararray);

现在让我们使用 cogroup 来分组 emp_sales emp_bonus 关系的记录/ 运算符,如下所示。

  1. grunt> cogroup_data = COGROUP emp_sales by age, emp_bonus by age;

使用 DUMP 运算符验证关系 cogroup_data ,如下所示。

  1. grunt> Dump cogroup_data;
  2. (22,{(6,Maggy,22,35000,sales),(1,Robin,22,25000,sales)}, {(1,Robin,22,25000,sales)})
  3. (23,{(5,David,23,45000,sales),(3,Maya,23,25000,sales),(2,BOB,23,30000,sales)},
  4. {(5,David,23,45000,sales),(3,Maya,23,25000,sales),(2,Jaya,23,20000,admin)})
  5. (25,{(4,Sara,25,40000,sales)},{(4,Alia,25,50000,admin)})
  6. (30,{},{(6,Omar,30,30000,admin)})

COGROUP操作符根据年龄从每个关系中分组元组,每个组描述特定的年龄值。例如,如果我们考虑结果的第一个元组,则按照年龄22分组。包含两个包,第一个包包含所有来自第一个关系的元组(本例中为student_details),其年龄为22岁,第二个 bag包含来自具有年龄22的第二关系(在这种情况下是employee_details)的所有元组。如果关系不具有年龄值为22的元组,则它返回一个空包。

获得有空包的组

让我们使用 IsEmpty() 函数从组中的 emp_sales 关系中列出这些空包。

  1. grunt> isempty_data = filter cogroup_data by IsEmpty(emp_sales);

验证

使用DUMP运算符验证关系 isempty_data ,如下所示。 emp_sales 关系保存了 emp_bonus 关系中不存在的元组。

  1. grunt> Dump isempty_data;
  2. (30,{},{(6,Omar,30,30000,admin)})
转载本站内容时,请务必注明来自W3xue,违者必究。
 友情链接:直通硅谷  点职佳  北美留学生论坛

本站QQ群:前端 618073944 | Java 606181507 | Python 626812652 | C/C++ 612253063 | 微信 634508462 | 苹果 692586424 | C#/.net 182808419 | PHP 305140648 | 运维 608723728

W3xue 的所有内容仅供测试,对任何法律问题及风险不承担任何责任。通过使用本站内容随之而来的风险与本站无关。
关于我们  |  意见建议  |  捐助我们  |  报错有奖  |  广告合作、友情链接(目前9元/月)请联系QQ:27243702 沸活量
皖ICP备17017327号-2 皖公网安备34020702000426号