Apache Pig教程
Pig是一个基于Hadoop的大规模数据分析平台,它提供的SQL-LIKE语言叫Pig Latin,该语言的编译器会把类SQL的数据分析请求转换为一系列经过优化处理的MapReduce运算。
Pig为复杂的海量数据并行计算提供了一个简单的操作和编程接口。
简介
Apache Pig 是apache平台下的一个免费开源项目,Pig为大型数据集的处理提供了更高层次的抽象,很多时候数据的处理需要多个MapReduce过程才能实现,使得数据处理过程与该模式匹配可能很困难。有了Pig就能够使用更丰富的数据结构。
Pig LatinPig Latin 是一个相对简单的语言,一条语句 就是一个操作,与数据库的表类似,可以在关系数据库中找到它(其中,元组代表行,并且每个元组都由字段组成)。
Pig 拥有大量的数据类型,不仅支持包、元组和映射等高级概念,还支持简单的数据类型,如 int、long、float、double、chararray 和 bytearray。并且,还有一套完整的比较运算符,包括使用正则表达式的丰富匹配模式。
适用人群
本教程面向所有从事Hadoop的专业人员,他们希望执行MapReduce操作,而不必在Java中键入复杂的代码。
学习前提
为了充分掌握本教程,你应该充分了解Hadoop和HDFS命令的基础知识,而如果你善于SQL会更有帮助。
转载本站内容时,请务必注明来自W3xue。
部分原创内容未经授权禁止转载,违者必究。