Apache Pig 基础

Apache Pig 诊断运算符

没有相关的工具

暂无相关在线手册

Pig是一个基于Hadoop的大规模数据分析平台，它提供的SQL-LIKE语言叫Pig Latin，该语言的编译器会把类SQL的数据分析请求转换为一系列经过优化处理的MapReduce运算。

Pig为复杂的海量数据并行计算提供了一个简单的操作和编程接口。

Apache Pig 是apache平台下的一个免费开源项目，Pig为大型数据集的处理提供了更高层次的抽象，很多时候数据的处理需要多个MapReduce过程才能实现，使得数据处理过程与该模式匹配可能很困难。有了Pig就能够使用更丰富的数据结构。

Pig LatinPig Latin 是一个相对简单的语言，一条语句就是一个操作，与数据库的表类似，可以在关系数据库中找到它（其中，元组代表行，并且每个元组都由字段组成）。

Pig 拥有大量的数据类型，不仅支持包、元组和映射等高级概念，还支持简单的数据类型，如 int、long、float、double、chararray 和 bytearray。并且，还有一套完整的比较运算符，包括使用正则表达式的丰富匹配模式。

本教程面向所有从事Hadoop的专业人员，他们希望执行MapReduce操作，而不必在Java中键入复杂的代码。

为了充分掌握本教程，你应该充分了解Hadoop和HDFS命令的基础知识，而如果你善于SQL会更有帮助。

转载本站内容时，请务必注明来自W3xue。
部分原创内容未经授权禁止转载，违者必究。