Apache Pig é uma plataforma para analisar grandes conjuntos de dados que consiste em uma linguagem de alto nível para expressar programas de análise de dados, juntamente com uma infraestrutura para avaliar esses programas. A propriedade saliente dos programas Pig é que sua estrutura é adequada para uma paralelização substancial, o que, por sua vez, permite que eles lidem com conjuntos de dados muito grandes.