Apache Pig ist eine Plattform zur Analyse großer Datensätze, die aus einer Hochsprache zur Ausdruck von Datenanalyseprogrammen besteht, gekoppelt mit einer Infrastruktur zur Auswertung dieser Programme. Die hervorstechende Eigenschaft von Pig-Programmen ist, dass ihre Struktur eine erhebliche Parallelisierung ermöglicht, was ihnen wiederum erlaubt, sehr große Datensätze zu verarbeiten.