Apache Pig è una piattaforma per l'analisi di grandi set di dati che consiste in un linguaggio di alto livello per esprimere programmi di analisi dei dati, insieme a un'infrastruttura per valutare questi programmi. La proprietà saliente dei programmi Pig è che la loro struttura è adatta a una sostanziale parallelizzazione, il che consente loro di gestire set di dati molto grandi.