Programmare Apache Hadoop con Python


Nell’articolo precedente abbiamo fatto conoscenza con Hadoop, l’implementazione open source in Java di MapReduce, modello per l’analisi distribuita di dati su larga scala originariamente sviluppato da Google ed abbiamo visto come installare Hadoop, configurarlo ed eseguire word count, l’equivalente MapReduce di “hello world”.
Obiettivo di questa seconda parte è lo sviluppo di applicazioni che sfruttino un cluster Hadoop; in particolare, vedremo come sia possibile svilupparle in Python, un linguaggio che gode di notevole popolarità, principalmente grazie alla rapidità di sviluppo, alla quantità di moduli disponibili ed alla relativa facilità di estensione.