Programmare Apache Hadoop con Python


Nell’articolo precedente abbiamo fatto conoscenza con Hadoop, l’implementazione open source in Java di MapReduce, modello per l’analisi distribuita di dati su larga scala originariamente sviluppato da Google ed abbiamo visto come installare Hadoop, configurarlo ed eseguire word count, l’equivalente MapReduce di “hello world”.
Obiettivo di questa seconda parte è lo sviluppo di applicazioni che sfruttino un cluster Hadoop; in particolare, vedremo come sia possibile svilupparle in Python, un linguaggio che gode di notevole popolarità, principalmente grazie alla rapidità di sviluppo, alla quantità di moduli disponibili ed alla relativa facilità di estensione.

Apache Hadoop: suddividere i dati ed il lavoro per battere il “diluvio di dati”


Hadoop è la risposta open source alle tecnologie MapReduce e Google File System di Google: una soluzione ideale per le applicazioni data-driven

Post precedenti »