Poiché non sono riuscito a trovare informazioni chiare e definitive su come vengono gestite le partizioni in Apache Spark, ho deciso di investigare un po’ per conto mio. Cosa ho trovato ? Cercando su Internet ho trovato diverse informazioni che non so bene come collegare tra loro. Vediamo queste informazioni. Nel memorizzare i dati in […]

Con Apache Spark ho la possibilità di caricare in memoria grosse quantità di dati di diverso formato, csv, txt, json etc. I dati vengono memorizzati in un dataset o in un dataframe e successivamente processati. Vediamo cosa fare per caricare uno o più file di dati in un dataframe in Apache Spark, e successivamente ripulire i dati.

Vediamo quali sono gli argomenti da conoscere per affrontare la certificazione CRT020: Databricks Certified Associate Developer for Apache Spark 2.4 with Scala 2.11. In questa prima parte facciamo un ripasso della configurazione della SparkSession e dell’uso della DataFrames API. Infine vedremo come leggere e scrivere dati da e verso le sorgenti più comuni.

Nelle versioni di Apache Spark 1.x gli RDD erano lo standard per la memorizzazione distribuita dei dati. Un RDD è una collezione di dati che sono partizionati (con ridondanza) tra i nodi del cluster. RDD sta per resilient distributed dataset, la chiave è il termine resilient, ovvero resistente. Un RDD è resistente alla perdita dei dati, ovvero la memorizzazione dei dati è ridondante per cui se un nodo del cluster dovesse andare giù, il RDD comunque non subirebbe una perdita dei dati. In questo articolo vediamo un esempio di come operare con gli RDD.

Apache Spark è un framework per il calcolo distribuito su un cluster di computer. Di fatto è il sistema più diffuso per l’esecuzione di calcoli su una grosse mole di dati, leggasi Big Data. In questo articolo vediamo di muovere i primi passi con i DataFrame di Apache Spark.