... le partizioni di Apache Spark

Poiché non sono riuscito a trovare informazioni chiare e definitive su come vengono gestite le partizioni in Apache Spark, ho deciso di investigare un po’ per conto mio. Cosa ho trovato ? Cercando su Internet ho trovato diverse informazioni che non so bene come collegare tra loro. Vediamo queste informazioni. Nel memorizzare i dati in […]

... ingestione di dati da un file testo in Apache Spark

Con Apache Spark ho la possibilità di caricare in memoria grosse quantità di dati di diverso formato, csv, txt, json etc. I dati vengono memorizzati in un dataset o in un dataframe e successivamente processati. Vediamo cosa fare per caricare uno o più file di dati in un dataframe in Apache Spark, e successivamente ripulire i dati.

... modificare iterativamente le colonne del dataframe in Apache Spark

Come modificare iterativamente le colonne di un dataframe di Spark usando foldLeft. Per esempio per rinominare le colonne di un dataframe o per generare nuove colonne sulla base di quelle vecchie

... Certificazione Apache Spark Developer con Scala – Parte 1

Vediamo quali sono gli argomenti da conoscere per affrontare la certificazione CRT020: Databricks Certified Associate Developer for Apache Spark 2.4 with Scala 2.11. In questa prima parte facciamo un ripasso della configurazione della SparkSession e dell’uso della DataFrames API. Infine vedremo come leggere e scrivere dati da e verso le sorgenti più comuni.

... utilizzare il metodo filter sui dataframe di Apache Spark

Uno dei metodi disponibili per i dataframe (e i dataset) è filter che consente di filtrare le righe che soddisfano una determinata condizione. La funzione filter ha diverse signature, in questo post voglio vedere tutte le opzioni per fare un filter su un dataframe.

... usare gli RDD di Apache Spark

Nelle versioni di Apache Spark 1.x gli RDD erano lo standard per la memorizzazione distribuita dei dati. Un RDD è una collezione di dati che sono partizionati (con ridondanza) tra i nodi del cluster. RDD sta per resilient distributed dataset, la chiave è il termine resilient, ovvero resistente. Un RDD è resistente alla perdita dei dati, ovvero la memorizzazione dei dati è ridondante per cui se un nodo del cluster dovesse andare giù, il RDD comunque non subirebbe una perdita dei dati. In questo articolo vediamo un esempio di come operare con gli RDD.

... primi Passi con Apache Spark DataFrame

Apache Spark è un framework per il calcolo distribuito su un cluster di computer. Di fatto è il sistema più diffuso per l’esecuzione di calcoli su una grosse mole di dati, leggasi Big Data. In questo articolo vediamo di muovere i primi passi con i DataFrame di Apache Spark.