... utilizzare il metodo filter sui dataframe di Apache Spark

Postato il Gennaio 26, 2020Gennaio 28, 2020

Uno dei metodi disponibili per i dataframe (e i dataset) è filter che consente di filtrare le righe che soddisfano una determinata condizione. La funzione filter ha diverse signature, in questo post voglio vedere tutte le opzioni per fare un filter su un dataframe.

... usare gli RDD di Apache Spark

Postato il Dicembre 6, 2019Dicembre 10, 2019

Nelle versioni di Apache Spark 1.x gli RDD erano lo standard per la memorizzazione distribuita dei dati. Un RDD è una collezione di dati che sono partizionati (con ridondanza) tra i nodi del cluster. RDD sta per resilient distributed dataset, la chiave è il termine resilient, ovvero resistente. Un RDD è resistente alla perdita dei dati, ovvero la memorizzazione dei dati è ridondante per cui se un nodo del cluster dovesse andare giù, il RDD comunque non subirebbe una perdita dei dati. In questo articolo vediamo un esempio di come operare con gli RDD.

... unire due DataFrame di Pandas

Postato il Novembre 30, 2019Dicembre 6, 2019

In questo articolo voglio vedere come unire 2 DataFrame di Pandas. Il problema è: dati due DataFrame che contengono dati diversi voglio combinare questi due in modo da avere un unico DataFrame alla fine del processo. Pandas mette a disposizione la funzione merge() per fare questa unione. L’unione verrà fatta sulla base di una chiave (id nellesempio), gli elementi dei due DataFrame con lo stesso id vengono combinati in una unica riga nel nuovo DataFrame. Se un id non è comune ai due DataFrame… ci sono diverse possibilità. Nell’esempio sotto ho fatto un inner merge in cui ho usato solo gli id comuni ai due DataFrame di partenza. Vedremo più avanti le altre possibilità.

... primi Passi con Apache Spark DataFrame

Postato il Novembre 28, 2019Febbraio 18, 2020

Apache Spark è un framework per il calcolo distribuito su un cluster di computer. Di fatto è il sistema più diffuso per l’esecuzione di calcoli su una grosse mole di dati, leggasi Big Data. In questo articolo vediamo di muovere i primi passi con i DataFrame di Apache Spark.

... implementare una regressione logistica con PyTorch

Postato il Ottobre 17, 2019Novembre 5, 2020

Risolviamo un problema di classificazione con un algoritmo di regressione logistica. Costruiamo il modello, facciamo il training e vediamo come possibile migliorare l’accuratezza del risultato con semplici accorgimenti. Il modello è implementato con Pytorch.

... implementare una regressione lineare con PyTorch

Postato il Ottobre 16, 2019Febbraio 18, 2020

In questo articolo voglio implementare una regressione lineare usando Pytorch. Innanzitutto un breve ripasso di cosa una regressione lineare con pi variabili indipendenti. Poi un training dei parametri del modello. Infine una valutazione del fitting e per finire… si ricomincia.

... primi passi con PyTorch e prima rete neurale

Postato il Settembre 25, 2019Dicembre 6, 2019

In questo articolo voglio muovere i primi passi in Pytorch. Vedremo come programmare una rete neurale completamente connessa partendo da una base teorica che do per acquisita. Abbiamo bisogno di un set di dati (dataset), un modello di rete neurale, la definizione di una funzione errore, la scelta di un ottimizzatore.
Inizieremo analizzando gli elementi che ci servono per definire una rete neurale semplice, limitandoci a layer lineari e ReLU.
In seguito vedremo come mettere insieme i layer per costruire il modello di una rete.
Alla fine implementeremo una rete e la ottimizzeremo per un problema specifico.