Poiché non sono riuscito a trovare informazioni chiare e definitive su come vengono gestite le partizioni in Apache Spark, ho deciso di investigare un po’ per conto mio. Cosa ho trovato ? Cercando su Internet ho trovato diverse informazioni che non so bene come collegare tra loro. Vediamo queste informazioni. Nel memorizzare i dati in […]

Vediamo quali sono gli argomenti da conoscere per affrontare la certificazione CRT020: Databricks Certified Associate Developer for Apache Spark 2.4 with Scala 2.11. In questa prima parte facciamo un ripasso della configurazione della SparkSession e dell’uso della DataFrames API. Infine vedremo come leggere e scrivere dati da e verso le sorgenti più comuni.

Una breve panoramica sul teorema di Bayes e la statistica bayesiana. Una teoria affascinante sviluppata 2 secoli e mezzo fa da Thomas Bayes, statistico, matematico, filosofo e ministro della chiesa presbiteriana. Dopo essere rimasta in in secondo piano per molto tempo a causa della difficoltà di calcolare gli integrali, essa è oggi resa attuale dalla potenza dei moderni mezzi di calcolo. Vediamo come usare le teorie di base della statistica bayesiana usando il package PYMC3 per Python 3.x.