La statistica bayesiana è un approccio matematico al calcolo della probabilità in cui le conclusioni sono soggettive e aggiornate man mano che vengono raccolti dati aggiuntivi. Questo approccio può essere contrastato con le statistiche classiche o frequentiste, in cui la probabilità viene calcolata analizzando la frequenza di particolari eventi casuali in un lungo periodo di prove ripetute e le conclusioni sono considerate oggettive.
L'inferenza statistica, in generale, è il processo per trarre conclusioni da un ampio set di dati analizzando set più piccoli di dati campione. I data scientist bayesiani analizzano innanzitutto i dati del campione e traggono una conclusione. Questa è chiamata inferenza a priori. Quindi, analizzano un altro campione e rivedono la loro conclusione. La conclusione rivista è chiamata inferenza a posteriori. L'uso della conoscenza di eventi precedenti per prevedere eventi futuri è noto come logica bayesiana.
La statistica bayesiana prende il nome da Thomas Bayes, un ecclesiastico e matematico del XVIII secolo, che era interessato alla probabilità come un modo per misurare la propria fede in una certa ipotesi. Sebbene la teoria bayesiana abbia radici nel XVIII secolo, il concetto ha preso il volo a metà del XX secolo ed è diventato più popolare negli ultimi decenni per applicazioni tra cui l'allevamento di animali negli anni '18, la misurazione dell'istruzione negli anni '18 e '20, le statistiche spaziali in negli anni '1950 e nel marketing e nelle scienze politiche negli anni '1960.
Il suo approccio iterativo consente ai data scientist di fare previsioni più precise di quanto sarebbe possibile utilizzando uno dei due set di dati da solo. Oggi, le statistiche bayesiane svolgono un ruolo importante nell'apprendimento automatico grazie alla flessibilità che offre ai data scientist che lavorano con i big data. I modelli ei metodi bayesiani sono utilizzati in molti settori, tra cui previsioni finanziarie, previsioni meteorologiche, ricerca medica e tecnologia dell'informazione (IT).