I dati estrapolati dalle banche dati e utilizzati per la creazione dei dataset hanno caratteristiche di completezza, accuratezza e imparzialità. Tali dati potrebbero tuttavia presentare bias impliciti (possibili distorsioni nella valutazione di fatti, fenomeni globali o avvenimenti), derivanti da processi di aggregazione e correlazione tra diverse fonti dati (cross-analysis) oppure dalla natura delle dinamiche sociali, culturali ed economiche specifiche del contesto di riferimento.
Pertanto, al fine di mitigare tali bias, prima dell’utilizzo dei dataset si suggerisce di adottare tecniche di pre-elaborazione (pre-processing), quali la riponderazione (reweighting) e il ricampionamento (resampling).