Hoofdzakelijk zijn er twee manieren waardoor je trainingsdata biased kan raken: de data representeert niet de realiteit of komt voort vanuit een systeem dat al biased is. Een voorbeeld van misrepresentatie van realiteit is een dataset waarin er meer foto’s met blanke gezichten voorkomen dan donkere gezichten. Hierdoor konden bijvoorbeeld
facial recognition systems donkere vrouwen niet herkennen als vrouw. Een voorbeeld van een dataset dat voortkomt uit een biased systeem, is de
casus van Amazon: de dataset bestond uit alle voorgaande wervingen. Echter, was het wervingsbeleid al biased; er ging een voorkeur uit naar mannen. Hierdoor gaf ook het gebouwde systeem uiteindelijk strafpunten aan CV’s waar het woord ‘
women’ in voorkwam (bijvoorbeeld ‘
women chess club captain’) of waar de sollicitant op een ‘
all women’s college’ had gestudeerd.