Quan recolliu dades per a algorismes d'intel·ligència artificial, heu de tenir en compte les desalineacions de les dades i com corregir-les. És possible que hi hagi dades per a cadascun dels registres de dades d'un conjunt de dades, però és possible que no s'alinein amb altres dades d'altres conjunts de dades que teniu. Per exemple, les dades numèriques d'un camp d'un conjunt de dades poden ser un tipus de coma flotant (amb coma decimal), però un tipus enter en un altre conjunt de dades. Abans de poder combinar els dos conjunts de dades, els camps han de contenir el mateix tipus de dades.
Es poden produir tot tipus d'altres tipus de desalineació. Per exemple, els camps de data són coneguts per tenir formats de diverses maneres. Per comparar les dates, els formats de dades han de ser els mateixos. Tanmateix, les dates també són insidioses en la seva propensió a semblar igual, però a no ser igual. Per exemple, les dates d'un conjunt de dades poden utilitzar l'hora mitjana de Greenwich (GMT) com a base, mentre que les dates d'un altre conjunt de dades poden utilitzar una altra zona horària. Abans de poder comparar les hores, heu d'alinear-les amb la mateixa zona horària. Pot ser encara més estrany quan les dates d'un conjunt de dades provenen d'una ubicació que utilitza l'horari d'estiu (DST), però les dates d'una altra ubicació no.
Fins i tot quan els tipus de dades i el format són els mateixos, es poden produir altres desajustaments de dades. Per exemple, els camps d'un conjunt de dades poden no coincidir amb els camps de l'altre conjunt de dades. En alguns casos, aquestes diferències són fàcils de corregir. Un conjunt de dades pot tractar el nom i els cognoms com un sol camp, mentre que un altre conjunt de dades pot utilitzar camps separats per al nom i el cognom. La resposta és canviar tots els conjunts de dades per utilitzar un sol camp o canviar-los tots per utilitzar camps separats per al nom i el cognom. Malauradament, moltes desalineacions en el contingut de les dades són més difícils d'esbrinar. De fet, és totalment possible que no els pugueu esbrinar en absolut. Tanmateix, abans de renunciar, tingueu en compte aquestes possibles solucions al problema:
- Calcula les dades que falten d'altres dades a les quals pots accedir.
- Localitzeu les dades que falten en un altre conjunt de dades.
- Combineu conjunts de dades per crear un tot que proporcioni camps coherents.
- Recolliu dades addicionals de diverses fonts per omplir les dades que falten.
- Redefiniu la vostra pregunta perquè ja no necessiteu les dades que falten.