Þegar þú safnar gögnum fyrir gervigreindar reiknirit verður þú að huga að misskiptingum gagna og hvernig á að leiðrétta þær. Gögn gætu verið til fyrir hverja gagnaskráningu í gagnapakka, en þau gætu ekki verið í takt við önnur gögn í öðrum gagnapakka sem þú átt. Til dæmis gætu tölulegu gögnin í reit í einu gagnasafni verið fljótandi-komma gerð (með aukastaf), en heiltölutegund í öðru gagnasafni. Áður en hægt er að sameina gagnasöfnin tvö verða reitirnir að innihalda sömu tegund gagna.
Alls konar annars konar misskipting getur átt sér stað. Til dæmis eru dagsetningarreitir alræmdir fyrir að vera sniðnir á ýmsan hátt. Til að bera saman dagsetningar verða gagnasniðin að vera þau sömu. Hins vegar eru dagsetningar einnig skaðlegar í tilhneigingu sinni til að líta eins út en vera ekki eins. Til dæmis gætu dagsetningar í einu gagnasafni notað Greenwich Mean Time (GMT) sem grunn, en dagsetningar í öðru gagnasafni gætu notað annað tímabelti. Áður en þú getur borið saman tímana verður þú að samræma þá við sama tímabelti. Það getur orðið enn skrítnara þegar dagsetningar í einu gagnasafni koma frá stað sem notar sumartíma (DST), en dagsetningar frá öðrum stað gera það ekki.
Jafnvel þegar gagnategundirnar og sniðið eru þau sömu, geta aðrar misstillingar gagna átt sér stað. Til dæmis gætu reitirnir í einu gagnasafni ekki passa við reitina í hinu gagnasafninu. Í sumum tilfellum er auðvelt að leiðrétta þennan mun. Eitt gagnasafn gæti meðhöndlað fornafn og eftirnafn sem einn reit, en annað gagnasafn gæti notað aðskilda reiti fyrir fornafn og eftirnafn. Svarið er að breyta öllum gagnasöfnum til að nota einn reit eða að breyta þeim öllum til að nota aðskilda reiti fyrir fornafn og eftirnafn. Því miður er erfiðara að átta sig á mörgum misfellum í gagnainnihaldi. Reyndar er alveg mögulegt að þú gætir alls ekki áttað þig á þeim. Hins vegar, áður en þú gefst upp, skaltu íhuga þessar hugsanlegu lausnir á vandamálinu:
- Reiknaðu gögnin sem vantar úr öðrum gögnum sem þú hefur aðgang að.
- Finndu gögnin sem vantar í öðru gagnasafni.
- Sameina gagnasöfn til að búa til heild sem veitir samræmda reiti.
- Safnaðu viðbótargögnum frá ýmsum aðilum til að fylla út þau gögn sem vantar.
- Endurskilgreindu spurninguna þína þannig að þú þurfir ekki lengur gögnin sem vantar.