Rinkdami duomenis dirbtinio intelekto algoritmams, turite atsižvelgti į duomenų nesutapimus ir kaip juos ištaisyti. Duomenys gali būti kiekviename duomenų rinkinyje esančiame duomenų įraše, tačiau jie gali nesutapti su kitais duomenimis kituose jums priklausančiuose duomenų rinkiniuose. Pavyzdžiui, vieno duomenų rinkinio lauko skaitiniai duomenys gali būti slankiojo kablelio tipo (su kableliu), bet kito duomenų rinkinio sveikojo skaičiaus tipo. Kad galėtumėte sujungti du duomenų rinkinius, laukuose turi būti to paties tipo duomenys.
Gali atsirasti visokių kitokių nesutapimų. Pavyzdžiui, datos laukai yra žinomi dėl įvairių formatų. Norint palyginti datas, duomenų formatai turi būti vienodi. Tačiau datos taip pat klastingos dėl savo polinkio atrodyti taip pat, bet nebūti vienodai. Pavyzdžiui, datos viename duomenų rinkinyje gali naudoti Grinvičo laiką (GMT) kaip pagrindą, o kito duomenų rinkinio datos gali naudoti kitą laiko juostą. Kad galėtumėte palyginti laikus, turite juos suderinti su ta pačia laiko juosta. Gali būti dar keisčiau, kai datos viename duomenų rinkinyje yra iš vietos, kurioje naudojamas vasaros laikas (DST), bet datos iš kitos vietos – ne.
Net jei duomenų tipai ir formatas yra vienodi, gali atsirasti kitų duomenų nesutapimų. Pavyzdžiui, vieno duomenų rinkinio laukai gali neatitikti kito duomenų rinkinio laukų. Kai kuriais atvejais šiuos skirtumus lengva ištaisyti. Viename duomenų rinkinyje vardas ir pavardė gali būti traktuojami kaip vienas laukas, o kitame duomenų rinkinyje gali būti naudojami atskiri vardo ir pavardės laukai. Atsakymas yra pakeisti visus duomenų rinkinius, kad būtų naudojamas vienas laukas, arba pakeisti juos visus, kad būtų naudojami atskiri vardo ir pavardės laukai. Deja, daugelį duomenų turinio neatitikimų nustatyti sunkiau. Tiesą sakant, visiškai įmanoma, kad jūs negalėsite jų suprasti. Tačiau prieš pasiduodami apsvarstykite šiuos galimus problemos sprendimus:
- Apskaičiuokite trūkstamus duomenis pagal kitus duomenis, kuriuos galite pasiekti.
- Raskite trūkstamus duomenis kitame duomenų rinkinyje.
- Sujunkite duomenų rinkinius, kad sukurtumėte visumą, kurioje būtų pateikti nuoseklūs laukai.
- Surinkite papildomus duomenis iš įvairių šaltinių, kad užpildytumėte trūkstamus duomenis.
- Iš naujo apibrėžkite klausimą, kad jums nebereikėtų trūkstamų duomenų.