Hogyan kezeli a mesterséges intelligencia a hiányzó adatokat

Egy adott kérdés helyes megválaszolásához minden ténnyel rendelkeznie kell. Minden tény nélkül is sejtheti a választ egy kérdésre, de akkor a válasz ugyanolyan valószínű, hogy rossz, mint a helyes. Gyakran azt mondják, hogy valaki, aki döntést hoz, lényegében válaszol egy kérdésre, minden tény nélkül, ugrásszerű következtetést von le. Az adatok elemzése során valószínűleg több következtetést von le, mint gondolná, mert hiányzott az adat. Egy adatrekord, egy adathalmaz egyetlen bejegyzése (ami az összes adat), olyan mezőkből áll , amelyek a kérdések megválaszolásához használt tényeket tartalmazzák. Minden mező egyetlen fajta adatot tartalmaz, amelyek egyetlen tényre vonatkoznak. Ha ez a mező üres, akkor nem rendelkezik a kérdés megválaszolásához szükséges adatokkal az adott adatrekord használatával.

A hiányzó adatok kezelésének részeként tudnia kell, hogy az adatok hiányoznak. Annak megállapítása, hogy az adatkészletből hiányoznak az információk, valójában meglehetősen nehéz lehet, mert alacsony szinten kell megvizsgálnia az adatokat – amire a legtöbb ember nincs felkészülve, és még akkor is időigényes, ha rendelkezik a szükséges készségekkel. Gyakran az első nyoma, hogy hiányoznak az adatok, az az eszméletlen válasz, amelyet az algoritmus és a kapcsolódó adatkészlet a kérdéseire kap. Ha az algoritmus a megfelelő, akkor az adatkészletnek kell hibásnak lennie.

Probléma akkor fordulhat elő, ha az adatgyűjtési folyamat nem tartalmazza az adott kérdés megválaszolásához szükséges összes adatot. Néha jobban jársz, ha ténylegesen eldobsz egy tényt, mint egy jelentősen sérült tényt. Ha úgy találja, hogy egy adatkészlet egy mezőjéből az adatok 90 százaléka vagy több hiányzik, a mező használhatatlanná válik, és ki kell vennie az adatkészletből (vagy találnia kell valamilyen módot ezen adatok beszerzésére).

A kevésbé sérült mezőkből kétféleképpen hiányozhat az adat. A véletlenszerűen hiányzó adatok gyakran emberi vagy szenzorhiba eredménye. Ez akkor fordul elő, ha az adatkészlet adatrekordjaiban hiányzó bejegyzések vannak. Néha egy egyszerű hiba okozza a kárt. Sorozatosan hiányzó adatok lépnek fel valamilyen általános hiba esetén. Az adatkészletben lévő adatrekordok egy teljes szegmenséből hiányzik a szükséges információ, ami azt jelenti, hogy az eredményül kapott elemzés meglehetősen torz lehet.

A véletlenszerűen hiányzó adatok javítása a legegyszerűbb. Csereként egyszerű medián vagy átlagértéket használhat. Nem, az adatkészlet nem teljesen pontos, de valószínűleg elég jól fog működni ahhoz, hogy ésszerű választ kapjunk. Egyes esetekben az adatkutatók egy speciális algoritmust használtak a hiányzó érték kiszámítására, amely pontosabbá teheti az adatkészletet a számítási idő rovására.

A szekvenciálisan hiányzó adatokat lényegesen nehezebb, ha nem lehetetlen kijavítani, mert hiányoznak a környező adatok, amelyekre bármilyen találgatást alapozhatna. Ha megtalálja a hiányzó adatok okát, néha rekonstruálhatja azt. Ha azonban a rekonstrukció lehetetlenné válik, dönthet úgy, hogy figyelmen kívül hagyja a mezőt. Sajnos néhány válaszhoz szükség lesz erre a mezőre, ami azt jelenti, hogy előfordulhat, hogy figyelmen kívül kell hagynia az adatrekordok adott sorozatát, ami hibás kimenetet okozhat.


A Snagit 2018 áttekintése Újdonságok a 13-as verzió óta

A Snagit 2018 áttekintése Újdonságok a 13-as verzió óta

A TechSmith Snagit a kedvenc képernyőkép- és képszerkesztő szoftverünk. Tekintse meg a Snagit 2018 új funkcióit!

8 online eszköz diagramok és folyamatábrák rajzolásához

8 online eszköz diagramok és folyamatábrák rajzolásához

Diagramokat vagy folyamatábrákat kell létrehoznia, és nem szeretne extra szoftvert telepíteni? Íme az online diagramkészítő eszközök listája.

A Spotify nem tudja lejátszani az aktuális dalt? Hogyan javítható

A Spotify nem tudja lejátszani az aktuális dalt? Hogyan javítható

Ha egy ház tele van vezeték nélkül csatlakoztatott eszközökkel és streaming szolgáltatásokkal, mint a Spotify, az nagyszerű, amíg a dolgok nem működnek, és érdekes megoldásokat nem talál.

Mi az NVMe M.2 SSD, és milyen gyors?

Mi az NVMe M.2 SSD, és milyen gyors?

Az NVMe M.2 SSD a legújabb számítógépes merevlemez-technológia. Mi ez, és milyen gyors a korábbi merevlemezekkel és szilárdtest-meghajtókkal (SSD) szemben?

Sonos vs. AirPlay: Miért választottam az AirPlay-t a Whole House Audio számára?

Sonos vs. AirPlay: Miért választottam az AirPlay-t a Whole House Audio számára?

A Sonos a jelenleg működő streaming audio megoldás, amely 400 dollártól indul két hangszóróért. De megfelelő beállítással az AirPlay ingyenes lehet. Tekintsük át a részleteket.

A Google Backup and Sync alkalmazás leváltja a Fotókat és a Drive-ot

A Google Backup and Sync alkalmazás leváltja a Fotókat és a Drive-ot

A Google Backup and Sync egy új alkalmazás, amely szinkronizálja a Fotókat és a Drive-ot. Olvassa el, hogy megtudja, hogyan áll szemben a OneDrive, a Dropbox, a Backblaze és a Crashplan.

Vezetékvágás: A MyIPTV áttekintése a SOPlayerrel

Vezetékvágás: A MyIPTV áttekintése a SOPlayerrel

A MyIPTV egy kábelvágó szolgáltatás, amely a SOPlayer alkalmazást több platformon használja, és televíziót, filmeket és egyéb médiát biztosít fizetős

Logitech megvilágított nappali billentyűzet K830

Logitech megvilágított nappali billentyűzet K830

A Logitech a közelmúltban kiadta az Illuminated Living-Room Keyboard K830-at, amelyet otthoni szórakoztatási társnak szántak. Íme az egységről szóló véleményünk.

CloudHQ frissítve: Gyorsabb szinkronizálás, Dropbox-fájlok szerkesztése a Google Dokumentumokból

CloudHQ frissítve: Gyorsabb szinkronizálás, Dropbox-fájlok szerkesztése a Google Dokumentumokból

Íme egy pillantás a CloudHQ-hoz nemrégiben kiadott frissítésre és annak működésére. Olvasson tovább, ha többet szeretne megtudni.

Mi az a OnePlus 6T Android telefon?

Mi az a OnePlus 6T Android telefon?

A OnePlus 6T egy prémium zászlóshajó-minőségű Android telefon, amely az Apple iPhone-hoz, a Google Pixel 3-hoz vagy a Samsung Galaxy S9-hez képest kedvezményes áron kapható.