Jak se umělá inteligence vypořádává s chybějícími daty

Abyste správně odpověděli na danou otázku, musíte znát všechna fakta. Můžete uhodnout odpověď na otázku bez všech faktů, ale pak bude odpověď stejně pravděpodobně špatná jako správná. Často se říká, že někdo, kdo se rozhodne, v podstatě odpoví na otázku, bez všech faktů, udělá ukvapený závěr. Při analýze dat jste pravděpodobně kvůli chybějícím datům uskočili k více závěrům, než si myslíte. Záznam dat, jedna položka v datovém souboru (což je veškerá data), se skládá z polí , které obsahují skutečnosti použít k odpovědět na otázku. Každé pole obsahuje jeden druh dat, které se týkají jedné skutečnosti. Pokud je toto pole prázdné, nemáte data, která potřebujete k zodpovězení otázky pomocí konkrétního datového záznamu.

V rámci procesu řešení chybějících dat musíte vědět, že data chybí. Identifikace, že ve vaší datové sadě chybí informace, může být ve skutečnosti docela obtížné, protože vyžaduje, abyste se na data dívali na nízké úrovni – něco, na co většina lidí není připravena a je časově náročné, i když máte požadované dovednosti. Vaším prvním vodítkem, že data chybí, jsou často nesmyslné odpovědi, které vaše otázky získávají z algoritmu a související datové sady. Když je algoritmus správný k použití, musí být chyba v datové množině.

Problém může nastat, když proces sběru dat nezahrnuje všechna data potřebná k zodpovězení konkrétní otázky. Někdy je lepší fakt vypustit, než použít značně poškozený fakt. Pokud zjistíte, že určitému poli v datové množině chybí 90 nebo více procent dat, pole se stane nepoužitelným a musíte je z datové sady vypustit (nebo najít nějaký způsob, jak všechna tato data získat).

V méně poškozených polích mohou data chybět jedním ze dvou způsobů. Náhodně chybějící data jsou často výsledkem lidské chyby nebo chyby senzoru. Nastává, když datové záznamy v celé datové sadě mají chybějící položky. Někdy způsobí škodu i obyčejná závada. K sekvenčně chybějícím datům dochází během určitého typu generalizovaného selhání. Celý segment datových záznamů v datové sadě postrádá požadované informace, což znamená, že výsledná analýza může být značně zkreslená.

Oprava náhodně chybějících dat je nejjednodušší. Jako náhradu můžete použít jednoduchý medián nebo průměrnou hodnotu. Ne, soubor dat není zcela přesný, ale pravděpodobně bude fungovat dostatečně dobře, aby bylo možné získat rozumnou odpověď. V některých případech datoví vědci použili k výpočtu chybějící hodnoty speciální algoritmus, který může zpřesnit soubor dat na úkor výpočetního času.

Postupně chybějící data je podstatně těžší, ne-li nemožné, opravit, protože vám chybí jakákoli okolní data, na kterých by bylo možné založit jakýkoli druh odhadu. Pokud najdete příčinu chybějících dat, můžete je někdy rekonstruovat. Když se však rekonstrukce stane nemožnou, můžete se rozhodnout pole ignorovat. Bohužel některé odpovědi budou toto pole vyžadovat, což znamená, že možná budete muset ignorovat tuto konkrétní sekvenci datových záznamů – což může způsobit nesprávný výstup.


Recenzia Snagit 2018 Čo je nové od verzie 13

Recenzia Snagit 2018 Čo je nové od verzie 13

TechSmith Snagit je náš obľúbený softvér na úpravu snímok obrazovky a obrázkov. Pozrite si nové funkcie v Snagit 2018!

8 online nástrojov na kreslenie diagramov a vývojových diagramov

8 online nástrojov na kreslenie diagramov a vývojových diagramov

Potrebujete vytvoriť diagramy alebo vývojové diagramy a nechcete inštalovať ďalší softvér? Tu je zoznam online nástrojov na vytváranie diagramov.

Spotify nemôže prehrať aktuálnu skladbu? Ako opraviť

Spotify nemôže prehrať aktuálnu skladbu? Ako opraviť

Mať dom plný bezdrôtovo pripojených zariadení a streamovacích služieb, ako je Spotify, je skvelé, kým veci nefungujú a nenájdete zaujímavé riešenia.

Čo je NVMe M.2 SSD a aký je rýchly?

Čo je NVMe M.2 SSD a aký je rýchly?

NVMe M.2 SSD je najnovšia technológia počítačových pevných diskov. Čo to je a aká je rýchlosť v porovnaní so staršími pevnými diskami a SSD (Solid State Drive)?

Sonos vs. AirPlay: Prečo som si vybral AirPlay pre zvuk celého domu

Sonos vs. AirPlay: Prečo som si vybral AirPlay pre zvuk celého domu

Sonos je správne fungujúce audio riešenie na streamovanie od 400 USD za dva reproduktory. Ale pri správnom nastavení môže byť AirPlay zadarmo. Pozrime sa na podrobnosti.

Aplikácia Zálohovanie a synchronizácia Google nahrádza Fotky a Disk

Aplikácia Zálohovanie a synchronizácia Google nahrádza Fotky a Disk

Zálohovanie a synchronizácia Google je nová aplikácia, ktorá sa synchronizuje s aplikáciami Fotky a Disk. Čítajte ďalej a zistite, ako si stojí v porovnaní s OneDrive, Dropbox, Backblaze a Crashplan.

Rezanie káblov: Recenzia MyIPTV so SOPlayerom

Rezanie káblov: Recenzia MyIPTV so SOPlayerom

MyIPTV je služba na strihanie káblov, ktorá využíva aplikáciu SOPlayer pre viacero platforiem a poskytuje televíziu, filmy a iné formy médií za platené

Logitech Illuminated Living-Room Keyboard K830

Logitech Illuminated Living-Room Keyboard K830

Spoločnosť Logitech nedávno vydala svoju klávesnicu Illuminated Living-Room Keyboard K830, ktorá je určená ako spoločník domácej zábavy. Tu je naša recenzia jednotky.

Aktualizácia CloudHQ: Rýchlejšia synchronizácia, úprava súborov Dropbox z Dokumentov Google

Aktualizácia CloudHQ: Rýchlejšia synchronizácia, úprava súborov Dropbox z Dokumentov Google

Tu je pohľad na aktualizáciu, ktorá bola nedávno vydaná pre CloudHQ a ako funguje. Čítajte ďalej a dozviete sa viac.

Čo je telefón OnePlus 6T Android?

Čo je telefón OnePlus 6T Android?

OnePlus 6T je prvotriedny kvalitný telefón s Androidom, ktorý sa predáva so zľavou v porovnaní s Apple iPhone, Google Pixel 3 alebo Samsung Galaxy S9.