Как изкуственият интелект се справя с липсващите данни

За да отговорите правилно на даден въпрос, трябва да имате всички факти. Можете да отгатнете отговора на въпрос без всички факти, но тогава отговорът е също толкова вероятно да бъде грешен, колкото и правилен. Често се казва, че някой, който взема решение, като по същество отговаря на въпрос, без всички факти, прибързва със заключение. Когато анализирате данни, вероятно сте направили повече заключения, отколкото си мислите, поради липсващи данни. А запис на данни, един запис в набор от данни (която е на всички данни), се състои от полета , които съдържат факти, използвани за да отговори на един въпрос. Всяко поле съдържа един вид данни, които се отнасят до един факт. Ако това поле е празно, нямате данните, от които се нуждаете, за да отговорите на въпроса, като използвате този конкретен запис с данни.

Като част от процеса на работа с липсващи данни, трябва да знаете, че данните липсват. Идентифицирането, че във вашия набор от данни липсва информация, всъщност може да бъде доста трудно, защото изисква от вас да разглеждате данните на ниско ниво – нещо, което повечето хора не са готови да направят и отнема много време, дори ако имате необходимите умения. Често първата ви улика, че данните липсват, са нелепите отговори, които вашите въпроси получават от алгоритъма и свързания набор от данни. Когато алгоритъмът е правилният за използване, наборът от данни трябва да има грешка.

Проблем може да възникне, когато процесът на събиране на данни не включва всички данни, необходими за отговор на конкретен въпрос. Понякога е по-добре да изпуснете факт, вместо да използвате значително повреден факт. Ако установите, че в определено поле в набор от данни липсват 90 процента или повече от неговите данни, полето става безполезно и трябва да го изхвърлите от набора от данни (или да намерите някакъв начин да получите всички тези данни).

По-малко повредени полета могат да имат липсващи данни по един от двата начина. Случайно липсващите данни често са резултат от човешка или сензорна грешка. Това се случва, когато записи от данни в целия набор от данни имат липсващи записи. Понякога обикновена грешка ще причини повреда. Последователно липсващите данни се появяват по време на някакъв тип генерализиран отказ. В цял сегмент от записите с данни в набора от данни липсва необходимата информация, което означава, че полученият анализ може да стане доста изкривен.

Поправянето на произволно липсващи данни е най-лесно. Можете да използвате проста средна или средна стойност като заместител. Не, наборът от данни не е напълно точен, но вероятно ще работи достатъчно добре, за да получи разумен отговор. В някои случаи учените за данни са използвали специален алгоритъм за изчисляване на липсващата стойност, което може да направи набора от данни по-точен за сметка на изчислителното време.

Последователно липсващите данни е значително по-трудно, ако не и невъзможно, за коригиране, тъй като нямате никакви заобикалящи данни, на които да базирате каквото и да е предположение. Ако успеете да намерите причината за липсващите данни, понякога можете да я реконструирате. Въпреки това, когато реконструкцията стане невъзможна, можете да изберете да игнорирате полето. За съжаление, някои отговори ще изискват това поле, което означава, че може да се наложи да игнорирате тази конкретна последователност от записи от данни - което потенциално причинява неправилен изход.


За възрастни: Как да вмъкнете изрезки в слайд на PowerPoint

За възрастни: Как да вмъкнете изрезки в слайд на PowerPoint

Клипартът е предварително нарисувано общо произведение на изкуството и Microsoft предоставя много файлове с клипарт безплатно със своите продукти на Office. Можете да вмъкнете изрезки в оформлението на слайда на PowerPoint. Най-лесният начин да вмъкнете клип арт е като използвате един от заместителите в оформлението на слайда: Покажете слайд, който съдържа клипарт […]

За възрастни: Как да запълните цвят в Microsoft Excel

За възрастни: Как да запълните цвят в Microsoft Excel

Цвят на запълване — наричан още засенчване — е цветът или моделът, който запълва фона на една или повече клетки на работния лист на Excel. Прилагането на засенчване може да помогне на очите на читателя да следват информацията в цялата страница и може да добави цвят и визуален интерес към работния лист. В някои видове електронни таблици, като например регистър на чековите книжки, […]

Добавяне на нови контакти в Act! 2005 г

Добавяне на нови контакти в Act! 2005 г

На най-простото ниво, основната цел на ACT! е да служи като място за съхранение на всички контакти, с които взаимодействате ежедневно. Можете да добавяте и редактирате всичките си контакти от прозореца Подробности за контакт, защото съдържа цялата информация, която се отнася до един конкретен запис и […]

Discord For LuckyTemplates Cheat Sheet

Discord For LuckyTemplates Cheat Sheet

Използвайте този Cheat Sheet, за да преминете директно към използването на Discord. Открийте полезни Discord ботове, приложения, които можете да интегрирате, и съвети за интервюиране на гости.

OpenOffice.org за LuckyTemplates Cheat Sheet

OpenOffice.org за LuckyTemplates Cheat Sheet

Офис пакетът OpenOffice.org има много инструменти за улесняване на работния живот. Когато работите в OpenOffice.org, запознайте се с функционалната лента с инструменти (която изглежда почти еднакво във всички приложения) и главните бутони на лентата с инструменти за помощ с основните команди за повечето задачи.

Машината за бомби на Алън Тюринг

Машината за бомби на Алън Тюринг

Машината Bombe на Алън Тюринг не беше никаква форма на изкуствен интелект (AI). Всъщност това дори не е истински компютър. Счупи криптографските съобщения на Enigma и това е всичко. Това обаче даде повод за размисъл за Тюринг, което в крайна сметка доведе до документ, озаглавен „Компютърни машини и интелигентност“?? която той публикува през 50-те години на миналия век, която описва […]

Стандартни хардуерни дефицити за изкуствен интелект

Стандартни хардуерни дефицити за изкуствен интелект

Възможността за създаване на модулна система има значителни предимства, особено в бизнеса. Възможността за премахване и замяна на отделни компоненти поддържа разходите ниски, като същевременно позволява постепенни подобрения както в скоростта, така и в ефективността. Въпреки това, както при повечето неща, няма безплатен обяд. Модулността, осигурена от архитектурата на фон Нойман, идва с някои […]

10 правила, които не трябва да правите при използване на QuarkXPress

10 правила, които не трябва да правите при използване на QuarkXPress

Ако трябва да изберете десет лесни за забравяне, но изключително полезни неща, които да запомните за QuarkXPress, тези в следващия списък, скъпи читателю, биха били те. Намасте. Говорете с вашия търговски принтер. Всички проекти за печат започват и завършват с принтера. Това е така, защото само принтерите знаят своите ограничения и хилядите начини, по които един проект може да бъде […]

Произходът на биткойн

Произходът на биткойн

Най-важният аспект на биткойн може да е концепцията зад него. Биткойн е създаден от разработчика Сатоши Накамото. Вместо да се опитва да създаде изцяло нов метод на плащане, за да премахне начина, по който всички плащаме за нещата онлайн, Сатоши видя някои проблеми със съществуващите платежни системи и искаше да ги разреши. Концепцията за […]

Как да защитите поверителността си, когато използвате биткойн

Как да защитите поверителността си, когато използвате биткойн

Известно ниво на анонимност е обвързано с използването на биткойн и цифровата валута като цяло. Дали можете да го обозначите като „достатъчно анонимен“ е лично мнение. Има начини да защитите поверителността си, когато използвате биткойн за преместване на средства, но те изискват известно усилие и планиране: Можете да генерирате нов адрес за […]