Як штучний інтелект справляється з відсутніми даними

Щоб правильно відповісти на поставлене запитання, ви повинні мати всі факти. Ви можете вгадати відповідь на запитання без усіх фактів, але тоді відповідь так само ймовірно буде неправильною, як і правильною. Часто говорять, що той, хто приймає рішення, по суті відповідаючи на запитання, без усіх фактів, робить поспішний висновок. Аналізуючи дані, ви, ймовірно, зробили більше висновків, ніж думаєте, через відсутність даних. Запис даних, один запис у наборі даних (який є всіма даними), складається з полів, які містять факти, які використовуються для відповіді на запитання. Кожне поле містить один тип даних, що стосується одного факту. Якщо це поле пусте, у вас немає даних, необхідних для відповіді на запитання, використовуючи цей конкретний запис даних.

Як частина процесу роботи з відсутніми даними, ви повинні знати, що дані відсутні. Визначити, що у вашому наборі даних відсутня інформація, насправді може бути досить складно, оскільки це вимагає від вас дивитися на дані на низькому рівні — до чого більшість людей не готові і займає багато часу, навіть якщо у вас є необхідні навички. Часто ваша перша підказка про відсутність даних — це безглузді відповіді, які на ваші запитання отримують з алгоритму та пов’язаного набору даних. Якщо алгоритм є правильним для використання, набір даних повинен бути несправним.

Проблема може виникнути, коли процес збору даних не включає всі дані, необхідні для відповіді на конкретне запитання. Іноді краще відмовитися від факту, а не використовувати значно пошкоджений факт. Якщо ви виявите, що в певному полі в наборі даних не вистачає 90 або більше відсотків даних, поле стає марним, і вам потрібно вилучити його з набору даних (або знайти спосіб отримати всі ці дані).

У менш пошкоджених полях дані можуть бути відсутні одним із двох способів. Випадково відсутні дані часто є результатом помилки людини або датчика. Це відбувається, коли в записах даних у всьому наборі даних відсутні записи. Іноді простий збій може призвести до пошкодження. Послідовно відсутні дані виникають під час деякого типу узагальненого збою. Цілому сегменту записів даних у наборі даних не вистачає необхідної інформації, а це означає, що результат аналізу може стати досить спотвореним.

Виправити випадково відсутні дані найпростіше. Ви можете використовувати просту медіану або середнє значення як заміну. Ні, набір даних не зовсім точний, але, швидше за все, він працюватиме достатньо добре, щоб отримати розумну відповідь. У деяких випадках дослідники даних використовували спеціальний алгоритм для обчислення відсутнього значення, який може зробити набір даних більш точним за рахунок часу обчислень.

Послідовно відсутні дані значно важче, якщо взагалі неможливо, виправити, тому що вам не вистачає будь-яких навколишніх даних, на яких можна було б робити будь-які припущення. Якщо ви можете знайти причину відсутніх даних, ви можете іноді відновити її. Однак, коли реконструкція стає неможливою, ви можете ігнорувати поле. На жаль, для деяких відповідей буде потрібно це поле, а це означає, що вам, можливо, доведеться ігнорувати цю конкретну послідовність записів даних, що може спричинити неправильний вихід.


Огляд Snagit 2018 Що нового з версії 13

Огляд Snagit 2018 Що нового з версії 13

TechSmith Snagit — наше улюблене програмне забезпечення для створення скріншотів і редагування зображень. Перегляньте нові функції в Snagit 2018!

8 онлайн-інструментів для малювання діаграм і блок-схем

8 онлайн-інструментів для малювання діаграм і блок-схем

Потрібно створити діаграми або блок-схеми і не хочете встановлювати додаткове програмне забезпечення? Ось список онлайн-інструментів для створення діаграм.

Spotify не може відтворити поточну пісню? Як виправити

Spotify не може відтворити поточну пісню? Як виправити

Мати дім, повний бездротових пристроїв і потокових служб, таких як Spotify, — це чудово, доки все не запрацює, а ви знайдете цікаві рішення.

Що таке NVMe M.2 SSD і наскільки він швидкий?

Що таке NVMe M.2 SSD і наскільки він швидкий?

NVMe M.2 SSD — це найновіша технологія комп’ютерних жорстких дисків. Що це таке та наскільки він швидкий порівняно зі старими жорсткими дисками та твердотільними накопичувачами (SSD)?

Sonos проти AirPlay: Чому я вибрав AirPlay для аудіосистеми всього будинку

Sonos проти AirPlay: Чому я вибрав AirPlay для аудіосистеми всього будинку

Sonos — це ідеальне рішення для потокового аудіо від 400 доларів США за два динаміки. Але за правильного налаштування AirPlay може бути безкоштовним. Давайте розглянемо деталі.

Додаток Google Backup and Sync замінює Photos і Drive

Додаток Google Backup and Sync замінює Photos і Drive

Google Backup and Sync – це нова програма, яка синхронізується з Фото та Диском. Читайте далі, щоб побачити, як він протистоїть OneDrive, Dropbox, Backblaze і Crashplan.

Розрізання кабелю: огляд MyIPTV із SOPlayer

Розрізання кабелю: огляд MyIPTV із SOPlayer

MyIPTV — це служба розрізання кабелю, яка використовує програму SOPlayer для кількох платформ і надає телебачення, фільми та інші форми медіа за плату.

Клавіатура Logitech K830 для вітальні з підсвічуванням

Клавіатура Logitech K830 для вітальні з підсвічуванням

Logitech нещодавно випустила клавіатуру K830 з підсвічуванням для вітальні, призначену для домашнього розваги. Ось наш огляд агрегату.

Оновлено CloudHQ: швидша синхронізація, редагування файлів Dropbox із Google Docs

Оновлено CloudHQ: швидша синхронізація, редагування файлів Dropbox із Google Docs

Ось подивіться на нещодавно випущене оновлення для CloudHQ і як воно працює. Читайте далі, щоб дізнатися більше.

Що таке Android-телефон OnePlus 6T?

Що таке Android-телефон OnePlus 6T?

OnePlus 6T — флагманський Android-телефон преміум-класу, який продається зі знижкою порівняно з Apple iPhone, Google Pixel 3 або Samsung Galaxy S9.