Труба в R: підключення функцій за допомогою Dplyr
У цьому підручнику ви дізнаєтесь, як об’єднати функції разом за допомогою оператора каналу dplyr мовою програмування R.
У цьому підручнику ви дізнаєтеся, як виконувати маскування даних для конфіденційної інформації в LuckyTemplates за допомогою Power Query . Ви можете переглянути повне відео цього підручника внизу цього блогу.
Маскування даних дозволяє вам приховати або видалити конфіденційну інформацію або інформацію, яку можна ідентифікувати, у ваших моделях даних LuckyTemplates.
Обговорення буде зосереджено на таких моментах:
І ця базова модель буде використана як приклад:
Під час анонімізації ваших даних вам спочатку потрібно визначити, яка інформація є важливим рішенням, а яка — ні.
Зміст
Анонімізація таблиці клієнтів
У цій таблиці клієнтів стовпці Держава та Компанія не є важливими рішеннями.
Тож вам потрібно йти доі видаліть ці два стовпці, залишивши лише ідентифікатор клієнта та ім’я.
У цьому прикладі вам потрібно анонімізувати стовпець Ім’я .
Щоб почати, перейдіть до «Додати стовпець», натисніть «Індексний стовпець», а потім виберіть «З 1».
У стовпці «Індекс», який було додано, виберіть «Додати стовпець із прикладів» .
Далі назвіть стовпець Ім’я клієнта , а потім введіть Клієнт 1 як інформацію. Power Query автоматично продовжить інформацію.
Оскільки у вас є стовпець «Ім’я клієнта» як проксі для фактичного імені клієнта, тепер ви можете видалити стовпці «Ім’я» та «Індекс» із таблиці.
Анонімізація таблиці продажів
У цій таблиці продажів усі 3 стовпці є важливими рішеннями у ваших даних. Однак у стовпці «Сума» є інформація, яку потрібно анонімізувати.
Для цього додайте стовпець Index, який починається з 1.
Потім створіть спеціальний стовпець, назвіть його «Сума продажів», а потім дотримуйтеся цієї формули:
Ця формула рандомізує діапазон від 0 до 5000.
Після цього ви побачите у своїй таблиці стовпець «Сума продажів» із випадковими числами.
Щоб запобігти скиданню цих чисел до загального числа, додайте ще один стовпець індексу, а потім змініть тип «Сума продажів» на «Ціле число» .
Ця таблиця фактів містить 5000 рядків. Однак, навіть якщо його було рандомізовано та анонімно, вам все одно потрібно вилучити 90% даних.
Тож перейдіть на вкладку «Головна» та виберіть «Видалити рядки» . Потім виберіть «Видалити альтернативні рядки» .
Введіть таку інформацію:
Це видалить 9 із кожних 10 рядків у вашій таблиці. Отже, із 5000 у вас залишиться 500 рядків.
Розрив зв’язку, щоб запобігти розкриттю даних
Ви можете скасувати кроки, які ви виконали з таблицею за допомогою Power Query. Однак це робить його сприйнятливим до втручання. Хтось може скасувати вашу роботу, щоб анонімізувати ваші дані.
Ось як цьому запобігти:
Спочатку виберіть «Закрити та застосувати» .
Далі в області перегляду даних клацніть таблицю «Клієнт» і виберіть « Копіювати таблицю» .
Вставте таблицю у відповідний аркуш і вкладку в MS Excel. Зробіть те саме з таблицею Sales і збережіть файл. У цьому прикладі використовується назва файлу «Анонімні дані».
Поверніться до перегляду даних і видаліть таблицю клієнтів і продажів.
Після видалення таблиці «Клієнти та продажі» поверніться назад і відкрийте інформацію з файлу Excel.
Далі перевірте таблиці «Клієнти» та «Продажі» та натисніть «Перетворити дані».
У таблиці «Продажі» тепер є стовпці з дійсною датою та числовим полем.
Для таблиці «Клієнти» стовпці знаходяться в числовому та текстовому полі.
Щоб перевірити, чи успішно ви запобігли розкриттю своїх даних, поверніться до джерела в розділі «Застосовані кроки».
У рядку формул ви побачите, що таблиця походить із файлу Excel.
Це означає, що маскування даних більше не можна скасувати.
Виконавши ці кроки, натисніть «Закрити та застосувати».
Створення відсутньої ланки в таблиці дат
Поверніться до своєї моделі та створіть відсутнє посилання на таблицю Date, перетягнувши дату в таблиці Date на дату в таблиці Sales.
Тепер у вас є повністю анонімна модель, і ви не побоюєтесь розголошення будь-яких конфіденційних даних.
Висновок
Цей загальний підхід робить конфіденційні дані анонімними, видаляючи номери та імена та розриваючи зв’язок за допомогою Power Query Applied Steps через перетворення Microsoft Excel.
Однак цей підхід не просто маскує ваші дані, він також робить їх недоступними для інших людей.
Не забувайте використовувати цей метод для захисту конфіденційної інформації у вашій моделі даних.
Все найкраще,
У цьому підручнику ви дізнаєтесь, як об’єднати функції разом за допомогою оператора каналу dplyr мовою програмування R.
RANKX від LuckyTemplates дозволяє повернути рейтинг певного числа в кожному рядку таблиці, який є частиною списку чисел.
Дізнайтеся, як розібрати файл PBIX, щоб витягти теми та зображення LuckyTemplates із фону та використовувати їх для створення звіту!
Шпаргалка формул Excel: Посібник середнього рівня
Календарна таблиця LuckyTemplates: що це таке та як ним користуватися
Дізнайтеся, як інсталювати мову програмування Python у LuckyTemplates і як використовувати її інструменти для написання кодів і відображення візуальних елементів.
Дізнайтеся, як обчислювати динамічну маржу прибутку за допомогою LuckyTemplates і як ви можете отримати більше інформації, глибше досліджуючи результати.
Дізнайтеся, як правильно сортувати поля зі стовпців розширеної таблиці дат. Це хороша стратегія для складних полів.
У цій статті я поясню, як знайти найпопулярніші продукти для регіону за допомогою обчислень DAX у LuckyTemplates, включаючи функції TOPN і CALCULATE.
Дізнайтеся, як використовувати вимірювання сміття для позначок низької потужності, які ви хочете ефективно включити у свою модель даних.