Pipe In R: Propojovací funkce s Dplyr
V tomto tutoriálu se naučíte, jak zřetězit funkce dohromady pomocí operátoru potrubí dplyr v programovacím jazyce R.
V tomto návode sa naučíte, ako vykonať maskovanie údajov pre citlivé informácie v LuckyTemplates pomocou Power Query . Celé video tohto návodu si môžete pozrieť v spodnej časti tohto blogu.
Maskovanie údajov vám umožňuje skryť alebo odstrániť dôverné alebo identifikovateľné informácie vo vašich dátových modeloch LuckyTemplates.
Diskusia sa zameria na tieto body:
A tento základný model bude použitý ako príklad:
Pri anonymizácii údajov musíte najprv zistiť, ktoré informácie sú a ktoré nie sú nevyhnutným riešením.
Obsah
Anonymizácia tabuľky zákazníkov
V tejto tabuľke zákazníkov stĺpce Štát a Spoločnosť nie sú základnými riešeniami.
Takže musíte ísť doa odstráňte tieto dva stĺpce a ponechajte iba ID zákazníka a meno.
V tomto príklade musíte anonymizovať stĺpec Názov .
Ak chcete začať, prejdite na položku Pridať stĺpec, kliknite na položku Indexový stĺpec a potom vyberte položku Od 1.
V stĺpci Index, ktorý bol pridaný, vyberte možnosť Pridať stĺpec z príkladov .
Potom pomenujte stĺpec Meno zákazníka a potom zadajte zákazníka 1 ako informáciu. Power Query bude automaticky pokračovať v informáciách.
Keďže máte stĺpec Meno zákazníka ako proxy pre skutočné meno zákazníka, teraz môžete z tabuľky odstrániť stĺpce Názov a Index.
Anonymizácia tabuľky predaja
V tejto tabuľke predaja sú všetky 3 stĺpce základnými riešeniami vo vašich údajoch. Stĺpec Suma však obsahuje informácie, ktoré je potrebné anonymizovať.
Ak to chcete urobiť, pridajte stĺpec Index, ktorý začína od 1.
Potom vytvorte vlastný stĺpec, pomenujte ho Suma predaja a potom postupujte podľa tohto vzorca:
Tento vzorec náhodne rozdeľuje rozsah medzi 0 až 5 000.
Potom sa vám v tabuľke zobrazí stĺpec Suma predaja s náhodnými číslami.
Ak chcete, aby sa tieto čísla neresetovali na bežné číslo, pridajte ďalší stĺpec indexu a potom zmeňte typ Suma predaja na Celé číslo .
Táto tabuľka faktov má 5 000 riadkov. Avšak, aj keď boli randomizované a anonymizované, stále musíte vyňať 90 % údajov.
Prejdite teda na kartu Domov a vyberte položku Odstrániť riadky . Potom vyberte Odstrániť alternatívne riadky .
Zadajte nasledujúce informácie:
Týmto sa odstráni 9 z každých 10 riadkov v tabuľke. Takže z 5 000 vám zostane 500 riadkov.
Prerušenie prepojenia na zabránenie odmaskovaniu údajov
Kroky, ktoré ste vykonali s tabuľkou, môžete vrátiť späť pomocou Power Query. Vďaka tomu je však náchylný na manipuláciu. Niekto by mohol vrátiť späť vašu prácu a neanonymizovať vaše údaje.
Tu je návod, ako tomu zabrániť:
Najprv vyberte Zavrieť a použiť .
Potom v prehľade údajov kliknite na tabuľku Zákazník a vyberte možnosť Kopírovať tabuľku .
Prilepte tabuľku do príslušného hárka a karty v programe MS Excel. Urobte to isté s tabuľkou Predaj a uložte súbor. V tomto príklade je použitý názov súboru „Anonymizované údaje“.
Vráťte sa do prehľadu údajov a odstráňte tabuľku Zákazníci a predaj.
Po odstránení tabuľky Zákazník a predaj vráťte späť a otvorte informácie zo súboru Excel.
Ďalej skontrolujte tabuľky Zákazníci a Predaj a kliknite na položku Transformovať údaje.
Tabuľka Predaj má teraz stĺpce, ktoré sú v platnom dátume a číselnom poli.
Pre tabuľku Zákazníci sú stĺpce v číselnom a textovom poli.
Ak chcete skontrolovať, či ste úspešne zabránili odmaskovaniu svojich údajov, vráťte sa späť do časti Zdroj v časti Aplikované kroky.
Na riadku vzorcov uvidíte, že tabuľka pochádza zo súboru programu Excel.
To znamená, že maskovanie údajov už nie je možné vrátiť späť.
Po dokončení implementácie týchto krokov kliknite na položku Zavrieť a použiť.
Vytvorenie chýbajúceho odkazu v tabuľke dátumov
Vráťte sa k svojmu modelu a znova vytvorte chýbajúce prepojenie na tabuľku Dátum presunutím Dátum v tabuľke Dátum na Dátum v tabuľke Predaj.
Teraz máte plne anonymizovaný model bez strachu zo zverejnenia akýchkoľvek dôverných údajov.
Záver
Tento všeobecný prístup anonymizuje dôverné údaje odstránením čísel a mien a prerušením prepojenia pomocou Power Query Applied Steps prostredníctvom transformácie Microsoft Excel.
Tento prístup však nielenže vaše údaje zamaskuje, ale tiež spôsobí, že nebudú dostupné pre iných ľudí.
Nezabudnite použiť túto metódu na ochranu a zabezpečenie dôverných informácií vo vašom dátovom modeli.
Všetko najlepšie,
V tomto tutoriálu se naučíte, jak zřetězit funkce dohromady pomocí operátoru potrubí dplyr v programovacím jazyce R.
RANKX od LuckyTemplates umožňuje vrátit pořadí konkrétního čísla v každém řádku tabulky, který tvoří součást seznamu čísel.
Naučte sa, ako rozobrať súbor PBIX, aby ste extrahovali motívy a obrázky LuckyTemplates z pozadia a použili ich na vytvorenie správy!
Cheat Sheet pre vzorce Excel: Stredne pokročilý sprievodca
Tabuľka kalendára LuckyTemplates: Čo to je a ako ju používať
Naučte se, jak nainstalovat programovací jazyk Python do LuckyTemplates a jak používat jeho nástroje k psaní kódů a zobrazování vizuálů.
Zjistěte, jak vypočítat dynamické ziskové marže u LuckyTemplates a jak můžete získat více informací tím, že se ponoříte hlouběji do výsledků.
Zistite, ako správne zoradiť polia zo stĺpcov tabuľky s rozšíreným dátumom. Toto je dobrá stratégia pre náročné polia.
V tomto článku vám ukážem, ako môžete nájsť svoje najlepšie produkty podľa regiónu pomocou výpočtov DAX v LuckyTemplates vrátane funkcií TOPN a CALCULATE.
Zistite, ako používať dimenziu nevyžiadanej pošty pre príznaky nízkej mohutnosti, ktoré chcete efektívne začleniť do svojho dátového modelu.