Python Dataset: Použitie opakovateľných kódov

V tomto blogu sa dozviete, ako použiť opakovateľné kódy alebo funkcie na vytvorenie rovnakého typu výstupu. Pomôže vám to byť efektívnejší a vynaložiť menšie úsilie pri získavaní určitých údajov z rôznych súborov údajov. V tomto návode použijeme ako príklad existujúci kód, ktorý som predtým vytvoril.

Dozviete sa tiež, ako vytvárať kópie množín údajov, aby ste predišli poškodeniu pôvodnej verzie množiny údajov, importovať knižnice a funkcie pomocou opakovateľných kódov a .

Pre tento blog vám odporúčam vždy získať súbor CSV a priniesť ho do LuckyTemplates. Ukážem tiež, ako môžeme priniesť tento súbor CSV a umiestniť ho priamo do LuckyTemplates, pre prípad, že by ste to museli urobiť.

Obsah

Načítavanie súboru CSV v LuckyTemplates

Ak chcete priniesť súbor CSV do LuckyTemplates, prvá vec, ktorú musíte urobiť, je kliknúť na ponuku „ Získať údaje “ na páse Domov .

Python Dataset: Použitie opakovateľných kódov

Po kliknutí sa zobrazí rozbaľovacia ponuka a z ponuky musíte vybrať možnosť „ Text/CSV “.

Python Dataset: Použitie opakovateľných kódov

Po výbere možnosti „ Text/CSV “ sa otvorí okno, kde môžeme vybrať súbor, ktorý chceme preniesť do LuckyTemplates. Pre tento príklad použijeme súbor IMDB Dataset

Python Dataset: Použitie opakovateľných kódov

Po otvorení súboru IMDB Dataset.csv uvidíte ďalšie okno, ktoré zobrazuje údaje v tomto súbore. Keďže tento súbor obsahuje veľké množstvo údajov, zobrazuje iba ukážku niektorých údajov.

Prvá vec, ktorú v tomto súbore urobíme, je jeho transformácia. Ak to chcete urobiť, stačí kliknúť na možnosť „ Transformovať údaje “ v pravej dolnej časti okna.

Python Dataset: Použitie opakovateľných kódov

Vytvorenie kópie súboru údajov Python

Pred vykonaním akýchkoľvek zmien v tomto súbore údajov je dôležité vytvoriť kópiu pôvodného súboru údajov. Ak to chcete urobiť, kliknite pravým tlačidlom myši na súbor údajov. 

Python Dataset: Použitie opakovateľných kódov

Potom z ponuky vyberte možnosť „ Kopírovať “.

Python Dataset: Použitie opakovateľných kódov

Nakoniec kliknite pravým tlačidlom myši na panel Dotazy a z možností vyberte možnosť „ Prilepiť “.

Python Dataset: Použitie opakovateľných kódov

Po použití týchto krokov by ste mali mať kópiu pôvodnej množiny údajov IMDB na paneli Dotazy .

Python Dataset: Použitie opakovateľných kódov

Transformácia množiny údajov spustením skriptu Python

Transformáciou súboru CSV budete môcť rozdeliť veľké množstvo množín údajov Pythonu na menšie. Môžeme to urobiť použitím nejakého skriptu Python v tomto súbore.

Najprv sa však musíme uistiť, že hlavičky sú správne zarovnané. Kliknite na ponuku Domov , vyhľadajte možnosť „ Použiť prvý riadok ako hlavičky “ a kliknite na ňu.

Python Dataset: Použitie opakovateľných kódov

Po kliknutí na možnosť „ Použiť prvý riadok ako hlavičky “ sa hlavičky teraz zmenili na údaje z predchádzajúcich prvých riadkov, ktorými sú „ recenzia “ a „ sentiment “.

Python Dataset: Použitie opakovateľných kódov

Ďalej prejdite do ponuky Transformácia a kliknite na možnosť „ Spustiť skript Python v skupine možností „ Skripty “.

Python Dataset: Použitie opakovateľných kódov

Potom sa zobrazí okno „ Spustiť skript Python “. V tomto okne môžete spustiť ľubovoľný skript Pythonu, aby ste transformovali aktuálny súbor, ktorý používate. V tomto príklade zmenším množinu údajov spustením nasledujúceho kódu.

Python Dataset: Použitie opakovateľných kódov

Použil som funkciu .iloc na množine údajov na výber konkrétnych riadkov a stĺpcov z množiny údajov IMDB. Potom som v parametroch vybral všetkých prvých 500 riadkov a všetky stĺpce v IMDB Dataset. Uložil som ho do premennej s názvom „ dataset “.

Po spustení skriptu by sme mali vidieť „množinu údajov“, čo je premenná, ktorú sme vytvorili v predchádzajúcom kroku. Obsahuje údaje, ktoré sme zmenili pomocou skriptu Python.

Python Dataset: Použitie opakovateľných kódov

Kontrola množiny údajov

Ak chcete otvoriť tabuľku množiny údajov , stačí kliknúť na „ Tabuľka v stĺpci Hodnota .

Python Dataset: Použitie opakovateľných kódov

Vidíme, že tento súbor údajov je teraz obmedzený na 500 riadkov .

Python Dataset: Použitie opakovateľných kódov

Teraz, keď sme rozdelili našu množinu údajov na 500 riadkov, ďalšia vec, ktorú urobíme, je import knižníc, ktoré potrebujeme. Urobíme to pomocou rovnakého postupu, aký sme urobili pri zmene obsahu množiny údajov IMDB. Je to preto, aby sme sa uistili, že náš kód možno v určitých scenároch spravovať s menším počtom úprav.

Import knižníc a funkcií pomocou opakovateľných kódov

Ak chcete importovať knižnice, vráťte sa do nášho poznámkového bloku a skopírujte knižnice, ktoré potrebujeme. Majte na pamäti, že pred týmto tutoriálom som už vytvoril tieto knižnice, ktoré sa chystáme skopírovať. Len ich znova používam, aby ste jasne získali predstavu o použití funkcií ako opakovateľných kódov.

Python Dataset: Použitie opakovateľných kódov

Po skopírovaní knižníc ich prilepte do okna „ Run Script “ a nezabudnite na koniec skriptu  zahrnúť riadok „ from collections import Counter “.

Python Dataset: Použitie opakovateľných kódov

Potom skopírujeme funkciu čistenia dát z nášho notebooku a pridáme ju do skriptu v LuckyTemplates.

Python Dataset: Použitie opakovateľných kódov

Pridáme ho pod knižnice. 

Python Dataset: Použitie opakovateľných kódov

Skopírujeme aj kód na volanie funkcie, ktorú sme práve pridali.

Python Dataset: Použitie opakovateľných kódov

Potom ho vložte do skriptu Python v LuckyTemplates.

Python Dataset: Použitie opakovateľných kódov

Generovanie údajových tabuliek

Teraz, keď sme pridali kód na volanie funkcie, musíme zmeniť „ df2 “ na „ dataset “ a „ title “ na „ review “. Urobili sme to kvôli zmenám, ktoré sme vykonali v množine údajov.

Zmenili sme „df2“ na „ dataset “, pretože sme uložili údaje s 500 riadkami v „dataset“. Potom sme pre „názov“ aktualizovali na „recenzia“ v dôsledku zmeny hlavičiek stĺpcov.

S týmito kódmi by sme mali byť schopní získať alebo vygenerovať 3 tabuľky, ktoré sú data1 pre frekvenciu slov, data2 pre frekvenciu biggramov a data3 pre frekvenciu trigramov.

Python Dataset: Použitie opakovateľných kódov

Môžete tiež vytvoriť ďalšiu kópiu tejto zmenenej množiny údajov IMDB (2), aby ste neskôr otvorili ďalšiu tabuľku.

Python Dataset: Použitie opakovateľných kódov

Teraz v súbore údajov IMDB (2) otvorme tabuľku data1

Python Dataset: Použitie opakovateľných kódov

 Po otvorení tabuľky data1 môžeme vidieť zoznam slov, ako aj frekvenciu.

Python Dataset: Použitie opakovateľných kódov

Ako vidíte, dokážeme vykonávať určité postupy z hlavného súboru údajov s použitím opakovateľných kódov, ktoré sme prevzali z notebooku Jupyter. S týmito opakovateľnými kódmi sme schopní transformovať množinu údajov Pythonu a vygenerovať tabuľku pre frekvenciu slov, frekvenciu bigramov a frekvenciu trigramov bez toho, aby sme kódy zadávali znova.

V súbore údajov IMDB (3) otvorme tabuľku data2 , aby sme videli frekvenciu bigramov.

Python Dataset: Použitie opakovateľných kódov

V tabuľke frekvencií bigramov môžete vidieť „ br “ zahrnuté v zozname. Toto je pravdepodobne spojené s kódom HTML. Môžeme sa jednoducho vrátiť a pridať niečo iné, ale v tomto návode to neurobíme.

Teraz, keď boli údaje načítané pomocou opakovateľných kódov, môžeme o nich začať vytvárať vizualizácie v LuckyTemplates. Napríklad a pre frekvenciu každého slova. 

Python Dataset: Použitie opakovateľných kódov




Záver

Aby som to zhrnul, opakovateľné kódy vám môžu pomôcť pri vykonávaní určitých postupov na množine údajov s menším úsilím. Naučili ste sa, ako používať opakovateľné kódy na transformáciu množiny údajov Pythonu v LuckyTemplates. Tiež ste mohli použiť funkciu .iloc na určenie riadkov a stĺpcov, ktoré sa majú vybrať pri zmene množiny údajov.

Okrem toho ste vytvorili kópie množín údajov a vytvorili vizualizáciu pomocou stĺpcového grafu. Táto vizualizácia je založená na súboroch údajov Python, ktoré sme vytvorili a upravili pomocou opakovateľných kódov.

Všetko najlepšie,

Gaellim


Vytvoření tabulky data v LuckyTemplates

Vytvoření tabulky data v LuckyTemplates

Zjistěte, proč je důležité mít vyhrazenou tabulku s daty v LuckyTemplates, a naučte se nejrychlejší a nejefektivnější způsob, jak toho dosáhnout.

LuckyTemplates Mobile Reporting Tipy a techniky

LuckyTemplates Mobile Reporting Tipy a techniky

Tento stručný návod zdůrazňuje funkci mobilního hlášení LuckyTemplates. Ukážu vám, jak můžete efektivně vytvářet přehledy pro mobily.

Profesionální servisní analytické zprávy v LuckyTemplates

Profesionální servisní analytické zprávy v LuckyTemplates

V této ukázce LuckyTemplates si projdeme sestavy ukazující profesionální analýzy služeb od firmy, která má více smluv a zákaznických vztahů.

Aktualizácie Microsoft Power Platform | Microsoft Ignite 2021

Aktualizácie Microsoft Power Platform | Microsoft Ignite 2021

Pozrite si kľúčové aktualizácie pre Power Apps a Power Automate a ich výhody a dôsledky pre platformu Microsoft Power Platform.

Bežné funkcie SQL: Prehľad

Bežné funkcie SQL: Prehľad

Objavte niektoré bežné funkcie SQL, ktoré môžeme použiť, ako napríklad reťazec, dátum a niektoré pokročilé funkcie na spracovanie alebo manipuláciu s údajmi.

Vytvoření šablony LuckyTemplates: Průvodce a tipy

Vytvoření šablony LuckyTemplates: Průvodce a tipy

V tomto tutoriálu se naučíte, jak vytvořit dokonalou šablonu LuckyTemplates, která je nakonfigurována podle vašich potřeb a preferencí.

Parametry pole a malé násobky v LuckyTemplates

Parametry pole a malé násobky v LuckyTemplates

V tomto blogu si ukážeme, jak vrstvit parametry pole s malými násobky, abychom vytvořili neuvěřitelně užitečné přehledy a vizuály.

LuckyTemplates Rank a vlastní seskupení

LuckyTemplates Rank a vlastní seskupení

V tomto blogu se dozvíte, jak používat funkce hodnocení LuckyTemplates a vlastní seskupování k segmentaci ukázkových dat a jejich seřazení podle kritérií.

Zobrazení kumulativního součtu pouze do určitého data v LuckyTemplates

Zobrazení kumulativního součtu pouze do určitého data v LuckyTemplates

V tomto tutoriálu se budu zabývat konkrétní technikou, jak zobrazit kumulativní součet pouze do určitého data ve vašich vizuálech v LuckyTemplates.

Bullet Charts: Pokročilé vlastní vizuální prvky pro LuckyTemplates

Bullet Charts: Pokročilé vlastní vizuální prvky pro LuckyTemplates

Naučte se vytvářet a přizpůsobovat Bullet grafy v LuckyTemplates, které se používají hlavně pro měření výkonu oproti cílovým nebo předchozím rokům.