Python-datasæt: Anvendelse af gentagelige koder

I denne blog lærer du, hvordan du anvender gentagelige koder eller funktioner til at producere den samme type output. Dette vil hjælpe dig med at være mere effektiv og anstrenge dig mindre for at hente bestemte data fra forskellige datasæt. I denne tutorial skal vi bruge en eksisterende kode, som jeg tidligere har oprettet som et eksempel.

Du vil også lære, hvordan du laver kopier af datasæt for at undgå at beskadige den originale version af datasættet, importere biblioteker og funktioner ved hjælp af gentagelige koder og .

Til denne blog anbefaler jeg dig at hente CSV- filen hele tiden og bringe den over til LuckyTemplates. Jeg vil også demonstrere, hvordan vi kan bringe denne CSV-fil og placere den direkte i LuckyTemplates, bare hvis du skulle gøre det.

Indholdsfortegnelse

Henter en CSV-fil i LuckyTemplates

For at bringe en CSV-fil til LuckyTemplates er den første ting du skal gøre at klikke på menuen " Hent data " på båndet Hjem .

Python-datasæt: Anvendelse af gentagelige koder

Når du har klikket, vises en rullemenu, og du skal vælge " Tekst/CSV "-indstillingen fra menuen.

Python-datasæt: Anvendelse af gentagelige koder

Når du har valgt " Tekst/CSV "-indstillingen, åbnes et vindue, hvor vi kan vælge den fil, som vi vil have med i LuckyTemplates. Til dette eksempel, lad os bruge IMDB Dataset- filen. 

Python-datasæt: Anvendelse af gentagelige koder

Når du åbner filen IMDB Dataset.csv , vil du se et andet vindue, der viser dataene i filen. Da denne fil indeholder en stor mængde data, viser den kun nogle af dataene.

Den første ting, vi skal gøre i denne fil, er at transformere den. For at gøre det skal du blot klikke på " Transform Data "-indstillingen nederst til højre i vinduet.

Python-datasæt: Anvendelse af gentagelige koder

At lave en kopi af Python-datasættet

Før vi foretager ændringer i dette datasæt, er det vigtigt at lave en kopi af det originale datasæt. For at gøre dette skal du blot højreklikke på datasættet. 

Python-datasæt: Anvendelse af gentagelige koder

Vælg derefter " Kopier " fra menuen .

Python-datasæt: Anvendelse af gentagelige koder

Til sidst skal du højreklikke på panelet Forespørgsler og derefter vælge " Sæt ind " fra indstillingerne.

Python-datasæt: Anvendelse af gentagelige koder

Når du har anvendt disse trin, skal du have en kopi af det originale IMDB-datasæt i panelet Forespørgsler .

Python-datasæt: Anvendelse af gentagelige koder

Transformation af et datasæt ved at køre et Python-script

Ved at transformere en CSV-fil vil du være i stand til at opdele store mængder af Python-datasæt til mindre. Vi kan gøre det ved at anvende noget Python-script i denne fil.

Men først skal vi sikre os, at overskrifterne er korrekt linet op. Klik på startmenuen , se derefter efter indstillingen " Brug første række som overskrifter ", og klik på den.

Python-datasæt: Anvendelse af gentagelige koder

Efter at have klikket på indstillingen " Brug første række som overskrifter ", ændres overskrifterne nu til dataene fra de foregående første rækker, som er " gennemgang " og " sentiment ".

Python-datasæt: Anvendelse af gentagelige koder

Gå derefter til Transform- menuen og klik på " Kør Python Script " -indstillingen i " Scripts "-gruppen af ​​muligheder.

Python-datasæt: Anvendelse af gentagelige koder

Derefter vil et " Kør Python Script " vindue dukke op. I dette vindue kan du køre et hvilket som helst Python-script, du ønsker, for at transformere den aktuelle fil, du bruger. For dette eksempel vil jeg gøre datasættet mindre ved at køre følgende kode.

Python-datasæt: Anvendelse af gentagelige koder

Jeg brugte .iloc- funktionen på datasættet til at vælge de specifikke rækker og kolonner fra IMDB-datasættet. Derefter valgte jeg i parametrene alle de første 500 rækker og alle kolonner i IMDB-datasættet. Jeg gemte det i en variabel ved navn " datasæt ".

Efter at have udført scriptet, skulle vi se "datasættet", som er den variabel, vi har oprettet i det forrige trin. Den indeholder de data, vi har ændret ved hjælp af Python-scriptet.

Python-datasæt: Anvendelse af gentagelige koder

Kontrol af datasættet

For at åbne datasættabellen skal du blot klikke på " Tabel " under værdikolonnen .

Python-datasæt: Anvendelse af gentagelige koder

Vi kan se, at dette datasæt nu er nede på 500 rækker .

Python-datasæt: Anvendelse af gentagelige koder

Nu hvor vi har opdelt vores datasæt i 500 rækker, er den næste ting, vi skal gøre, at importere de biblioteker, vi har brug for. Vi vil gøre det ved at bruge den samme procedure, som vi gjorde ved at ændre indholdet af IMDB Dataset. Dette er for at sikre, at vores kode kan håndteres i visse scenarier med færre ændringer.

Import af biblioteker og funktioner ved hjælp af gentagelige koder

For at importere bibliotekerne, lad os gå tilbage til vores notesbog og kopiere de biblioteker, vi har brug for. Husk, at forud for denne øvelse har jeg allerede oprettet disse biblioteker, vi er ved at kopiere. Jeg genbruger bare disse, så du tydeligt kan få ideen om brugen af ​​funktioner som gentagelige koder.

Python-datasæt: Anvendelse af gentagelige koder

Når bibliotekerne er kopieret, indsæt dem i " Kør script " vinduet, og glem ikke at inkludere linjen " fra samlinger importtæller " i slutningen af ​​scriptet. 

Python-datasæt: Anvendelse af gentagelige koder

Derefter kopierer vi datarensningsfunktionen fra vores notesbog og tilføjer den til scriptet i LuckyTemplates.

Python-datasæt: Anvendelse af gentagelige koder

Vi tilføjer det under bibliotekerne. 

Python-datasæt: Anvendelse af gentagelige koder

Vi kopierer også koden til at kalde den funktion, vi lige har tilføjet.

Python-datasæt: Anvendelse af gentagelige koder

Indsæt det derefter i Python-scriptet i LuckyTemplates.

Python-datasæt: Anvendelse af gentagelige koder

Generering af datatabeller

Nu hvor vi har tilføjet koden til at kalde funktionen, skal vi ændre " df2 " til " dataset " og " titlen " til " review ". Vi gjorde dette på grund af de ændringer, vi har foretaget i datasættet.

Vi ændrede "df2" til " datasæt ", fordi vi gemte dataene med 500 rækker i "datasæt". Så for "titel" opdaterede vi den til "gennemgang" som et resultat af ændring af kolonneoverskrifterne.

Med disse koder tilføjet burde vi være i stand til at få eller generere 3 tabeller, som er data1 for ordfrekvens, data2 for bigramfrekvens og data3 for trigramfrekvens.

Python-datasæt: Anvendelse af gentagelige koder

Du kan også lave en anden kopi af dette ændrede IMDB-datasæt (2) for at åbne en anden tabel senere.

Python-datasæt: Anvendelse af gentagelige koder

Lad os nu i IMDB Dataset (2) åbne tabellen data1

Python-datasæt: Anvendelse af gentagelige koder

 Når data1-tabellen er åbnet, kan vi se listen over ord samt frekvensen.

Python-datasæt: Anvendelse af gentagelige koder

Som du kan se, er vi i stand til at udføre visse procedurer fra hoveddatasættet med brug af gentagelige koder, som vi tog fra Jupyter Notebook. Med disse repeterbare koder er vi i stand til at transformere et Python-datasæt og generere en tabel for ordfrekvens, bigramfrekvens og trigramfrekvens uden at indtaste koderne igen.

I IMDB Dataset (3) , lad os åbne data2-tabellen for at se bigram-frekvensen.

Python-datasæt: Anvendelse af gentagelige koder

I bigram-frekvenstabellen kan du se " br " inkluderet i listen. Dette er sandsynligvis forbundet med en HTML-kode. Vi kan simpelthen gå tilbage og tilføje noget andet, men det vil vi ikke gøre i denne tutorial.

Nu hvor dataene er blevet indlæst ved hjælp af de gentagelige koder, kan vi begynde at lave visualiseringer om det i LuckyTemplates. For eksempel a for frekvensen af ​​hvert ord. 

Python-datasæt: Anvendelse af gentagelige koder




Konklusion

For at opsummere kan gentagelige koder hjælpe dig med at udføre visse procedurer på et datasæt med mindre indsats. Du har lært, hvordan du bruger gentagelige koder til at transformere et Python-datasæt i LuckyTemplates. Du var også i stand til at bruge .iloc -funktionen til at angive de rækker og kolonner, der skal vælges ved ændring af et datasæt.

Derudover har du lavet kopier af datasæt og lavet en visualisering ved hjælp af et søjlediagram. Denne visualisering er baseret på de Python-datasæt, som vi har oprettet og ændret ved hjælp af gentagelige koder.

Alt det bedste,

Gaellim


Hvad er Power Query & M Language: En detaljeret oversigt

Hvad er Power Query & M Language: En detaljeret oversigt

Denne vejledning giver et overblik over Power Query Editor og M-sproget inde på LuckyTemplates-skrivebordet.

Opret en sideinddelt rapport: Tilføjelse af tekster og billeder

Opret en sideinddelt rapport: Tilføjelse af tekster og billeder

Lær, hvordan du opretter en sideinddelt rapport, tilføjer tekster og billeder og derefter eksporterer din rapport til forskellige dokumentformater.

SharePoint Automate-funktionen | En introduktion

SharePoint Automate-funktionen | En introduktion

Lær, hvordan du bruger SharePoint-automatiseringsfunktionen til at skabe arbejdsgange og hjælpe dig med at mikrostyre SharePoint-brugere, -biblioteker og -lister.

Løs en dataanalyseudfordring med LuckyTemplates Accelerator

Løs en dataanalyseudfordring med LuckyTemplates Accelerator

Udvid dine rapportudviklingsevner ved at deltage i en dataanalyseudfordring. Acceleratoren kan hjælpe dig med at blive LuckyTemplates-superbruger!

Løbende totaler i LuckyTemplates ved hjælp af DAX

Løbende totaler i LuckyTemplates ved hjælp af DAX

Lær, hvordan du beregner løbende totaler i LuckyTemplates ved hjælp af DAX. Løbende totaler giver dig mulighed for ikke at blive fanget af et individuelt resultat.

LuckyTemplates Dax-variabler er konstante: Hvad betyder det?

LuckyTemplates Dax-variabler er konstante: Hvad betyder det?

Forstå konceptet med variabler i DAX i LuckyTemplates og betydningen af ​​variabler for, hvordan dine mål beregnes.

LuckyTemplates hældningsdiagram: en oversigt

LuckyTemplates hældningsdiagram: en oversigt

Lær mere om det brugerdefinerede visuelle kaldet LuckyTemplates Slope-diagrammet, som bruges til at vise stigning/fald for en enkelt eller flere metrics.

LuckyTemplates farvetemaer til ensartede visualiseringer

LuckyTemplates farvetemaer til ensartede visualiseringer

Opdag farvetemaerne i LuckyTemplates. Disse er afgørende for, at dine rapporter og visualiseringer kan se ud og fungere problemfrit.

Beregning af gennemsnit i LuckyTemplates: Isolering af resultater på ugedage eller weekender ved hjælp af DAX

Beregning af gennemsnit i LuckyTemplates: Isolering af resultater på ugedage eller weekender ved hjælp af DAX

Beregning af et gennemsnit i LuckyTemplates kan gøres på mange måder for at give dig præcise oplysninger til dine virksomhedsrapporter.

LuckyTemplates tema | LuckyTemplates Desktop Standard Theming

LuckyTemplates tema | LuckyTemplates Desktop Standard Theming

Lad os dykke ned i Standard LuckyTemplates-temaer og gennemgå nogle af de funktioner, der er indbygget i selve LuckyTemplates Desktop-applikationen.