Python-korrelation: Vejledning til at skabe visuals

I dagens blog vil vi gennemgå processen med at visualisere korrelation, og hvordan man importerer disse visuals til LuckyTemplates. Du kan se den fulde video af denne tutorial nederst på denne blog.

Indholdsfortegnelse

Forståelse af sammenhænge

Her er et flot billede, der viser de forskellige typer af sammenhænge. 

Python-korrelation: Vejledning til at skabe visuals

Startende fra venstre har vi den perfekte positive korrelation , hvilket betyder, at den har en korrelationsværdi på 1. Derefter efterfølges den af ​​positive korrelationer i faldende rækkefølge, der fører til 0. 

Den midterste graf viser ingen korrelation , der tyder på en korrelationsværdi lig med 0. 

Endelig viser højre side faldende negative korrelationsværdier fra 0. Grafen længst til højre er den perfekte negative korrelation , som har en korrelationsværdi på -1.

Pakker til Python-korrelation

Vi vil bruge fire pakker til denne øvelse. Vores første pakke er Pandaer , der skal bruges til datamanipulation og gemmes som variabel pd

Til visualisering vil vi bruge Matplotlib , gemt som plt- variabel for lettere brug af disse funktioner. Seaborn , vores statistiske visualiseringsbibliotek, vil blive gemt som sns . Og til sidst vil Numpy , der skal gemmes som np , blive brugt til lineær algebra. 

Python-korrelation: Vejledning til at skabe visuals

Til dataene vil vi bruge et eksempeldatasæt i Seaborn. Ved at bruge sns-variablen vil vi bringe diamantdatasættet ind som vist nedenfor. .

Python-korrelation: Vejledning til at skabe visuals

Dataens attributter

Vi kan se attributterne for vores data ved hjælp af dataset.info-funktionen . Denne funktion viser os alle de forskellige datatyper som ses i den sidste kolonne nedenfor.

Python-korrelation: Vejledning til at skabe visuals

Bemærk, at korrelation kun virker på numeriske variable, så vi kommer til at se på de numeriske variable det meste af tiden. Vi vil dog også lære at bruge nogle af de kategoriske variabler til visualisering. 

Python-korrelationsdatasættet

Ved at bruge funktionshovedet skrevet som dataset.head , kan vi få de fem øverste rækker af vores data, som skulle se sådan ud.

Python-korrelation: Vejledning til at skabe visuals

Vi har karat i den første kolonne, efterfulgt af de kategoriske variable cut , color og clarity , og derefter numeriske værdier for resten af ​​dataene. 

Python-korrelation: Oprettelse af et scatter-plot

Når vi visualiserer korrelationer og ser på to variable, ser vi normalt på . 

Ved hjælp af Seaborn-biblioteket har vi således oprettet vores scatter-plot ved hjælp af scatter-plot-funktionen, hvor vi sendte de data ind, vi gemte ovenfor som data=datasæt . Derefter identificerede vi X- og Y-variablerne - henholdsvis karat og pris

Python-korrelation: Vejledning til at skabe visuals

Her er vores scatter plot lavet med Seaborn-biblioteket. 

Python-korrelation: Vejledning til at skabe visuals

Du kan se, at dette scatter plot er ret tæt. Det skyldes, at vi har omkring 54.000 rækker af data, og punkterne er ikke nødvendigvis repræsenteret på den bedste måde.

Vi kan trykke på Shift + Tab-tasterne for at se de forskellige måder at style spredningsplottet på. Det vil vise os en liste over forskellige parametre, som vi kan tilføje til vores scatter plot. 

Python-korrelation: Vejledning til at skabe visuals

Hvis du ruller længere ned, får vi information om, hvad hver enkelt af de anførte parametre gør. 

Python-korrelation: Vejledning til at skabe visuals

Yderligere scatter-plot-parametre

Lad os dykke lidt ned. Vi kan lave linewidth=0 , fordi de hvide linjer i vores første scatterplot, vist nedenfor, er noget uklare ting. 

Python-korrelation: Vejledning til at skabe visuals

Vi ønsker også at justere alfa, så vi kan styre opaciteten. Lad os bruge alpha=0.2 til vores eksempel. Men du kan selvfølgelig også ændre det til 0,1. 

Python-korrelation: Vejledning til at skabe visuals

Hvis vi tilføjer disse parametre og klikker på Kør , kan du se vores scatterplot bliver mere uigennemsigtigt uden de hvide linjer. 

Python-korrelation: Vejledning til at skabe visuals

Du kan lege med parametrene for at få det bedste visuelle, du leder efter. 

Brug af de kategoriske variabler

Vi kan også bruge nogle af vores kategoriske variabler til at forbedre vores billeder. For eksempel ved vi, at vores data har et snit for vores diamant. 

Det, vi kan gøre, er at gå ind i den snitkategori ved at bruge hue- parameteren som hue='cut'. Dette vil give os mulighed for at visualisere disse punkter ved at ændre farverne. 

Python-korrelation: Vejledning til at skabe visuals

Selvfølgelig kan vi tilføje flere parametre som f.eks. alfa. Vi kan tilføje det igen, indstille til 0,2 og se, hvordan det ændrer det visuelle. Lad os klikke på Kør , og du kan se en lille smule forskel. 

Python-korrelation: Vejledning til at skabe visuals

Vi kan lege med parametrene for at få det visuelle, vi leder efter. Vi kan også bruge forskellige kategorier såsom klarhed, hvilket giver os klarhedskategorierne og også giver os et lidt anderledes syn på den spredning.

Python-korrelation: Vejledning til at skabe visuals

Korrelation med andre variabler

Du kan også være interesseret i, hvordan andre værdier er korreleret bortset fra pris og karat. Så hvis vi ser på et spredningsplot for tabel , som er den numeriske dimension af den diamant og  dybden , kan vi se, at der ikke er nogen en-til-en lineær sammenhæng.

Python-korrelation: Vejledning til at skabe visuals

Vi kan også se på to andre variabler såsom dybde og pris . Ud fra grafen kan vi se, at dataene centreres omkring det midterste område.

Python-korrelation: Vejledning til at skabe visuals

Python-korrelation: Oprettelse af et regressionsplot

Lad os gå videre til det, vi kalder et regressionsplot, der giver os mulighed for at evaluere den lineære sammenhæng mellem to variable. 

Så i stedet for scatter plot-funktionen, vil vi bruge regplot- funktionen denne gang. Vi vil passere i den samme struktur - vores data derefter X- og Y-variablerne. 

Python-korrelation: Vejledning til at skabe visuals

Resultatet viser en linje, som måler den lineære sammenhæng mellem variablerne. Det er også tydeligt, hvordan vores værdier kredser omkring denne regressionslinje.

Python-korrelation: Vejledning til at skabe visuals

Dette er ikke et særlig smukt billede i øjeblikket, men vi kan stadig optimere det for at få et bedre. For eksempel kan vi sende i en stil ved hjælp af Matplotlib-variablen. Vi kan ændre stilen til mørk baggrund ved at bruge koden plt.style.use('dark_background'). 

Python-korrelation: Vejledning til at skabe visuals

Tag det samme regressionsplot og indtast nogle nøgleord for vores spredning og linje. Lad os bruge rød farve og en linjebredde på 1 til vores regressionslinje. Dette skrives som line_kws={“color” : “red”, 'linewidth' : 1). 

For vores scatter-søgeord, lad os indstille farven som hvid, kantfarve som grå og opaciteten til 0,4 for at blive skrevet som scatter_kws={“color” : “white”, 'edgecolor' : 'grey', 'alpha' : 0.4 ). 

Python-korrelation: Vejledning til at skabe visuals

Disse parametre giver os en lille smule anderledes visning vist nedenfor. 

Python-korrelation: Vejledning til at skabe visuals

Python-korrelation: Oprettelse af en korrelationsmatrix

Indtil videre er det, vi har kigget på, spredningsplot med kun to variable, men vi vil måske også se på alle vores variable korrelationer.

Dette udføres ved hjælp af vores datasæt med en datarammefunktion kaldet korrelation repræsenteret som dataset.corr. Og det, vi får, er en matrix, der viser os korrelationer på hver enkelt af disse variable. 

Python-korrelation: Vejledning til at skabe visuals

Tallene i tabellen ovenfor repræsenterer Pearson-korrelationen , som fokuserer på det lineære forhold mellem alle disse variable. 

Men hvis vi ikke er sikre på, om vores variabler er fuldt lineært korrelerede, kan vi bruge en anden type korrelation, som fokuserer mere på påvirkning end den lineære del. Det kaldes en Spearman-korrelation

Python-korrelation: Vejledning til at skabe visuals

Og vi kan se information om alle disse ting ved at trykke på Shift + Tab. Hvis du ruller ned, kan vi se Spearman-rangkorrelationen, Pearson-korrelationskoefficienten og en hel del forskellige måder at måle vores data på. 

Python-korrelation: Vejledning til at skabe visuals

Når vi ser tilbage på vores korrelationsmatrix tidligere, ved vi, at pris og karat er ret godt korrelerede.

Python-korrelation: Vejledning til at skabe visuals

De er fra vores plot her og viser, at de er ret lineære ved 0,92. 

Python-korrelation: Vejledning til at skabe visuals

Hvis vi nu bruger Spearman-korrelationen i stedet, vil virkningen eller rangeringen være en lille smule højere ved 0,96.

Python-korrelation: Vejledning til at skabe visuals

Disse forskellige typer af korrelationer giver os mulighed for at opfange forskellige attributter for korrelation mellem disse variable. 

Multiple x Single Variable Korrelation

Nogle gange ønsker vi ikke at se a, fordi vi er mere bekymrede over korrelationen af ​​alle variabler med én variabel alene (f.eks. pris).

Det, vi så kan gøre, er at isolere pris ved hjælp af dataset.corr efterfulgt af 'pris'

Python-korrelation: Vejledning til at skabe visuals

Nu kan vi se, at prisen er korreleret med alle vores forskellige numeriske variable i denne tabel. Og grunden til, at vi måske ønsker at gøre dette, er for visuelle plots. 

Så lad os se på at visualisere vores korrelationsmatrix med et varmekort.

Python-korrelation: Oprettelse af et varmekort

Vi kan overføre denne korrelationsvariabel til en Seaborn ved hjælp af funktionen sns.heatmap.

Python-korrelation: Vejledning til at skabe visuals

Dette vil give os et varmekort, der ser sådan ud.

Python-korrelation: Vejledning til at skabe visuals

Igen kan vi tilføje parametre til vores præference. Vi kan indsætte parameteren linewidths=1 og tilføje annoteringer ved hjælp af annot=True

Python-korrelation: Vejledning til at skabe visuals

Og du kan se, at vores varmekort nu ser ganske anderledes ud. Lige nu har vi et ret flot varmekort. 

Python-korrelation: Vejledning til at skabe visuals

Vi kan se nytten af ​​at tilføje linjerne og annoteringerne. Igen, hvis vi trykker på Shift + Tab, vil alle de forskellige parametre, der kan gå ind, dukke op. 

Prøv derefter at tilføje method='spearman ' i vores kode, så du ved, hvordan du bruger en anden type korrelation afhængigt af din brugssituation. 

Python-korrelation: Vejledning til at skabe visuals

Varmekort med én variabel

Dernæst isolerer vi en variabel og laver et varmekort, hvor korrelationen går fra negativ til positiv.

Python-korrelation: Vejledning til at skabe visuals

Dette vil give os dette varmekort nedenfor.

Python-korrelation: Vejledning til at skabe visuals

Vi kan helt sikkert også ændre stylingen. For eksempel kan vi bruge cmap- parameteren som cmap='coolwarm' . Dette ændrer farverne til kølige og varme, og vil også fjerne vores sorte baggrund. 

Python-korrelation: Vejledning til at skabe visuals

Hvis vi klikker på Kør , får vi dette varmekort nedenfor. For køligt har vi de blå og så for varme har vi de røde søjler. 

Python-korrelation: Vejledning til at skabe visuals

Vi kan også ændre retningen for at justere vores kort med farvelinjen. Dette gøres ved at redigere vores sort_values ​​parameter og tilføje ascending=False

Python-korrelation: Vejledning til at skabe visuals

Dette vil gå fra den mest korrelerede (den røde bjælke) til den mindst korrelerede (den blå bjælke). 

Python-korrelation: Vejledning til at skabe visuals

Python-korrelation: Oprettelse af en trappevisual

En avanceret måde at visualisere vores korrelation på er ved at bruge en maske til at blokere alle de korrelationer, vi allerede har gjort. 

Vi kan gøre dette med Numpy ved at bruge nogle TRUE og FALSE funktioner til at gøre en trappe visuel for vores korrelationer. 

Python-korrelation: Vejledning til at skabe visuals

Sådan skal resultaterne se ud.

Python-korrelation: Vejledning til at skabe visuals

Lad os se, hvordan vi kan overføre dette til LuckyTemplates.

Trappevisuel i LuckyTemplates

Åbn først LuckyTemplates. Jeg har bragt et avocado-datasæt, så vi kan se et andet billede. Du kan se dette datasæt under ruden Felter. Initialiser det visuelle ved at klikke på Python-ikonet under ruden Visualiseringer. 

Python-korrelation: Vejledning til at skabe visuals

Vi skal oprette datasættet ved at tilføje alle de numeriske variabler, der er angivet med ? . Tilføj dem ved at klikke på afkrydsningsfelterne ud for disse variabler. 

Python-korrelation: Vejledning til at skabe visuals

Nu hvor vi har et datasæt, kan vi gå over til vores Jupyter-notesbog og kopiere denne kode, vi havde tidligere.

Python-korrelation: Vejledning til at skabe visuals

Derefter kopierer vi koden til Python-scripteditoren i LuckyTemplates. 

Python-korrelation: Vejledning til at skabe visuals

Dernæst vil vi vælge vores visuelle, som ville være trappevisualen. Vi går tilbage til Jupyter, kopierer koden, som vi brugte til vores trappevisual.

Python-korrelation: Vejledning til at skabe visuals

Indsæt koden i Python-scripteditoren.

Python-korrelation: Vejledning til at skabe visuals

Den sidste ting at gøre er at sikre, at vi bruger plt.show , som er påkrævet i dit Python-script. Tilføj plt.show i den sidste linje i koden, og klik på Kør-ikonet i øverste højre hjørne af script-editoren.

Python-korrelation: Vejledning til at skabe visuals

For et større billede, stræk boksen lidt, så vi kan se scriptet køre i hjørnet. Vi har vores visual til vores varmekort, som ser ret flot ud.

Python-korrelation: Vejledning til at skabe visuals

Og i LuckyTemplates kan vi helt sikkert se, hvordan det visuelle billede kan ændre sig i henhold til datasættet. For eksempel kan vi klikke på Slicer- ikonet i ruden Visualiseringer og gå til Indtast i ruden Felter. 

Det vil give os de to typer i vores datasæt, den konventionelle og den økologiske . Hvis vi klikker på én type, siger organisk , kan du se, at varmekortet ændrer sig. 

Python-korrelation: Vejledning til at skabe visuals

Ændringer vil også gælde, når vi klikker på den konventionelle type næste gang.

Python-korrelation: Vejledning til at skabe visuals

Husk, at vi skal have en kategorisk variabel i vores scripts datasæt for at få disse filtre til at fungere. Som vi kan se, inkluderede det datasæt, vi oprettede, typen , hvilket gør det muligt for os at filtrere det visuelle på den måde. 

Python-korrelation: Vejledning til at skabe visuals




Konklusion

I denne blog lærte du, hvordan du visualiserer korrelationer i Python og LuckyTemplates ved hjælp af forskellige metoder såsom Pearson-korrelation og Spearman-rangkorrelation. 

Nu kan du oprette scatterplot, regressionsplot, korrelationsmatrix, varmekort og trappevisuals for at få det bedste visuelle til dit datasæt. Du kan også bruge en række parametre til at forbedre stilarterne og det visuelle. 

Alt det bedste,


Pipe In R: Tilslutningsfunktioner med Dplyr

Pipe In R: Tilslutningsfunktioner med Dplyr

I denne øvelse lærer du, hvordan du kæder funktioner sammen ved hjælp af dplyr-røroperatoren i programmeringssproget R.

RANKX Deep Dive: A Lucky Templates DAX-funktion

RANKX Deep Dive: A Lucky Templates DAX-funktion

RANKX fra LuckyTemplates giver dig mulighed for at returnere rangeringen af ​​et specifikt tal i hver tabelrække, der udgør en del af en liste over tal.

Udpakning af LuckyTemplates-temaer og -billeder fra PBIX

Udpakning af LuckyTemplates-temaer og -billeder fra PBIX

Lær, hvordan du adskiller en PBIX-fil for at udtrække LuckyTemplates-temaer og -billeder fra baggrunden og bruge den til at oprette din rapport!

Excel Formler Snydeark: Mellemvejledning

Excel Formler Snydeark: Mellemvejledning

Excel Formler Snydeark: Mellemvejledning

LuckyTemplates kalendertabel: Hvad er det, og hvordan man bruger det

LuckyTemplates kalendertabel: Hvad er det, og hvordan man bruger det

LuckyTemplates kalendertabel: Hvad er det, og hvordan man bruger det

Python i LuckyTemplates: Sådan installeres og konfigureres

Python i LuckyTemplates: Sådan installeres og konfigureres

Lær, hvordan du installerer programmeringssproget Python i LuckyTemplates, og hvordan du bruger dets værktøjer til at skrive koder og vise billeder.

Beregning af dynamiske fortjenestemargener – nem analyse af LuckyTemplates med DAX

Beregning af dynamiske fortjenestemargener – nem analyse af LuckyTemplates med DAX

Lær, hvordan du beregner dynamiske fortjenstmargener ved siden af ​​LuckyTemplates, og hvordan du kan få mere indsigt ved at grave dybere ned i resultaterne.

Sortering af datotabelkolonner i LuckyTemplates

Sortering af datotabelkolonner i LuckyTemplates

Lær, hvordan du sorterer felterne fra kolonner med udvidet datotabel korrekt. Dette er en god strategi at gøre for vanskelige felter.

Find dine topprodukter for hver region i LuckyTemplates ved hjælp af DAX

Find dine topprodukter for hver region i LuckyTemplates ved hjælp af DAX

I denne artikel gennemgår jeg, hvordan du kan finde dine topprodukter pr. region ved hjælp af DAX-beregninger i LuckyTemplates, herunder funktionerne TOPN og CALCUATE.

Junk Dimension: Hvad er det, og hvorfor det er alt andet end junk

Junk Dimension: Hvad er det, og hvorfor det er alt andet end junk

Lær, hvordan du bruger en uønsket dimension til flag med lav kardinalitet, som du ønsker at inkorporere i din datamodel på en effektiv måde.