Tekstanalyse ved hjælp af Python: Sådan identificeres dele af tale

I denne blog vil vi vise dig, hvordan du bruger Python til at identificere dele af tale i tekstdata i LuckyTemplates. Vi vil dække trinene til brug af Python til tekstanalyse og give eksempler og tips til at hjælpe dig i gang med dine egne tekstanalyseprojekter. Du kan se den fulde video af denne tutorial nederst på denne blog.

Indholdsfortegnelse

Kildedata

I denne vejledning vil vi bruge en out-of-the-box ordsky, der indeholder de tekster, som vi vil evaluere. Dette er vist i venstre side af billedet nedenfor. På højre side har vi filtrene til at identificere de forskellige dele af talen, for eksempel adjektiver eller verber. 

Tekstanalyse ved hjælp af Python: Sådan identificeres dele af tale

Vi kan frafiltrere ord, der er adverbier, substantiver, forskellige typer af substantiver eller verber og verbgrunde. Dette er meget nyttigt, når du laver en marketingkampagne og leder efter ord i dine kundeanmeldelser. 

Lad os starte med at åbne vores editor. 

I vores kildedata har vi kolonner for ID'er, alder, titel og anmeldelsestekst. Vi vil fokusere på kolonnen Review Text , og vi vil analysere den for at udføre vores tekstanalyse. Der er også andre kategorier, som kan være nyttige i vores analyse.

Tekstanalyse ved hjælp af Python: Sådan identificeres dele af tale

Tekstanalyse ved hjælp af Python

Lad os starte med de normale data, som vi bragte ind. Det første, vi skal gøre, er at filtrere rækkerne, fordi vi har mange data, og når vi laver tekstanalyse, tager det tid. 

For at filtrere vores data skal du tage de første 50 rækker for at gøre tekstanalysen en smule hurtigere. 

Tekstanalyse ved hjælp af Python: Sådan identificeres dele af tale

Når du er filtreret ud, skal du gå til Transformer og kør script. Vi vil kode alt herinde, fordi der ikke er meget kode. 

Tekstanalyse ved hjælp af Python: Sådan identificeres dele af tale

Import af pakkerne

Lad os bringe to pakker ind til vores Python-tekstanalyse ved hjælp af vores editor. Vi vil "importere pandaer som pd" , vores datamanipulationsbibliotek, der skal gemmes som variabel pd. Og så " fra tekstblob " vil vi " importere TextBlob " med et stort mellem ordene. 

Vi kan altid dokumentere, hvad vi laver, ved at sætte en dokumentstreng. Lad os skrive #bring de væsentlige biblioteker oven på vores pakker.

Tekstanalyse ved hjælp af Python: Sådan identificeres dele af tale

Omdøbning af variablen

I den første linje i vores script er der denne linje leveret af LuckyTemplates, der siger, at # 'dataset' indeholder inputdataene for dette script. Denne linje siger, at vores data kaldes et datasæt. 

Så lad os ændre det, fordi det tager for lang tid at skrive "datasæt". Indtast #change datasætvariablen og df = datasæt i næste linje.

Tekstanalyse ved hjælp af Python: Sådan identificeres dele af tale

Nu er det kortere at skrive vores variabel. 

laver tekstanalysen

Lad os fortsætte med vores tekstanalyse. Husk, at vores anmeldelsestekster er i en kolonne med individuelle celler. Denne opsætning er ikke rigtig nyttig for os, fordi vi vil have alle teksterne samlet, så vi kan udføre en analyse på den. 

Vi ønsker dog ikke, at de skal samles uden et mellemrum, så lad os starte vores kode med et mellemrum inden for et dobbelt anførselstegn .  

Lad os derefter tilføje .join og isolere vores gennemgangstekstkolonne ved at bruge vores df- variabel, som indeholder datasættet. Skriv 'Review Text' placeret inden for en parentesnotation, som isolerer kolonnen. 

Denne kode vil forbinde alt, men vi skal gemme den, så lad os oprette en variabel kaldet ord.

Tekstanalyse ved hjælp af Python: Sådan identificeres dele af tale

Når vi har alle ordene samlet, kan vi bruge vores tekstklat til at begynde at analysere ordene. 

Den første ting at gøre er at oprette vores dele af tale ved hjælp af klatvariablen , som vi skal bruge for at videregive ord til en tekstklat. Vi kommer til at bruge den tekstklat og pass i teksten, som er vores ord . Dette skrives som blob = TextBlob(ord).

Nu hvor vi har den klat, tager vi den og skaber vores parts_of_speech -variabel ved hjælp af blob.tags . Mærkerne vil være forkortelserne for hver enkelt taleled. 

Det, vi skal gøre herefter, er at gemme dette som en dataramme ved hjælp af pandaer , som vi bragte ind. Lad os kalde det vores data , som er lig med pd.DataFrame , og vi bringer vores parts_of_speech ind . 

Tekstanalyse ved hjælp af Python: Sådan identificeres dele af tale

Lad os klikke på OK for at køre vores kode. Efter at have kørt vores kode, skulle vi få en tabel over vores variabler. Vi har datasættet eller vores originale data. Vi har også vores data og df

Tekstanalyse ved hjælp af Python: Sådan identificeres dele af tale

Hvis du ikke fik de tilsigtede resultater, viser vi dig de forskellige måder at undgå nogle fejl, som du kan få i koden.

Rettelse af koden til tekstanalyse i Python

Nogle gange kan vi være nødt til at være meget eksplicitte i at ændre formatet på den tekst, vi er bekymrede for. 

Det kan vi gøre ved at kalde vores df -variabel, isolere 'Review Text ' placeret i en parentesnotation og derefter ændre typen til strenge ved hjælp af .astype('str') . Så skal du bare gemme dette i df- variablen igen. 

Tekstanalyse ved hjælp af Python: Sådan identificeres dele af tale

Klik på OK for at køre koden igen. Vi burde få de samme resultater, som vi fik tidligere.

Nu vil vi åbne vores data , den sidste variabel, vi bragte ind for at se, hvordan det ser ud. 

Tekstanalyse ved hjælp af Python: Sådan identificeres dele af tale

Vi bør have alle vores ord opdelt efter dele af tale. Vi har ikke navngivet vores kolonner endnu, men det kan vi sagtens gøre. 

Tekstanalyse ved hjælp af Python: Sådan identificeres dele af tale

I den gamle version af denne samme tekstanalyse kaldte jeg den første kolonne som Word og den anden som forkortelse

Tekstanalyse ved hjælp af Python: Sådan identificeres dele af tale

I Parts of Speech- forespørgslen henter vi de faktiske ord, der er til disse forkortelser, og forbinder dem alle sammen.

Tekstanalyse ved hjælp af Python: Sådan identificeres dele af tale

Lad os nu lukke og ansøge

Tekstanalyse ved hjælp af Python: Sådan identificeres dele af tale

De trin, vi gjorde, tillod os at filtrere gennem de forskellige dele af tale, som vi identificerede ved hjælp af en simpel kode. Det giver os dette visuelle billede i LuckyTemplates, hvor vi nemt kan filtrere vores tekst baseret på, hvilken talekategori de falder ind under. 

Tekstanalyse ved hjælp af Python: Sådan identificeres dele af tale




Konklusion

Som , kan du støde på behovet for at udtrække indsigt og mening fra store mængder ustrukturerede tekstdata. Det, du lærte, er en nyttig tilgang til at forstå tekstdata gennem tekstanalyse.

Nu kan du nemt opdele tekst i mindre enheder, såsom ord og sætninger, og derefter analysere disse enheder for mønstre og sammenhænge. Du kan nå alle disse mål ved at bruge tekstanalyse i Python og LuckyTemplates. 

Alt det bedste,


Oplev unik indsigt ved hjælp af LuckyTemplates TOPN-funktion

Oplev unik indsigt ved hjælp af LuckyTemplates TOPN-funktion

Denne blog indeholder LuckyTemplates TOPN DAX-funktionen, som giver dig mulighed for at få unik indsigt fra dine data, hvilket hjælper dig med at træffe bedre markedsføringsbeslutninger.

Datamodellering i LuckyTemplates ved hjælp af understøttende tabeller

Datamodellering i LuckyTemplates ved hjælp af understøttende tabeller

Lær nogle fantastiske analytiske teknikker, som vi kan gøre til datamodellering i LuckyTemplates ved hjælp af DAX-understøttende tabeller.

Avanceret DAX til LuckyTemplates: Implementering af rangeringslogik på tværs af unikke indsigter

Avanceret DAX til LuckyTemplates: Implementering af rangeringslogik på tværs af unikke indsigter

Her dykker vi ned i LuckyTemplates Advanced DAX og implementerer rangeringslogik for at få en meget unik indsigt. Jeg viser også måleforgrening i dette eksempel.

LuckyTemplates What-If-parameterfunktion

LuckyTemplates What-If-parameterfunktion

Denne blog introducerer den nye funktion i LuckyTemplates, What-If-analyseparameteren. Du vil se, hvordan det gør alt hurtigt og nemt til din scenarieanalyse.

Brug LuckyTemplates Mål forgrening for at kontrollere, om dine avancer udvides, efterhånden som omsætningen vokser

Brug LuckyTemplates Mål forgrening for at kontrollere, om dine avancer udvides, efterhånden som omsætningen vokser

Lær, hvordan du afgør, om din omsætningsvækst er god ved at kontrollere, om dine avancer er udvidet ved hjælp af LuckyTemplates, der måler forgrening.

LuckyTemplates-parametre via forespørgselseditor

LuckyTemplates-parametre via forespørgselseditor

Lær og forstå, hvordan du kan oprette og bruge LuckyTemplates Parameters, som er en kraftfuld funktion i Query Editor.

Rundt søjlediagram – en visualisering til dit dashboard

Rundt søjlediagram – en visualisering til dit dashboard

Denne vejledning vil diskutere om oprettelse af et rundt søjlediagram ved hjælp af Charticulator. Du lærer, hvordan du designer dem til din LuckyTemplates-rapport.

PowerApps funktioner og formler | En introduktion

PowerApps funktioner og formler | En introduktion

Lær, hvordan du bruger PowerApps-funktioner og -formler til at forbedre funktionaliteten og ændre adfærd i vores Power Apps-lærredsapp.

Pipe In R: Tilslutningsfunktioner med Dplyr

Pipe In R: Tilslutningsfunktioner med Dplyr

I denne øvelse lærer du, hvordan du kæder funktioner sammen ved hjælp af dplyr-røroperatoren i programmeringssproget R.

RANKX Deep Dive: A Lucky Templates DAX-funktion

RANKX Deep Dive: A Lucky Templates DAX-funktion

RANKX fra LuckyTemplates giver dig mulighed for at returnere rangeringen af ​​et specifikt tal i hver tabelrække, der udgør en del af en liste over tal.