Tekstanalyse ved hjælp af Python: Sådan identificeres dele af tale

I denne blog vil vi vise dig, hvordan du bruger Python til at identificere dele af tale i tekstdata i LuckyTemplates. Vi vil dække trinene til brug af Python til tekstanalyse og give eksempler og tips til at hjælpe dig i gang med dine egne tekstanalyseprojekter. Du kan se den fulde video af denne tutorial nederst på denne blog.

Indholdsfortegnelse

Kildedata

I denne vejledning vil vi bruge en out-of-the-box ordsky, der indeholder de tekster, som vi vil evaluere. Dette er vist i venstre side af billedet nedenfor. På højre side har vi filtrene til at identificere de forskellige dele af talen, for eksempel adjektiver eller verber. 

Tekstanalyse ved hjælp af Python: Sådan identificeres dele af tale

Vi kan frafiltrere ord, der er adverbier, substantiver, forskellige typer af substantiver eller verber og verbgrunde. Dette er meget nyttigt, når du laver en marketingkampagne og leder efter ord i dine kundeanmeldelser. 

Lad os starte med at åbne vores editor. 

I vores kildedata har vi kolonner for ID'er, alder, titel og anmeldelsestekst. Vi vil fokusere på kolonnen Review Text , og vi vil analysere den for at udføre vores tekstanalyse. Der er også andre kategorier, som kan være nyttige i vores analyse.

Tekstanalyse ved hjælp af Python: Sådan identificeres dele af tale

Tekstanalyse ved hjælp af Python

Lad os starte med de normale data, som vi bragte ind. Det første, vi skal gøre, er at filtrere rækkerne, fordi vi har mange data, og når vi laver tekstanalyse, tager det tid. 

For at filtrere vores data skal du tage de første 50 rækker for at gøre tekstanalysen en smule hurtigere. 

Tekstanalyse ved hjælp af Python: Sådan identificeres dele af tale

Når du er filtreret ud, skal du gå til Transformer og kør script. Vi vil kode alt herinde, fordi der ikke er meget kode. 

Tekstanalyse ved hjælp af Python: Sådan identificeres dele af tale

Import af pakkerne

Lad os bringe to pakker ind til vores Python-tekstanalyse ved hjælp af vores editor. Vi vil "importere pandaer som pd" , vores datamanipulationsbibliotek, der skal gemmes som variabel pd. Og så " fra tekstblob " vil vi " importere TextBlob " med et stort mellem ordene. 

Vi kan altid dokumentere, hvad vi laver, ved at sætte en dokumentstreng. Lad os skrive #bring de væsentlige biblioteker oven på vores pakker.

Tekstanalyse ved hjælp af Python: Sådan identificeres dele af tale

Omdøbning af variablen

I den første linje i vores script er der denne linje leveret af LuckyTemplates, der siger, at # 'dataset' indeholder inputdataene for dette script. Denne linje siger, at vores data kaldes et datasæt. 

Så lad os ændre det, fordi det tager for lang tid at skrive "datasæt". Indtast #change datasætvariablen og df = datasæt i næste linje.

Tekstanalyse ved hjælp af Python: Sådan identificeres dele af tale

Nu er det kortere at skrive vores variabel. 

laver tekstanalysen

Lad os fortsætte med vores tekstanalyse. Husk, at vores anmeldelsestekster er i en kolonne med individuelle celler. Denne opsætning er ikke rigtig nyttig for os, fordi vi vil have alle teksterne samlet, så vi kan udføre en analyse på den. 

Vi ønsker dog ikke, at de skal samles uden et mellemrum, så lad os starte vores kode med et mellemrum inden for et dobbelt anførselstegn .  

Lad os derefter tilføje .join og isolere vores gennemgangstekstkolonne ved at bruge vores df- variabel, som indeholder datasættet. Skriv 'Review Text' placeret inden for en parentesnotation, som isolerer kolonnen. 

Denne kode vil forbinde alt, men vi skal gemme den, så lad os oprette en variabel kaldet ord.

Tekstanalyse ved hjælp af Python: Sådan identificeres dele af tale

Når vi har alle ordene samlet, kan vi bruge vores tekstklat til at begynde at analysere ordene. 

Den første ting at gøre er at oprette vores dele af tale ved hjælp af klatvariablen , som vi skal bruge for at videregive ord til en tekstklat. Vi kommer til at bruge den tekstklat og pass i teksten, som er vores ord . Dette skrives som blob = TextBlob(ord).

Nu hvor vi har den klat, tager vi den og skaber vores parts_of_speech -variabel ved hjælp af blob.tags . Mærkerne vil være forkortelserne for hver enkelt taleled. 

Det, vi skal gøre herefter, er at gemme dette som en dataramme ved hjælp af pandaer , som vi bragte ind. Lad os kalde det vores data , som er lig med pd.DataFrame , og vi bringer vores parts_of_speech ind . 

Tekstanalyse ved hjælp af Python: Sådan identificeres dele af tale

Lad os klikke på OK for at køre vores kode. Efter at have kørt vores kode, skulle vi få en tabel over vores variabler. Vi har datasættet eller vores originale data. Vi har også vores data og df

Tekstanalyse ved hjælp af Python: Sådan identificeres dele af tale

Hvis du ikke fik de tilsigtede resultater, viser vi dig de forskellige måder at undgå nogle fejl, som du kan få i koden.

Rettelse af koden til tekstanalyse i Python

Nogle gange kan vi være nødt til at være meget eksplicitte i at ændre formatet på den tekst, vi er bekymrede for. 

Det kan vi gøre ved at kalde vores df -variabel, isolere 'Review Text ' placeret i en parentesnotation og derefter ændre typen til strenge ved hjælp af .astype('str') . Så skal du bare gemme dette i df- variablen igen. 

Tekstanalyse ved hjælp af Python: Sådan identificeres dele af tale

Klik på OK for at køre koden igen. Vi burde få de samme resultater, som vi fik tidligere.

Nu vil vi åbne vores data , den sidste variabel, vi bragte ind for at se, hvordan det ser ud. 

Tekstanalyse ved hjælp af Python: Sådan identificeres dele af tale

Vi bør have alle vores ord opdelt efter dele af tale. Vi har ikke navngivet vores kolonner endnu, men det kan vi sagtens gøre. 

Tekstanalyse ved hjælp af Python: Sådan identificeres dele af tale

I den gamle version af denne samme tekstanalyse kaldte jeg den første kolonne som Word og den anden som forkortelse

Tekstanalyse ved hjælp af Python: Sådan identificeres dele af tale

I Parts of Speech- forespørgslen henter vi de faktiske ord, der er til disse forkortelser, og forbinder dem alle sammen.

Tekstanalyse ved hjælp af Python: Sådan identificeres dele af tale

Lad os nu lukke og ansøge

Tekstanalyse ved hjælp af Python: Sådan identificeres dele af tale

De trin, vi gjorde, tillod os at filtrere gennem de forskellige dele af tale, som vi identificerede ved hjælp af en simpel kode. Det giver os dette visuelle billede i LuckyTemplates, hvor vi nemt kan filtrere vores tekst baseret på, hvilken talekategori de falder ind under. 

Tekstanalyse ved hjælp af Python: Sådan identificeres dele af tale




Konklusion

Som , kan du støde på behovet for at udtrække indsigt og mening fra store mængder ustrukturerede tekstdata. Det, du lærte, er en nyttig tilgang til at forstå tekstdata gennem tekstanalyse.

Nu kan du nemt opdele tekst i mindre enheder, såsom ord og sætninger, og derefter analysere disse enheder for mønstre og sammenhænge. Du kan nå alle disse mål ved at bruge tekstanalyse i Python og LuckyTemplates. 

Alt det bedste,

Leave a Comment

Oplev unik indsigt ved hjælp af LuckyTemplates TOPN-funktion

Oplev unik indsigt ved hjælp af LuckyTemplates TOPN-funktion

Denne blog indeholder LuckyTemplates TOPN DAX-funktionen, som giver dig mulighed for at få unik indsigt fra dine data, hvilket hjælper dig med at træffe bedre markedsføringsbeslutninger.

Oprettelse af en datotabel i LuckyTemplates

Oprettelse af en datotabel i LuckyTemplates

Find ud af, hvorfor det er vigtigt at have en dedikeret datotabel i LuckyTemplates, og lær den hurtigste og mest effektive måde at gøre det på.

LuckyTemplates Mobile Reporting Tips og teknikker

LuckyTemplates Mobile Reporting Tips og teknikker

Denne korte vejledning fremhæver LuckyTemplates mobilrapporteringsfunktion. Jeg vil vise dig, hvordan du kan udvikle rapporter effektivt til mobilenheder.

Professionelle serviceanalyserapporter i LuckyTemplates

Professionelle serviceanalyserapporter i LuckyTemplates

I denne LuckyTemplates Showcase gennemgår vi rapporter, der viser professionel serviceanalyse fra et firma, der har flere kontrakter og kundeengagementer.

Microsoft Power Platform-opdateringer | Microsoft Ignite 2021

Microsoft Power Platform-opdateringer | Microsoft Ignite 2021

Gå gennem de vigtigste opdateringer til Power Apps og Power Automate og deres fordele og implikationer for Microsoft Power Platform.

Almindelige SQL-funktioner: En oversigt

Almindelige SQL-funktioner: En oversigt

Opdag nogle almindelige SQL-funktioner, som vi kan bruge, såsom streng, dato og nogle avancerede funktioner til at behandle eller manipulere data.

LuckyTemplates skabelonoprettelse: Guide og tips

LuckyTemplates skabelonoprettelse: Guide og tips

I denne tutorial lærer du, hvordan du opretter din perfekte LuckyTemplates-skabelon, der er konfigureret til dine behov og præferencer.

Feltparametre og små multipler i LuckyTemplates

Feltparametre og små multipler i LuckyTemplates

I denne blog vil vi demonstrere, hvordan man lagdelte feltparametre med små multipler for at skabe utrolig nyttig indsigt og visuals.

LuckyTemplates-rangering og brugerdefineret gruppering

LuckyTemplates-rangering og brugerdefineret gruppering

I denne blog vil du lære, hvordan du bruger LuckyTemplates rangerings- og brugerdefinerede grupperingsfunktioner til at segmentere et eksempeldata og rangordne det efter kriterier.

Viser kun kumulativ total op til en bestemt dato i LuckyTemplates

Viser kun kumulativ total op til en bestemt dato i LuckyTemplates

I denne tutorial vil jeg dække en specifik teknik omkring, hvordan du kun viser Kumulativ Total op til en bestemt dato i dine visuals i LuckyTemplates.