Tekstanalyse ved hjelp av Python: Hvordan identifisere deler av tale

I denne bloggen vil vi vise deg hvordan du bruker Python for å identifisere deler av tale i tekstdata i LuckyTemplates. Vi vil dekke trinnene for bruk av Python for tekstanalyse og gi eksempler og tips for å hjelpe deg i gang med dine egne tekstanalyseprosjekter. Du kan se hele videoen av denne opplæringen nederst på denne bloggen.

Innholdsfortegnelse

Kildedata

I denne opplæringen vil vi bruke en ut-av-boksen ordsky som inneholder tekstene vi skal evaluere. Dette vises på venstre side av bildet nedenfor. På høyre side har vi filtrene for å identifisere de ulike delene av talen, for eksempel adjektiver eller verb. 

Tekstanalyse ved hjelp av Python: Hvordan identifisere deler av tale

Vi kan filtrere ut ord som er adverb, substantiv, ulike typer substantiv eller verb, og verbbaser. Dette er veldig nyttig når du lager en markedsføringskampanje og ser etter ord i kundeanmeldelser. 

La oss starte med å åpne redaktøren vår. 

I kildedataene våre har vi kolonner for ID-er, alder, tittel og anmeldelsestekst. Vi vil fokusere på gjennomgangstekst- kolonnen, og vi vil analysere den for å gjøre tekstanalysen vår. Det er også andre kategorier som kan være nyttige i vår analyse.

Tekstanalyse ved hjelp av Python: Hvordan identifisere deler av tale

Tekstanalyse ved hjelp av Python

La oss starte med de vanlige dataene vi hentet inn. Det første vi skal gjøre er å filtrere radene fordi vi har mye data, og når vi gjør tekstanalyse tar det tid. 

For å filtrere dataene våre, ta de første 50 radene for å gjøre tekstanalysen litt raskere. 

Tekstanalyse ved hjelp av Python: Hvordan identifisere deler av tale

Når du er filtrert ut, gå til Transform and Run script. Vi vil kode alt her inne fordi det ikke er mye kode. 

Tekstanalyse ved hjelp av Python: Hvordan identifisere deler av tale

Importerer pakkene

La oss ta inn to pakker for vår Python-tekstanalyse ved hjelp av editoren vår. Vi vil "importere pandaer som pd" , vårt datamanipuleringsbibliotek som skal lagres som variabel pd. Og så " fra tekstblob " , vil vi " importere TextBlob " med stor bokstav mellom ordene. 

Vi kan alltid dokumentere hva vi gjør ved å sette inn en dokumentstreng. La oss skrive #bring inn de essensielle bibliotekene på toppen av pakkene våre.

Tekstanalyse ved hjelp av Python: Hvordan identifisere deler av tale

Gi nytt navn til variabelen

I den første linjen i skriptet vårt er det denne linjen levert av LuckyTemplates som sier at # 'datasett' inneholder inndataene for dette skriptet. Denne linjen sier at våre data kalles et datasett. 

Så la oss endre det fordi det tar for lang tid å skrive "datasett". Skriv inn #endre datasettvariabelen og df = datasett på neste linje.

Tekstanalyse ved hjelp av Python: Hvordan identifisere deler av tale

Nå er det kortere å skrive variabelen vår. 

Gjør tekstanalysen

La oss fortsette med tekstanalysen vår. Husk at våre anmeldelsestekster er i en kolonne med individuelle celler. Dette oppsettet er egentlig ikke nyttig for oss fordi vi vil ha alle tekstene samlet slik at vi kan utføre en analyse på den. 

Vi vil imidlertid ikke at de skal slås sammen uten mellomrom, så la oss starte koden vår med et mellomrom innenfor et dobbelt anførselstegn .  

La oss deretter legge til .join og isolere vår gjennomgangstekstkolonne ved å bruke vår df- variabel, som inneholder datasettet. Skriv "Review Text" plassert inne i en parentesnotasjon som isolerer kolonnen. 

Denne koden vil slå sammen alt, men vi må lagre den, så la oss lage en variabel kalt ord.

Tekstanalyse ved hjelp av Python: Hvordan identifisere deler av tale

Når vi har samlet alle ordene, kan vi bruke tekstklatten vår til å begynne å analysere ordene. 

Den første tingen å gjøre er å lage våre deler av tale ved å bruke blob- variabelen som vi trenger for å dele ut ord til en tekst-blob. Vi skal bruke den tekstklatten og pass i teksten, som er ordene våre . Dette skrives som blob = TextBlob(ord).

Nå som vi har den bloben, tar vi den og lager vår parts_of_speech- variabel ved å bruke blob.tags . Taggene vil være forkortelsene for hver enkelt del av tale. 

Det vi skal gjøre videre er å lagre dette som en dataramme ved å bruke Pandaer som vi tok inn. La oss kalle det dataene våre som er lik pd.DataFrame og vi bringer inn våre parts_of_speech

Tekstanalyse ved hjelp av Python: Hvordan identifisere deler av tale

La oss klikke OK for å kjøre koden vår. Etter å ha kjørt koden vår, bør vi få en tabell over variablene våre. Vi har datasettet eller våre originale data. Vi har også våre data og df

Tekstanalyse ved hjelp av Python: Hvordan identifisere deler av tale

Hvis du ikke fikk de tiltenkte resultatene, viser vi deg de forskjellige måtene å unngå noen feil som du kan få i koden.

Fikser koden for tekstanalyse i Python

Noen ganger må vi kanskje være veldig eksplisitte når det gjelder å endre formatet på teksten vi er opptatt av. 

Vi kan gjøre det ved å kalle opp df -variabelen vår, isolere 'Review Text ' plassert i en parentesnotasjon, og deretter endre typen til strenger ved å bruke .astype('str') . Så er det bare å lagre dette på nytt i df -variabelen. 

Tekstanalyse ved hjelp av Python: Hvordan identifisere deler av tale

Klikk OK for å kjøre koden på nytt. Vi bør få de samme resultatene som vi fikk tidligere.

Nå vil vi åpne dataene våre , den siste variabelen vi tok inn for å se hvordan den ser ut. 

Tekstanalyse ved hjelp av Python: Hvordan identifisere deler av tale

Vi bør ha alle ordene våre brutt opp av deler av tale. Vi har ikke navngitt kolonnene våre ennå, men vi kan enkelt gjøre det. 

Tekstanalyse ved hjelp av Python: Hvordan identifisere deler av tale

I den gamle versjonen av denne samme tekstanalysen kalte jeg den første kolonnen som Word og den andre som forkortelse

Tekstanalyse ved hjelp av Python: Hvordan identifisere deler av tale

I Parts of Speech- spørringen tar vi inn de faktiske ordene som er for disse forkortelsene og kobler dem alle sammen.

Tekstanalyse ved hjelp av Python: Hvordan identifisere deler av tale

La oss nå lukke og bruke

Tekstanalyse ved hjelp av Python: Hvordan identifisere deler av tale

Trinnene vi gjorde, tillot oss å filtrere gjennom de forskjellige delene av tale som vi identifiserte ved hjelp av en enkel kode. Det gir oss dette visuelle bildet i LuckyTemplates der vi enkelt kan filtrere teksten vår basert på hvilke deler av talekategorien de faller inn under. 

Tekstanalyse ved hjelp av Python: Hvordan identifisere deler av tale




Konklusjon

Som , kan du komme over behovet for å trekke ut innsikt og mening fra store mengder ustrukturerte tekstdata. Det du lærte er en nyttig tilnærming til å forstå tekstdata gjennom tekstanalyse.

Nå kan du enkelt bryte ned tekst i mindre enheter som ord og setninger, og deretter analysere disse enhetene for mønstre og sammenhenger. Du kan oppnå alle disse målene ved å bruke tekstanalyse i Python og LuckyTemplates. 

Beste ønsker,


Slik bruker du Natural Language Query (Q&A) i LuckyTemplates

Slik bruker du Natural Language Query (Q&A) i LuckyTemplates

I denne opplæringen skal jeg vise deg hva du kan gjøre med Natural Language Query eller skrivebordsfunksjonen for spørsmål og svar i LuckyTemplates netttjeneste.

Sorter visualiseringer dynamisk i LuckyTemplate-rapportene dine

Sorter visualiseringer dynamisk i LuckyTemplate-rapportene dine

Lær hvordan du sorterer visualiseringer dynamisk i LuckyTemplates-rapportene dine. Få kvalitetsinnsikt samtidig som du er kreativ i måten du presenterer data på.

PowerApps-søkefelt: Slik legger du til og tilpasser

PowerApps-søkefelt: Slik legger du til og tilpasser

Lær hvordan du oppretter et PowerApps-søkefelt fra bunnen av og tilpasser det til å matche det overordnede temaet for appen din.

SELECTEDVALUE DAX-eksempel- Valg av høsteskive

SELECTEDVALUE DAX-eksempel- Valg av høsteskive

Høst eller fang en verdi inne i et mål for å gjenbruke i et annet mål for dynamiske beregninger ved å bruke SELECTEDVALUE DAX i LuckyTemplates.

Versjonshistorikk i SharePoint-lister

Versjonshistorikk i SharePoint-lister

Oppdag hvordan versjonshistorikk i SharePoint kan hjelpe deg med å se utviklingen av bestemte data, og hvor mange endringer den har gjennomgått.

Hex-fargekodevelger for Lucky Templates-rapporter

Hex-fargekodevelger for Lucky Templates-rapporter

Her er et verktøy for å lage rapporter og grafikk, en sekskantkodevelger for farger som du kan bruke for enkelt å få fargene til LuckyTemplates-rapportene dine.

Dynamisk datoskjærer i Lucky-maler ved hjelp av en periodetabell

Dynamisk datoskjærer i Lucky-maler ved hjelp av en periodetabell

Du kan enkelt vise en datoperiode som en slicer i rapporten ved hjelp av en periodetabell. Bruk en M-kode for å lage den dynamiske datoskjæreren i LuckyTemplates.

Proporsjons- og frekvenstabeller i Excel

Proporsjons- og frekvenstabeller i Excel

Skulle dykke ned i frekvenstabeller i Excel samt proporsjonstabeller. Se nærmere på hva de er og når du skal bruke dem.

Slik installerer du DAX Studio & Tabular Editor i LuckyTemplates

Slik installerer du DAX Studio & Tabular Editor i LuckyTemplates

Lær hvordan du laster ned og installerer DAX Studio og Tabular Editor 3 og hvordan du konfigurerer dem for bruk i LuckyTemplates og i Excel.

LuckyTemplates Shape Map Visualization for romlig analyse

LuckyTemplates Shape Map Visualization for romlig analyse

Denne bloggen inneholder Shape Map-visualiseringen for romlig analyse i LuckyTemplates. Jeg viser deg hvordan du kan bruke denne visualiseringen effektivt med dens funksjoner og elementer.