Textanalys med Python: Hur man identifierar delar av tal

I den här bloggen kommer vi att visa dig hur du använder Python för att identifiera delar av tal i textdata inom LuckyTemplates. Vi kommer att täcka stegen för att använda Python för textanalys och ge exempel och tips som hjälper dig att komma igång med dina egna textanalysprojekt. Du kan se hela videon av denna handledning längst ner på den här bloggen.

Innehållsförteckning

Källdata

I den här handledningen kommer vi att använda ett out-of-the-box ordmoln som innehåller de texter som vi kommer att utvärdera. Detta visas på vänster sida av bilden nedan. På höger sida har vi filtren för att identifiera de olika delarna av talet, till exempel adjektiv eller verb. 

Textanalys med Python: Hur man identifierar delar av tal

Vi kan filtrera bort ord som är adverb, substantiv, olika typer av substantiv eller verb och verbbaser. Detta är mycket användbart när du skapar en marknadsföringskampanj och letar efter ord i dina kundrecensioner. 

Låt oss börja med att öppna vår redaktör. 

I vår källdata har vi kolumner för ID, ålder, titel och recensionstext. Vi kommer att fokusera på kolumnen Granska text , och vi kommer att analysera den för att göra vår textanalys. Det finns även andra kategorier som kan vara användbara i vår analys.

Textanalys med Python: Hur man identifierar delar av tal

Textanalys med Python

Låt oss börja med den normala data som vi tog in. Det första vi ska göra är att filtrera raderna eftersom vi har mycket data, och när vi gör textanalys tar det tid. 

För att filtrera våra data, ta de första 50 raderna för att göra textanalysen lite snabbare. 

Textanalys med Python: Hur man identifierar delar av tal

När du har filtrerat bort, gå till Transform and Run script. Vi kommer att koda allt här eftersom det inte finns mycket kod. 

Textanalys med Python: Hur man identifierar delar av tal

Importera paketen

Låt oss ta in två paket för vår Python-textanalys med vår editor. Vi kommer att "importera pandor som pd" , vårt datamanipuleringsbibliotek som ska sparas som variabel pd. Och sedan “ från textblob kommer vi att “ importera TextBlob” med ett versal mellan orden. 

Vi kan alltid dokumentera vad vi gör genom att lägga en dokumentsträng. Låt oss skriva #bring in de väsentliga biblioteken ovanpå våra paket.

Textanalys med Python: Hur man identifierar delar av tal

Byter namn på variabeln

På den första raden i vårt skript finns den här raden från LuckyTemplates som säger att # 'dataset' innehåller indata för detta skript. Den här raden säger att vår data kallas ett dataset. 

Så låt oss ändra det eftersom det tar för lång tid att skriva "dataset". Skriv in #change datasetvariabeln och df = dataset på nästa rad.

Textanalys med Python: Hur man identifierar delar av tal

Nu är det kortare att skriva vår variabel. 

Gör textanalysen

Låt oss fortsätta med vår textanalys. Kom ihåg att våra recensionstexter finns i en kolumn med enskilda celler. Den här inställningen är inte till stor hjälp för oss eftersom vi vill ha alla texter tillsammans så att vi kan göra en analys av den. 

Men vi vill inte att de ska sammanfogas utan ett mellanslag, så låt oss börja vår kod med ett mellanslag inom ett dubbla citattecken .  

Låt oss sedan lägga till .join och isolera vår granskningstextkolumn genom att använda vår df -variabel, som innehåller datamängden. Skriv "Review Text" placerad inom en parentes som isolerar kolumnen. 

Den här koden kommer att förena allt, men vi måste spara den så låt oss skapa en variabel som heter ord.

Textanalys med Python: Hur man identifierar delar av tal

När vi har samlat alla orden kan vi använda vår textklump för att börja analysera orden. 

Det första du ska göra är att skapa våra orddelar med hjälp av klumpvariabeln som vi behöver för att skicka ut ord till en textklump. Vi kommer att använda den där textblobben och passera i texten, vilket är våra ord . Detta skrivs som blob = TextBlob(ord).

Nu när vi har den bloben kommer vi att ta den och skapa vår parts_of_speech -variabel med blob.tags . Taggarna kommer att vara förkortningarna för var och en av delarna av talet. 

Vad vi ska göra härnäst är att spara detta som en dataram med Pandas som vi tog in. Låt oss kalla det vår data som är lika med pd.DataFrame och vi tar in våra parts_of_speech

Textanalys med Python: Hur man identifierar delar av tal

Låt oss klicka på OK för att köra vår kod. Efter att ha kört vår kod bör vi få en tabell över våra variabler. Vi har datauppsättningen eller vår ursprungliga data. Vi har även våra data och df

Textanalys med Python: Hur man identifierar delar av tal

Om du inte fick de avsedda resultaten visar vi dig de olika sätten att undvika vissa fel som du kan få i koden.

Fixar koden för textanalys i Python

Ibland kan vi behöva vara mycket tydliga när vi ändrar formatet på texten som vi är angelägna om. 

Vi kan göra det genom att anropa vår df -variabel, isolera 'Review Text ' placerad inom en parentesnotation och sedan ändra typen till strängar med .astype('str') . Sedan är det bara att spara detta igen i variabeln  df .

Textanalys med Python: Hur man identifierar delar av tal

Klicka på OK för att köra koden igen. Vi borde få samma resultat som vi fick tidigare.

Nu vill vi öppna vår data , den sista variabeln som vi tog in för att se hur det ser ut. 

Textanalys med Python: Hur man identifierar delar av tal

Vi borde få alla våra ord uppdelade i orddelar. Vi har inte namngett våra kolumner ännu, men det kan vi enkelt göra. 

Textanalys med Python: Hur man identifierar delar av tal

I den gamla versionen av samma textanalys kallade jag den första kolumnen som Word och den andra som Förkortning

Textanalys med Python: Hur man identifierar delar av tal

I ordspråksfrågan tar vi in ​​de faktiska orden som är för dessa förkortningar och kopplar samman dem alla.

Textanalys med Python: Hur man identifierar delar av tal

Låt oss nu stänga och ansöka

Textanalys med Python: Hur man identifierar delar av tal

Stegen vi gjorde gjorde det möjligt för oss att filtrera igenom de olika delar av tal som vi identifierade med en enkel kod. Det ger oss den här visuella bilden i LuckyTemplates där vi enkelt kan filtrera vår text baserat på vilken kategori av tal de faller in i. 

Textanalys med Python: Hur man identifierar delar av tal




Slutsats

Som , kan du stöta på behovet av att extrahera insikter och mening från stora mängder ostrukturerad textdata. Det du lärde dig är en användbar metod för att förstå textdata genom textanalys.

Nu kan du enkelt dela upp text i mindre enheter som ord och meningar och sedan analysera dessa enheter för mönster och samband. Du kan uppnå alla dessa mål med hjälp av textanalys i Python och LuckyTemplates. 

Med vänliga hälsningar,


Upptäck unika insikter med LuckyTemplates TOPN-funktion

Upptäck unika insikter med LuckyTemplates TOPN-funktion

Den här bloggen innehåller LuckyTemplates TOPN DAX-funktion, som gör att du kan få unika insikter från dina data, vilket hjälper dig att fatta bättre marknadsföringsbeslut.

Datamodellering i LuckyTemplates med hjälp av stödtabeller

Datamodellering i LuckyTemplates med hjälp av stödtabeller

Lär dig några fantastiska analytiska tekniker som vi kan göra för datamodellering i LuckyTemplates med hjälp av DAX-stödtabeller.

Avancerad DAX för LuckyTemplates: Implementering av rankningslogik över unika insikter

Avancerad DAX för LuckyTemplates: Implementering av rankningslogik över unika insikter

Här dyker vi in ​​i LuckyTemplates Advanced DAX och implementerar rankningslogik för att få en mycket unik insikt. Jag visar också upp måttförgrening i det här exemplet.

LuckyTemplates What-If-parameterfunktion

LuckyTemplates What-If-parameterfunktion

Den här bloggen introducerar den nya funktionen i LuckyTemplates, analysparametern What-If. Du kommer att se hur det gör allt snabbt och enkelt för din scenarioanalys.

Använd LuckyTemplates Mät förgreningar för att kontrollera om dina marginaler ökar när intäkterna växer

Använd LuckyTemplates Mät förgreningar för att kontrollera om dina marginaler ökar när intäkterna växer

Lär dig hur du avgör om din intäktstillväxt är bra genom att kontrollera om dina marginaler ökade med hjälp av LuckyTemplates mäter förgrening.

LuckyTemplates parametrar via frågeredigerare

LuckyTemplates parametrar via frågeredigerare

Lär dig och förstå hur du kan skapa och använda LuckyTemplates-parametrar som är en kraftfull funktion i frågeredigeraren.

Runda stapeldiagram – En visualisering för din instrumentpanel

Runda stapeldiagram – En visualisering för din instrumentpanel

Denna handledning kommer att diskutera hur man skapar ett runt stapeldiagram med Charticulator. Du kommer att lära dig hur du designar dem för din LuckyTemplates-rapport.

PowerApps funktioner och formler | En introduktion

PowerApps funktioner och formler | En introduktion

Lär dig hur du använder PowerApps funktioner och formler för att förbättra funktionaliteten och ändra ett beteende i vår Power Apps canvas-app.

Pipe In R: Anslutningsfunktioner med Dplyr

Pipe In R: Anslutningsfunktioner med Dplyr

I den här handledningen kommer du att lära dig hur du kopplar ihop funktioner med hjälp av dplyr-röroperatorn i programmeringsspråket R.

RANKX Deep Dive: A Lucky Templates DAX-funktion

RANKX Deep Dive: A Lucky Templates DAX-funktion

RANKX från LuckyTemplates låter dig returnera rankningen av ett specifikt nummer i varje tabellrad som utgör en del av en lista med nummer.