Textanalys i Python | En introduktion

I den här bloggen kommer vi att diskutera textanalys i Python för att skapa konstruerad data från textinnehåll. Detta kommer att hjälpa dig att analysera stora mängder data och förbruka mindre tid på att arbeta med vissa uppgifter. Du kommer också att få kunskap om textblob som behandlar naturliga språkbearbetningsuppgifter.

Textanalys är processen att analysera texter genom att använda koder för automatiserade processer för att producera och gruppera textdata.

Innan vi fortsätter kan du behöva installera biblioteket som vi kommer att använda i den här handledningen.

Innehållsförteckning

Implementera textanalys i Python

Låt oss börja med att importera textblob . Kom ihåg att dokumentera vad du gör med användningen av kommentarer.

Textanalys i Python |  En introduktion

Genom att köra koden ovan har vi nu tillgång till textblob -biblioteket. Nästa steg vi ska göra är att skapa en mening som vi ska använda för våra exempel. Vi ska göra detta genom att lagra en mening i en variabel som heter mening .

Kom ihåg att omge meningen som du vill lägga till med dubbla citattecken.

Textanalys i Python |  En introduktion

Textblobben är ett fantastiskt bibliotek där vi kan skapa en blob och använda några av dess funktioner för vår textanalys i .

Textanalys i Python |  En introduktion

När vi skapar bloben börjar vi med att skapa en variabel och namnge den blob . I den här variabeln måste vi lägga till TextBlob som är biblioteket som vi använder.

Inom parentesen kommer vi att använda meningsvariabeln som innehåller meningen som vi skapade tidigare. Observera att du kan välja att manuellt skriva själva meningen inom parentesen för den här delen.

För att kontrollera vad denna blobvariabel gör kan du helt enkelt initiera den genom att skriva variabelnamnet och trycka på Shift + Enter-tangenterna. Utdata ska likna exemplet nedan.

Textanalys i Python |  En introduktion

Som du kan se av resultatet är meningen som vi lagrade i meningsvariabeln nu innehållen av TextBlob .

Tokenisera textdata i Python

Om du vill ta bort några ord i en mening kan vi dela upp vart och ett av dessa ord i enskilda delar i en lista. Med denna givna mening, vad vi ska göra är att symbolisera dem eller separera varje ord och sätta det i en lista.

För att göra detta kommer vi att använda variabeln blob och använda tokenize -funktionen. Sedan lagrar vi det i en variabel med namnet ord .

Textanalys i Python |  En introduktion

Låt oss initiera ordvariabeln på samma sätt som vi gjorde när vi initierade blobvariabeln för att se vad som finns i den tokeniserade listan.

Textanalys i Python |  En introduktion

Som du kan se är vart och ett av orden, och även skiljetecken, nu separerade i en lista. Så här fungerar tokenize- funktionen.

Nu när vi har en lista med ord kan vi sedan utföra en annan funktion från den. Låt oss skapa en annan lista med ord som vi inte vill ska inkluderas i vår lista som skiljetecken och artiklar. För att utföra detta steg, se skärmdumpen nedan.

Textanalys i Python |  En introduktion

När vi skapade listan med stoppord använde vi parenteser för att omsluta listan med stoppord. Sedan omges varje stoppord med enstaka citattecken och vart och ett avgränsas med ett kommatecken. Vi lagrade listan i variabeln stop_words .

Härifrån kommer vi att utföra en listförståelse för att ta bort ord som är nödvändiga för att utföra textanalys i . Detta inkluderar rengöring av meningar, tokenisering och jämförelse av olika listor. Vi ska nu jämföra dessa två listor och skapa en ny lista med clean_tokens .

Textanalys i Python |  En introduktion

I koden som presenteras ovan använde vi en platshållare som är w för att representera ett element . Vad vi försöker göra i den här delen är att få elementet i ordvariabeln om elementet inte finns i stop_words- variabeln. Om vi ​​ska initiera clean_tokens kommer detta att bli resultatet.

Textanalys i Python |  En introduktion

I den här processen kan vi rengöra våra tokens genom att lägga in en process för att ta bort onödiga tokens som skiljetecken och artiklar. På grund av det har vi bara essensorden kvar på vår lista.

Gå med tokens för att bilda en mening i Python

Nu när vi har separerat de rena tokens , låt oss försöka lägga dem helt i en mening. För att göra det måste vi använda .join- funktionen. Se exemplet nedan för referens.

Textanalys i Python |  En introduktion

I exemplet ovan skapade vi en variabel som heter clean_sentence för att hålla våra rena tokens som kommer att kombineras till en mening. Du kan också märka att vi har lagt till ett mellanslag omgivet av dubbla citat och funktionen .join . Inuti parametrarna inkluderade vi variabeln clean_tokens .

Detta blir resultatet om vi initierar variabeln clean_sentence .

Textanalys i Python |  En introduktion

Märkbart att meningen inte ser rätt ut eftersom vi tog bort artiklarna och skiljetecken tidigare.

Efter att ha skapat clean_sentence , låt oss försöka skapa en ny textblob som innehåller clean_sentence som vi just skapade. Sedan lagrar vi det i en ny variabel clean_blob .

Textanalys i Python |  En introduktion

Dissekera en textklump för delar av tal med hjälp av .tags-funktionen

Från den här analysblobben kan vi använda bitarna av denna blob för att leta efter orddelar eller göra ännu fler ändringar. Låt oss försöka kontrollera orddelarna för varje ord i vår nya textblob .

Textanalys i Python |  En introduktion

För att kontrollera orddelarna i en textblob bör du använda .tags -funktionen. Jag gjorde detta genom att använda vår clean_blob- variabel och sedan lade jag till .tags -funktionen direkt efter.

Om du någonsin får ett felmeddelande när du initierar .tags -funktionen, läs bara och följ stegen för att åtgärda felet. I det här fallet ser det ut så här.

Textanalys i Python |  En introduktion

Om du rullar nedåt i slutet av det här felmeddelandet ser du den nödvändiga informationen som du behöver för funktionen som du försöker använda.

Textanalys i Python |  En introduktion

När vi har hittat koden som vi behöver initialisera för att ladda ner nödvändiga data, kopiera bara koden och öppna sedan med Windows Search .

Textanalys i Python |  En introduktion

Med hjälp av Anaconda Prompt försöker vi åtgärda felet som vi fick när vi initierade .tags -funktionen. Vi kommer nu att klistra in koden som vi kopierade från felmeddelandet tidigare och köra den genom att trycka på Enter .

Textanalys i Python |  En introduktion

När det är klart, försök att köra .tags- funktionen igen och se om det fungerar.

Textanalys i Python |  En introduktion

När vi kör koden igen kan vi se att felet är åtgärdat och vi fick ett resultat som innehåller varje ord från den nya textblobben tillsammans med taggarna eller delar av tal.

Om du inte har någon aning om vad dessa taggar betyder, kan du helt enkelt gå till textblobs webbplats för att kontrollera vad dessa taggar representerar. 

Använda ngrams-funktionen för textanalys i Python

Låt oss gå till ett annat exempel, som handlar om att få ngrams . Funktionen ngrams används för att leta efter ord som ofta ses tillsammans i en mening eller ett dokument. Som ett exempel, låt oss börja med att skapa en ny textblob och lagra den i variabeln blob3 .

Textanalys i Python |  En introduktion

Efter det, låt oss använda ngrams -funktionen i variabeln blob3 för att kontrollera några kombinationer av ord.

Textanalys i Python |  En introduktion

Som standard, om du inte angav ett värde i parametrarna, kommer det att visa trigram eller 3-ordskombinationer. Men om vi vill se 2-ordskombinationer från meningen kan vi ställa in 2 i parametrarna som i exemplet nedan.

Textanalys i Python |  En introduktion

Låt oss försöka med en längre mening den här gången. I det här exemplet kopierade jag bara en längre text från en filmrecension. Du kan använda vilken mening du vill för den här delen.

Textanalys i Python |  En introduktion

Som ett sista exempel, låt oss försöka använda ngrams en gång till med en mer informativ mening.

Textanalys i Python |  En introduktion

Med alla dessa exempel kan vi utföra mer text baserat på resultaten som vi får med ngrams -funktionen.




Slutsats

Sammanfattningsvis har du lärt dig om de olika funktionerna som du kan använda för att utföra textanalys i Python.

Dessa är .tokenize-funktionen för att separera ord i en mening, .join-funktionen för att kombinera tokeniserade ord, .tags-funktionen för att kontrollera orddelarna i ord och ngrams-funktionen för att se kombinationen av ord.

Dessutom har du lärt dig hur du åtgärdar fel som det vi gjorde i .tags -funktionen med hjälp av Anaconda Prompt . Du har också lärt dig hur du importerar, skapar en textblob och använder det här biblioteket för att utföra textanalys i .

Med vänliga hälsningar,

Gaellim


Hur man kommenterar i Python – En snabbguide för nybörjare

Hur man kommenterar i Python – En snabbguide för nybörjare

Hur man kommenterar i Python – En snabbguide för nybörjare

Vad är Power Query & M Language: En detaljerad översikt

Vad är Power Query & M Language: En detaljerad översikt

Denna handledning ger en översikt över Power Query Editor och M-språket på LuckyTemplates-skrivbordet.

Skapa en paginerad rapport: Lägga till texter och bilder

Skapa en paginerad rapport: Lägga till texter och bilder

Lär dig hur du skapar en sidnumrerad rapport, lägger till texter och bilder och sedan exporterar din rapport till olika dokumentformat.

SharePoint Automate-funktionen | En introduktion

SharePoint Automate-funktionen | En introduktion

Lär dig hur du använder SharePoint-automatiseringsfunktionen för att skapa arbetsflöden och hjälpa dig att mikrohantera SharePoint-användare, bibliotek och listor.

Lös en dataanalysutmaning med LuckyTemplates Accelerator

Lös en dataanalysutmaning med LuckyTemplates Accelerator

Finslipa dina färdigheter i rapportutveckling genom att gå med i en dataanalysutmaning. Acceleratorn kan hjälpa dig att bli en LuckyTemplates superanvändare!

Löpande summor i LuckyTemplates med DAX

Löpande summor i LuckyTemplates med DAX

Lär dig hur du beräknar löpande summor i LuckyTemplates med DAX. Löpande summor låter dig inte fastna i ett individuellt resultat.

LuckyTemplates Dax-variabler är konstanta: Vad betyder detta?

LuckyTemplates Dax-variabler är konstanta: Vad betyder detta?

Förstå konceptet med variabler i DAX inom LuckyTemplates och konsekvenserna av variabler för hur dina mått beräknas.

LuckyTemplates Slope Chart: En översikt

LuckyTemplates Slope Chart: En översikt

Lär dig mer om den anpassade visual som kallas LuckyTemplates Slope-diagram, som används för att visa ökning/minskning för en enstaka eller flera mätvärden.

LuckyTemplates färgteman för enhetliga visualiseringar

LuckyTemplates färgteman för enhetliga visualiseringar

Upptäck färgteman i LuckyTemplates. Dessa är viktiga för att dina rapporter och visualiseringar ska se ut och fungera sömlöst.

Beräkna medelvärde i LuckyTemplates: Isolera veckodags- eller helgresultat med DAX

Beräkna medelvärde i LuckyTemplates: Isolera veckodags- eller helgresultat med DAX

Att beräkna ett genomsnitt i LuckyTemplates kan göras på många sätt för att ge dig exakt information för dina affärsrapporter.