Textanalys i Python | En introduktion

I den här bloggen kommer vi att diskutera textanalys i Python för att skapa konstruerad data från textinnehåll. Detta kommer att hjälpa dig att analysera stora mängder data och förbruka mindre tid på att arbeta med vissa uppgifter. Du kommer också att få kunskap om textblob som behandlar naturliga språkbearbetningsuppgifter.

Textanalys är processen att analysera texter genom att använda koder för automatiserade processer för att producera och gruppera textdata.

Innan vi fortsätter kan du behöva installera biblioteket som vi kommer att använda i den här handledningen.

Innehållsförteckning

Implementera textanalys i Python

Låt oss börja med att importera textblob . Kom ihåg att dokumentera vad du gör med användningen av kommentarer.

Textanalys i Python |  En introduktion

Genom att köra koden ovan har vi nu tillgång till textblob -biblioteket. Nästa steg vi ska göra är att skapa en mening som vi ska använda för våra exempel. Vi ska göra detta genom att lagra en mening i en variabel som heter mening .

Kom ihåg att omge meningen som du vill lägga till med dubbla citattecken.

Textanalys i Python |  En introduktion

Textblobben är ett fantastiskt bibliotek där vi kan skapa en blob och använda några av dess funktioner för vår textanalys i .

Textanalys i Python |  En introduktion

När vi skapar bloben börjar vi med att skapa en variabel och namnge den blob . I den här variabeln måste vi lägga till TextBlob som är biblioteket som vi använder.

Inom parentesen kommer vi att använda meningsvariabeln som innehåller meningen som vi skapade tidigare. Observera att du kan välja att manuellt skriva själva meningen inom parentesen för den här delen.

För att kontrollera vad denna blobvariabel gör kan du helt enkelt initiera den genom att skriva variabelnamnet och trycka på Shift + Enter-tangenterna. Utdata ska likna exemplet nedan.

Textanalys i Python |  En introduktion

Som du kan se av resultatet är meningen som vi lagrade i meningsvariabeln nu innehållen av TextBlob .

Tokenisera textdata i Python

Om du vill ta bort några ord i en mening kan vi dela upp vart och ett av dessa ord i enskilda delar i en lista. Med denna givna mening, vad vi ska göra är att symbolisera dem eller separera varje ord och sätta det i en lista.

För att göra detta kommer vi att använda variabeln blob och använda tokenize -funktionen. Sedan lagrar vi det i en variabel med namnet ord .

Textanalys i Python |  En introduktion

Låt oss initiera ordvariabeln på samma sätt som vi gjorde när vi initierade blobvariabeln för att se vad som finns i den tokeniserade listan.

Textanalys i Python |  En introduktion

Som du kan se är vart och ett av orden, och även skiljetecken, nu separerade i en lista. Så här fungerar tokenize- funktionen.

Nu när vi har en lista med ord kan vi sedan utföra en annan funktion från den. Låt oss skapa en annan lista med ord som vi inte vill ska inkluderas i vår lista som skiljetecken och artiklar. För att utföra detta steg, se skärmdumpen nedan.

Textanalys i Python |  En introduktion

När vi skapade listan med stoppord använde vi parenteser för att omsluta listan med stoppord. Sedan omges varje stoppord med enstaka citattecken och vart och ett avgränsas med ett kommatecken. Vi lagrade listan i variabeln stop_words .

Härifrån kommer vi att utföra en listförståelse för att ta bort ord som är nödvändiga för att utföra textanalys i . Detta inkluderar rengöring av meningar, tokenisering och jämförelse av olika listor. Vi ska nu jämföra dessa två listor och skapa en ny lista med clean_tokens .

Textanalys i Python |  En introduktion

I koden som presenteras ovan använde vi en platshållare som är w för att representera ett element . Vad vi försöker göra i den här delen är att få elementet i ordvariabeln om elementet inte finns i stop_words- variabeln. Om vi ​​ska initiera clean_tokens kommer detta att bli resultatet.

Textanalys i Python |  En introduktion

I den här processen kan vi rengöra våra tokens genom att lägga in en process för att ta bort onödiga tokens som skiljetecken och artiklar. På grund av det har vi bara essensorden kvar på vår lista.

Gå med tokens för att bilda en mening i Python

Nu när vi har separerat de rena tokens , låt oss försöka lägga dem helt i en mening. För att göra det måste vi använda .join- funktionen. Se exemplet nedan för referens.

Textanalys i Python |  En introduktion

I exemplet ovan skapade vi en variabel som heter clean_sentence för att hålla våra rena tokens som kommer att kombineras till en mening. Du kan också märka att vi har lagt till ett mellanslag omgivet av dubbla citat och funktionen .join . Inuti parametrarna inkluderade vi variabeln clean_tokens .

Detta blir resultatet om vi initierar variabeln clean_sentence .

Textanalys i Python |  En introduktion

Märkbart att meningen inte ser rätt ut eftersom vi tog bort artiklarna och skiljetecken tidigare.

Efter att ha skapat clean_sentence , låt oss försöka skapa en ny textblob som innehåller clean_sentence som vi just skapade. Sedan lagrar vi det i en ny variabel clean_blob .

Textanalys i Python |  En introduktion

Dissekera en textklump för delar av tal med hjälp av .tags-funktionen

Från den här analysblobben kan vi använda bitarna av denna blob för att leta efter orddelar eller göra ännu fler ändringar. Låt oss försöka kontrollera orddelarna för varje ord i vår nya textblob .

Textanalys i Python |  En introduktion

För att kontrollera orddelarna i en textblob bör du använda .tags -funktionen. Jag gjorde detta genom att använda vår clean_blob- variabel och sedan lade jag till .tags -funktionen direkt efter.

Om du någonsin får ett felmeddelande när du initierar .tags -funktionen, läs bara och följ stegen för att åtgärda felet. I det här fallet ser det ut så här.

Textanalys i Python |  En introduktion

Om du rullar nedåt i slutet av det här felmeddelandet ser du den nödvändiga informationen som du behöver för funktionen som du försöker använda.

Textanalys i Python |  En introduktion

När vi har hittat koden som vi behöver initialisera för att ladda ner nödvändiga data, kopiera bara koden och öppna sedan med Windows Search .

Textanalys i Python |  En introduktion

Med hjälp av Anaconda Prompt försöker vi åtgärda felet som vi fick när vi initierade .tags -funktionen. Vi kommer nu att klistra in koden som vi kopierade från felmeddelandet tidigare och köra den genom att trycka på Enter .

Textanalys i Python |  En introduktion

När det är klart, försök att köra .tags- funktionen igen och se om det fungerar.

Textanalys i Python |  En introduktion

När vi kör koden igen kan vi se att felet är åtgärdat och vi fick ett resultat som innehåller varje ord från den nya textblobben tillsammans med taggarna eller delar av tal.

Om du inte har någon aning om vad dessa taggar betyder, kan du helt enkelt gå till textblobs webbplats för att kontrollera vad dessa taggar representerar. 

Använda ngrams-funktionen för textanalys i Python

Låt oss gå till ett annat exempel, som handlar om att få ngrams . Funktionen ngrams används för att leta efter ord som ofta ses tillsammans i en mening eller ett dokument. Som ett exempel, låt oss börja med att skapa en ny textblob och lagra den i variabeln blob3 .

Textanalys i Python |  En introduktion

Efter det, låt oss använda ngrams -funktionen i variabeln blob3 för att kontrollera några kombinationer av ord.

Textanalys i Python |  En introduktion

Som standard, om du inte angav ett värde i parametrarna, kommer det att visa trigram eller 3-ordskombinationer. Men om vi vill se 2-ordskombinationer från meningen kan vi ställa in 2 i parametrarna som i exemplet nedan.

Textanalys i Python |  En introduktion

Låt oss försöka med en längre mening den här gången. I det här exemplet kopierade jag bara en längre text från en filmrecension. Du kan använda vilken mening du vill för den här delen.

Textanalys i Python |  En introduktion

Som ett sista exempel, låt oss försöka använda ngrams en gång till med en mer informativ mening.

Textanalys i Python |  En introduktion

Med alla dessa exempel kan vi utföra mer text baserat på resultaten som vi får med ngrams -funktionen.




Slutsats

Sammanfattningsvis har du lärt dig om de olika funktionerna som du kan använda för att utföra textanalys i Python.

Dessa är .tokenize-funktionen för att separera ord i en mening, .join-funktionen för att kombinera tokeniserade ord, .tags-funktionen för att kontrollera orddelarna i ord och ngrams-funktionen för att se kombinationen av ord.

Dessutom har du lärt dig hur du åtgärdar fel som det vi gjorde i .tags -funktionen med hjälp av Anaconda Prompt . Du har också lärt dig hur du importerar, skapar en textblob och använder det här biblioteket för att utföra textanalys i .

Med vänliga hälsningar,

Gaellim


Pipe In R: Anslutningsfunktioner med Dplyr

Pipe In R: Anslutningsfunktioner med Dplyr

I den här handledningen kommer du att lära dig hur du kopplar ihop funktioner med hjälp av dplyr-röroperatorn i programmeringsspråket R.

RANKX Deep Dive: A Lucky Templates DAX-funktion

RANKX Deep Dive: A Lucky Templates DAX-funktion

RANKX från LuckyTemplates låter dig returnera rankningen av ett specifikt nummer i varje tabellrad som utgör en del av en lista med nummer.

Extrahera LuckyTemplates-teman och bilder från PBIX

Extrahera LuckyTemplates-teman och bilder från PBIX

Lär dig hur du tar isär en PBIX-fil för att extrahera LuckyTemplates-teman och bilder från bakgrunden och använda den för att skapa din rapport!

Excel Formler Fuskblad: Mellanvägledning

Excel Formler Fuskblad: Mellanvägledning

Excel Formler Fuskblad: Mellanvägledning

LuckyTemplates Kalendertabell: Vad är det och hur man använder det

LuckyTemplates Kalendertabell: Vad är det och hur man använder det

LuckyTemplates Kalendertabell: Vad är det och hur man använder det

Python i LuckyTemplates: Hur man installerar och ställer in

Python i LuckyTemplates: Hur man installerar och ställer in

Lär dig hur du installerar programmeringsspråket Python i LuckyTemplates och hur du använder dess verktyg för att skriva koder och visa bilder.

Beräkna dynamiska vinstmarginaler – enkel analys av LuckyTemplates med DAX

Beräkna dynamiska vinstmarginaler – enkel analys av LuckyTemplates med DAX

Lär dig hur du beräknar dynamiska vinstmarginaler vid sidan av LuckyTemplates och hur du kan få fler insikter genom att gräva djupare i resultaten.

Sortering av datumtabellkolumner i LuckyTemplates

Sortering av datumtabellkolumner i LuckyTemplates

Lär dig hur du sorterar fälten från en utökad datumtabells kolumner korrekt. Detta är en bra strategi att göra för svåra fält.

Hitta dina bästa produkter för varje region i LuckyTemplates med DAX

Hitta dina bästa produkter för varje region i LuckyTemplates med DAX

I den här artikeln går jag igenom hur du kan hitta dina toppprodukter per region med hjälp av DAX-beräkningar i LuckyTemplates, inklusive TOPN- och CALCULATE-funktionerna.

Skräpdimension: Vad är det och varför det är allt annat än skräp

Skräpdimension: Vad är det och varför det är allt annat än skräp

Lär dig hur du använder en skräpdimension för flaggor med låg kardinalitet som du vill infoga i din datamodell på ett effektivt sätt.