Lematisering i Python | En nybörjarguide

I den här handledningen kommer vi att diskutera lemmatisering i vilket är en metod som används för att gruppera de olika elementen i ett ord. Lemmatisering syftar också till att minska ordböjningen och fokuserar på att tillhandahålla grund- eller basformen till ett ord som är vad ordet lemma betyder.

Innehållsförteckning

Lematisering vs stamning

Lemmatisering liknar stemming som också fungerar för att minska böjningar i ord. Den enda skillnaden är att lemmatisering använder ordboksbaserade ord som resultat.

Å andra sidan tar stemming bara bort affixen från ett böjt ord, vilket kan resultera i ord som inte finns.

Till exempel, om vi använder stemming till ordet studier kommer det att ge ordet studi som en utdata eftersom det syftar till att ta bort suffixet es från ordet studier .

Å andra sidan, om lemmatisering används, kommer ordstudien att ges som ett resultat eftersom det fokuserar på att tillhandahålla basformen för ett ord.

Saker att tänka på när du använder lemmatisering

  • Den använder ordboksbaserade ord. Med termen lemma som betyder roten eller basformen av ett ord, syftar lemmatisering till att ge basformen för ett ord snarare än att bara ta bort böjningarna av ett ord.
  • Det beror helt på orddelar för att hitta ett basord. Utan att specificera talets delar kanske lemmatisering inte fungerar bra och du kanske inte får det resultat du letar efter.
  • Det är långsammare än att stamma men det är mer kraftfullt. Eftersom lemmatisering inte följer en algoritm för att prestera på ord och behovet av att tillhandahålla delar av tal, anses den vara långsammare än stemming. Men det är mer kraftfullt på ett sätt att det använder ordboksbaserade ord för resultat. 
  • Det har högre noggrannhet när det gäller att leta efter grundordet. Eftersom lemmatisering använder ordboksbaserade ord för att lägga ut resultat från ett böjt ord, har du större chanser att få korrekta utdata.

Förberedelsestadiet för lemmatisering i Python

Innan vi fortsätter med att implementera lemmatisering, låt oss börja med att importera Word- biblioteket från textblob .

Lematisering i Python |  En nybörjarguide

Efter det ska vi skapa ett ordobjekt. 

Lematisering i Python |  En nybörjarguide

För att skapa ett ordobjekt skapade vi en variabel med namnet w . Sedan lagrade vi Word-biblioteket som innehåller vårt ordobjekt som är octopi , pluralformen av ordet bläckfisk. Observera att när du skickar ett element med hjälp av Word-biblioteket är det viktigt att omsluta det elementet med enstaka citattecken.

Låt oss initiera variabeln w för att se om den innehåller ordobjektet som vi just skapade.

Lematisering i Python |  En nybörjarguide

När vi kör variabeln w får vi ordet objekt octopi som ett resultat.

Implementering av lemmatisering i Python

Därefter ska vi implementera lemmatisering genom att använda .lemmatize -funktionen. 

Lematisering i Python |  En nybörjarguide

I det här steget använde vi variabeln w som innehåller ordet objekt octopi och vi använde .lemmatize -funktionen för att tillämpa lemmatisering. Som ett resultat fick vi ordet bläckfisk som är roten eller basformen till ordet bläckfisk .

Efter det, låt oss försöka tillämpa lemmatisering med ordet bättre .

Lematisering i Python |  En nybörjarguide

I det föregående exemplet uppdaterade vi vårt ordobjekt från octopi till better . Sedan lemmatiserade vi det med .lemmatize -funktionen. Resultatet vi fick är alltså detsamma som ordet objekt som vi använde.

Genom att använda .lemmatize-funktionen kan du ändra sättet för dess lemmatisering genom att skicka in en del av tal. Som ett exempel, låt oss försöka skicka in a till .lemmatize-funktionen som står för adjektiv i orddelar. 

Lematisering i Python |  En nybörjarguide

Efter att ha lagt till en del av tal till .lemmatize-funktionen kan vi få basordet bra som ett resultat.

Låt oss ändra vårt ordobjekt igen till att köra . Låt oss också ändra orddelen som vi kommer att överföra till .lemmatize-funktionen till v som står för verb.

Lematisering i Python |  En nybörjarguide

Efter att ha gjort ändringarna och initialiserat .lemmatize-funktionen fick vi rotordet till ordet igång som körs som ett resultat. De flesta lemmatiserare är inte kapabla att utföra de metoder som vi just gjorde när vi använde .lemmatize-funktionen.

Emellertid är .lemmatize-funktionen ett avsevärt verktyg att använda när man utför vissa typer av för att få basformen av ett ord.




Slutsats

Kort sagt, vi kan förstå användningen av lemmatisering i och hur det fungerar. Vi har diskuterat likheten och skillnaderna mellan lemmatisering och härkomst också. Vi kan också skapa ett ordobjekt med hjälp av Word- biblioteket och hur man använder .lemmatize -funktionen.

Dessutom har vi lärt oss hur man tillämpar olika delar av tal i .lemmatize-funktionen. Genom att implementera lemmatisering i dina dagliga textanalysuppgifter kommer du avsevärt att minska tiden och ansträngningen för att söka efter basordet i ett specifikt ord.

Med vänliga hälsningar,

Gaellim


Vad är Power Query & M Language: En detaljerad översikt

Vad är Power Query & M Language: En detaljerad översikt

Denna handledning ger en översikt över Power Query Editor och M-språket på LuckyTemplates-skrivbordet.

Skapa en paginerad rapport: Lägga till texter och bilder

Skapa en paginerad rapport: Lägga till texter och bilder

Lär dig hur du skapar en sidnumrerad rapport, lägger till texter och bilder och sedan exporterar din rapport till olika dokumentformat.

SharePoint Automate-funktionen | En introduktion

SharePoint Automate-funktionen | En introduktion

Lär dig hur du använder SharePoint-automatiseringsfunktionen för att skapa arbetsflöden och hjälpa dig att mikrohantera SharePoint-användare, bibliotek och listor.

Lös en dataanalysutmaning med LuckyTemplates Accelerator

Lös en dataanalysutmaning med LuckyTemplates Accelerator

Finslipa dina färdigheter i rapportutveckling genom att gå med i en dataanalysutmaning. Acceleratorn kan hjälpa dig att bli en LuckyTemplates superanvändare!

Löpande summor i LuckyTemplates med DAX

Löpande summor i LuckyTemplates med DAX

Lär dig hur du beräknar löpande summor i LuckyTemplates med DAX. Löpande summor låter dig inte fastna i ett individuellt resultat.

LuckyTemplates Dax-variabler är konstanta: Vad betyder detta?

LuckyTemplates Dax-variabler är konstanta: Vad betyder detta?

Förstå konceptet med variabler i DAX inom LuckyTemplates och konsekvenserna av variabler för hur dina mått beräknas.

LuckyTemplates Slope Chart: En översikt

LuckyTemplates Slope Chart: En översikt

Lär dig mer om den anpassade visual som kallas LuckyTemplates Slope-diagram, som används för att visa ökning/minskning för en enstaka eller flera mätvärden.

LuckyTemplates färgteman för enhetliga visualiseringar

LuckyTemplates färgteman för enhetliga visualiseringar

Upptäck färgteman i LuckyTemplates. Dessa är viktiga för att dina rapporter och visualiseringar ska se ut och fungera sömlöst.

Beräkna medelvärde i LuckyTemplates: Isolera veckodags- eller helgresultat med DAX

Beräkna medelvärde i LuckyTemplates: Isolera veckodags- eller helgresultat med DAX

Att beräkna ett genomsnitt i LuckyTemplates kan göras på många sätt för att ge dig exakt information för dina affärsrapporter.

LuckyTemplates Theming | LuckyTemplates Desktop Standard Theming

LuckyTemplates Theming | LuckyTemplates Desktop Standard Theming

Låt oss fördjupa oss i Standard LuckyTemplates-teman och granska några av funktionerna som är inbyggda i själva LuckyTemplates Desktop-applikationen.