Lematisering i Python | En begyndervejledning

I denne tutorial skal vi diskutere lemmatisering, som er en metode, der bruges til at gruppere de forskellige elementer i et ord. Lemmatisering har også til formål at reducere ordbøjningen og fokuserer på at give rod- eller grundformen af ​​et ord, som er det, som ordet lemma betyder.

Indholdsfortegnelse

Lematisering Vs Stemming

Lemmatisering ligner stemming, der også fungerer til at reducere bøjninger i ord. Den eneste forskel er, at lemmatisering bruger ordbogsbaserede ord som resultat.

På den anden side fjerner stammer kun affikserne fra et bøjet ord, hvilket kan resultere i ord, der ikke eksisterer.

For eksempel, hvis vi bruger stammer fra ordet studier , vil det give ordet studi som et output, da det har til formål at fjerne suffikset es fra ordet studier .

På den anden side, hvis lemmatisering bruges, vil ordstudiet blive givet som et resultat, da det fokuserer på at give grundformen for et ord.

Ting at overveje ved brug af lemmatisering

  • Den bruger ordbogsbaserede ord. Med termen lemma , som betyder et ords rod eller grundform, sigter lemmatisering mod at give et ords grundform frem for blot at fjerne bøjningerne af et ord.
  • Det afhænger helt af orddele at finde et grundord. Uden at specificere de dele af tale, vil lemmatisering muligvis ikke fungere godt, og du får muligvis ikke det resultat, du leder efter.
  • Det er langsommere end stammer, men det er mere kraftfuldt. Da lemmatisering ikke følger en algoritme til at udføre på ord og behovet for at levere dele af tale, anses det for at være langsommere end stammer. Det er dog mere kraftfuldt på en måde, at det bruger ordbogsbaserede ord til resultater. 
  • Det har højere nøjagtighed i at lede efter rodordet. Da lemmatisering bruger ordbogsbaserede ord til at udforme resultater fra et bøjet ord, vil du have større chancer for at få nøjagtige output.

Forberedelsesstadiet til lemmatisering i Python

Før vi fortsætter med at implementere lemmatisering, lad os begynde med at importere Word- biblioteket fra textblob .

Lematisering i Python |  En begyndervejledning

Derefter skal vi oprette et ordobjekt. 

Lematisering i Python |  En begyndervejledning

For at oprette et ordobjekt oprettede vi en variabel ved navn w . Derefter gemte vi Word-biblioteket, der rummer vores ordobjekt, som er blæksprutte , flertalsformen af ​​ordet blæksprutte. Bemærk, at når du sender et element ved hjælp af Word-biblioteket, er det vigtigt at omslutte dette element med enkelte citater.

Lad os initialisere variablen w for at se, om den indeholder det ordobjekt, vi lige har oprettet.

Lematisering i Python |  En begyndervejledning

Ved udførelse af w- variablen får vi ordet objekt blæksprutte som et resultat.

Implementering af lemmatisering i Python

Dernæst skal vi implementere lemmatisering ved at bruge .lemmatize- funktionen. 

Lematisering i Python |  En begyndervejledning

I dette trin brugte vi variablen w , der indeholder ordet objekt blæksprutte , og vi brugte .lemmatize -funktionen til at anvende lemmatisering. Som et resultat fik vi ordet blæksprutte , som er rod- eller grundformen af ​​ordet blæksprutte .

Lad os derefter prøve at anvende lemmatisering med ordet bedre .

Lematisering i Python |  En begyndervejledning

I det forrige eksempel opdaterede vi vores ordobjekt fra octopi til bedre . Derefter lemmatiserede vi det med .lemmatize -funktionen. Således er resultatet, vi fik, det samme som ordet objekt, vi brugte.

Ved at bruge .lemmatize-funktionen kan du ændre måden for dens lemmatisering ved at indsætte en del af tale. Lad os som et eksempel prøve at videregive a til .lemmatize-funktionen, som står for adjektiv i talens dele. 

Lematisering i Python |  En begyndervejledning

Efter at have tilføjet en del af tale til .lemmatize-funktionen, er vi i stand til at få grundordet godt som et resultat.

Lad os ændre vores ordobjekt igen til at køre . Lad os også ændre den orddel, som vi overfører til .lemmatize-funktionen til v , som står for verbum.

Lematisering i Python |  En begyndervejledning

Efter at have foretaget ændringerne og initialiseret .lemmatize-funktionen, fik vi rodordet til ordet kørende , som køres som et resultat. De fleste af lemmatisatorerne er ikke i stand til at udføre de metoder, som vi lige gjorde ved at bruge .lemmatize-funktionen.

Imidlertid er .lemmatize-funktionen et betydeligt værktøj at bruge, når du udfører visse typer for at få basisformen af ​​et ord.




Konklusion

Kort sagt, vi er i stand til at forstå brugen af ​​lemmatisering i, og hvordan det virker. Vi har også diskuteret ligheden og forskellene mellem lemmatisering og stammer . Vi er også i stand til at oprette et word-objekt ved hjælp af Word- biblioteket og hvordan man bruger .lemmatize- funktionen.

Desuden har vi lært, hvordan man anvender forskellige dele af tale i .lemmatize-funktionen. Implementering af lemmatisering i dine daglige tekstanalyseopgaver vil i høj grad hjælpe dig med at mindske tiden og indsatsen i at søge efter grundordet i et specifikt ord.

Alt det bedste,

Gaellim

Leave a Comment

Oplev unik indsigt ved hjælp af LuckyTemplates TOPN-funktion

Oplev unik indsigt ved hjælp af LuckyTemplates TOPN-funktion

Denne blog indeholder LuckyTemplates TOPN DAX-funktionen, som giver dig mulighed for at få unik indsigt fra dine data, hvilket hjælper dig med at træffe bedre markedsføringsbeslutninger.

Oprettelse af en datotabel i LuckyTemplates

Oprettelse af en datotabel i LuckyTemplates

Find ud af, hvorfor det er vigtigt at have en dedikeret datotabel i LuckyTemplates, og lær den hurtigste og mest effektive måde at gøre det på.

LuckyTemplates Mobile Reporting Tips og teknikker

LuckyTemplates Mobile Reporting Tips og teknikker

Denne korte vejledning fremhæver LuckyTemplates mobilrapporteringsfunktion. Jeg vil vise dig, hvordan du kan udvikle rapporter effektivt til mobilenheder.

Professionelle serviceanalyserapporter i LuckyTemplates

Professionelle serviceanalyserapporter i LuckyTemplates

I denne LuckyTemplates Showcase gennemgår vi rapporter, der viser professionel serviceanalyse fra et firma, der har flere kontrakter og kundeengagementer.

Microsoft Power Platform-opdateringer | Microsoft Ignite 2021

Microsoft Power Platform-opdateringer | Microsoft Ignite 2021

Gå gennem de vigtigste opdateringer til Power Apps og Power Automate og deres fordele og implikationer for Microsoft Power Platform.

Almindelige SQL-funktioner: En oversigt

Almindelige SQL-funktioner: En oversigt

Opdag nogle almindelige SQL-funktioner, som vi kan bruge, såsom streng, dato og nogle avancerede funktioner til at behandle eller manipulere data.

LuckyTemplates skabelonoprettelse: Guide og tips

LuckyTemplates skabelonoprettelse: Guide og tips

I denne tutorial lærer du, hvordan du opretter din perfekte LuckyTemplates-skabelon, der er konfigureret til dine behov og præferencer.

Feltparametre og små multipler i LuckyTemplates

Feltparametre og små multipler i LuckyTemplates

I denne blog vil vi demonstrere, hvordan man lagdelte feltparametre med små multipler for at skabe utrolig nyttig indsigt og visuals.

LuckyTemplates-rangering og brugerdefineret gruppering

LuckyTemplates-rangering og brugerdefineret gruppering

I denne blog vil du lære, hvordan du bruger LuckyTemplates rangerings- og brugerdefinerede grupperingsfunktioner til at segmentere et eksempeldata og rangordne det efter kriterier.

Viser kun kumulativ total op til en bestemt dato i LuckyTemplates

Viser kun kumulativ total op til en bestemt dato i LuckyTemplates

I denne tutorial vil jeg dække en specifik teknik omkring, hvordan du kun viser Kumulativ Total op til en bestemt dato i dine visuals i LuckyTemplates.