I denne tutorial skal vi diskutere lemmatisering, som er en metode, der bruges til at gruppere de forskellige elementer i et ord. Lemmatisering har også til formål at reducere ordbøjningen og fokuserer på at give rod- eller grundformen af et ord, som er det, som ordet lemma betyder.
Indholdsfortegnelse
Lematisering Vs Stemming
Lemmatisering ligner stemming, der også fungerer til at reducere bøjninger i ord. Den eneste forskel er, at lemmatisering bruger ordbogsbaserede ord som resultat.
På den anden side fjerner stammer kun affikserne fra et bøjet ord, hvilket kan resultere i ord, der ikke eksisterer.
For eksempel, hvis vi bruger stammer fra ordet studier , vil det give ordet studi som et output, da det har til formål at fjerne suffikset es fra ordet studier .
På den anden side, hvis lemmatisering bruges, vil ordstudiet blive givet som et resultat, da det fokuserer på at give grundformen for et ord.
Ting at overveje ved brug af lemmatisering
- Den bruger ordbogsbaserede ord. Med termen lemma , som betyder et ords rod eller grundform, sigter lemmatisering mod at give et ords grundform frem for blot at fjerne bøjningerne af et ord.
- Det afhænger helt af orddele at finde et grundord. Uden at specificere de dele af tale, vil lemmatisering muligvis ikke fungere godt, og du får muligvis ikke det resultat, du leder efter.
- Det er langsommere end stammer, men det er mere kraftfuldt. Da lemmatisering ikke følger en algoritme til at udføre på ord og behovet for at levere dele af tale, anses det for at være langsommere end stammer. Det er dog mere kraftfuldt på en måde, at det bruger ordbogsbaserede ord til resultater.
- Det har højere nøjagtighed i at lede efter rodordet. Da lemmatisering bruger ordbogsbaserede ord til at udforme resultater fra et bøjet ord, vil du have større chancer for at få nøjagtige output.
Forberedelsesstadiet til lemmatisering i Python
Før vi fortsætter med at implementere lemmatisering, lad os begynde med at importere Word- biblioteket fra textblob .

Derefter skal vi oprette et ordobjekt.

For at oprette et ordobjekt oprettede vi en variabel ved navn w . Derefter gemte vi Word-biblioteket, der rummer vores ordobjekt, som er blæksprutte , flertalsformen af ordet blæksprutte. Bemærk, at når du sender et element ved hjælp af Word-biblioteket, er det vigtigt at omslutte dette element med enkelte citater.
Lad os initialisere variablen w for at se, om den indeholder det ordobjekt, vi lige har oprettet.

Ved udførelse af w- variablen får vi ordet objekt blæksprutte som et resultat.
Implementering af lemmatisering i Python
Dernæst skal vi implementere lemmatisering ved at bruge .lemmatize- funktionen.

I dette trin brugte vi variablen w , der indeholder ordet objekt blæksprutte , og vi brugte .lemmatize -funktionen til at anvende lemmatisering. Som et resultat fik vi ordet blæksprutte , som er rod- eller grundformen af ordet blæksprutte .
Lad os derefter prøve at anvende lemmatisering med ordet bedre .

I det forrige eksempel opdaterede vi vores ordobjekt fra octopi til bedre . Derefter lemmatiserede vi det med .lemmatize -funktionen. Således er resultatet, vi fik, det samme som ordet objekt, vi brugte.
Ved at bruge .lemmatize-funktionen kan du ændre måden for dens lemmatisering ved at indsætte en del af tale. Lad os som et eksempel prøve at videregive a til .lemmatize-funktionen, som står for adjektiv i talens dele.

Efter at have tilføjet en del af tale til .lemmatize-funktionen, er vi i stand til at få grundordet godt som et resultat.
Lad os ændre vores ordobjekt igen til at køre . Lad os også ændre den orddel, som vi overfører til .lemmatize-funktionen til v , som står for verbum.

Efter at have foretaget ændringerne og initialiseret .lemmatize-funktionen, fik vi rodordet til ordet kørende , som køres som et resultat. De fleste af lemmatisatorerne er ikke i stand til at udføre de metoder, som vi lige gjorde ved at bruge .lemmatize-funktionen.
Imidlertid er .lemmatize-funktionen et betydeligt værktøj at bruge, når du udfører visse typer for at få basisformen af et ord.
Konklusion
Kort sagt, vi er i stand til at forstå brugen af lemmatisering i, og hvordan det virker. Vi har også diskuteret ligheden og forskellene mellem lemmatisering og stammer . Vi er også i stand til at oprette et word-objekt ved hjælp af Word- biblioteket og hvordan man bruger .lemmatize- funktionen.
Desuden har vi lært, hvordan man anvender forskellige dele af tale i .lemmatize-funktionen. Implementering af lemmatisering i dine daglige tekstanalyseopgaver vil i høj grad hjælpe dig med at mindske tiden og indsatsen i at søge efter grundordet i et specifikt ord.
Alt det bedste,
Gaellim