Lematisering i Python | En begyndervejledning

I denne tutorial skal vi diskutere lemmatisering, som er en metode, der bruges til at gruppere de forskellige elementer i et ord. Lemmatisering har også til formål at reducere ordbøjningen og fokuserer på at give rod- eller grundformen af ​​et ord, som er det, som ordet lemma betyder.

Indholdsfortegnelse

Lematisering Vs Stemming

Lemmatisering ligner stemming, der også fungerer til at reducere bøjninger i ord. Den eneste forskel er, at lemmatisering bruger ordbogsbaserede ord som resultat.

På den anden side fjerner stammer kun affikserne fra et bøjet ord, hvilket kan resultere i ord, der ikke eksisterer.

For eksempel, hvis vi bruger stammer fra ordet studier , vil det give ordet studi som et output, da det har til formål at fjerne suffikset es fra ordet studier .

På den anden side, hvis lemmatisering bruges, vil ordstudiet blive givet som et resultat, da det fokuserer på at give grundformen for et ord.

Ting at overveje ved brug af lemmatisering

  • Den bruger ordbogsbaserede ord. Med termen lemma , som betyder et ords rod eller grundform, sigter lemmatisering mod at give et ords grundform frem for blot at fjerne bøjningerne af et ord.
  • Det afhænger helt af orddele at finde et grundord. Uden at specificere de dele af tale, vil lemmatisering muligvis ikke fungere godt, og du får muligvis ikke det resultat, du leder efter.
  • Det er langsommere end stammer, men det er mere kraftfuldt. Da lemmatisering ikke følger en algoritme til at udføre på ord og behovet for at levere dele af tale, anses det for at være langsommere end stammer. Det er dog mere kraftfuldt på en måde, at det bruger ordbogsbaserede ord til resultater. 
  • Det har højere nøjagtighed i at lede efter rodordet. Da lemmatisering bruger ordbogsbaserede ord til at udforme resultater fra et bøjet ord, vil du have større chancer for at få nøjagtige output.

Forberedelsesstadiet til lemmatisering i Python

Før vi fortsætter med at implementere lemmatisering, lad os begynde med at importere Word- biblioteket fra textblob .

Lematisering i Python |  En begyndervejledning

Derefter skal vi oprette et ordobjekt. 

Lematisering i Python |  En begyndervejledning

For at oprette et ordobjekt oprettede vi en variabel ved navn w . Derefter gemte vi Word-biblioteket, der rummer vores ordobjekt, som er blæksprutte , flertalsformen af ​​ordet blæksprutte. Bemærk, at når du sender et element ved hjælp af Word-biblioteket, er det vigtigt at omslutte dette element med enkelte citater.

Lad os initialisere variablen w for at se, om den indeholder det ordobjekt, vi lige har oprettet.

Lematisering i Python |  En begyndervejledning

Ved udførelse af w- variablen får vi ordet objekt blæksprutte som et resultat.

Implementering af lemmatisering i Python

Dernæst skal vi implementere lemmatisering ved at bruge .lemmatize- funktionen. 

Lematisering i Python |  En begyndervejledning

I dette trin brugte vi variablen w , der indeholder ordet objekt blæksprutte , og vi brugte .lemmatize -funktionen til at anvende lemmatisering. Som et resultat fik vi ordet blæksprutte , som er rod- eller grundformen af ​​ordet blæksprutte .

Lad os derefter prøve at anvende lemmatisering med ordet bedre .

Lematisering i Python |  En begyndervejledning

I det forrige eksempel opdaterede vi vores ordobjekt fra octopi til bedre . Derefter lemmatiserede vi det med .lemmatize -funktionen. Således er resultatet, vi fik, det samme som ordet objekt, vi brugte.

Ved at bruge .lemmatize-funktionen kan du ændre måden for dens lemmatisering ved at indsætte en del af tale. Lad os som et eksempel prøve at videregive a til .lemmatize-funktionen, som står for adjektiv i talens dele. 

Lematisering i Python |  En begyndervejledning

Efter at have tilføjet en del af tale til .lemmatize-funktionen, er vi i stand til at få grundordet godt som et resultat.

Lad os ændre vores ordobjekt igen til at køre . Lad os også ændre den orddel, som vi overfører til .lemmatize-funktionen til v , som står for verbum.

Lematisering i Python |  En begyndervejledning

Efter at have foretaget ændringerne og initialiseret .lemmatize-funktionen, fik vi rodordet til ordet kørende , som køres som et resultat. De fleste af lemmatisatorerne er ikke i stand til at udføre de metoder, som vi lige gjorde ved at bruge .lemmatize-funktionen.

Imidlertid er .lemmatize-funktionen et betydeligt værktøj at bruge, når du udfører visse typer for at få basisformen af ​​et ord.




Konklusion

Kort sagt, vi er i stand til at forstå brugen af ​​lemmatisering i, og hvordan det virker. Vi har også diskuteret ligheden og forskellene mellem lemmatisering og stammer . Vi er også i stand til at oprette et word-objekt ved hjælp af Word- biblioteket og hvordan man bruger .lemmatize- funktionen.

Desuden har vi lært, hvordan man anvender forskellige dele af tale i .lemmatize-funktionen. Implementering af lemmatisering i dine daglige tekstanalyseopgaver vil i høj grad hjælpe dig med at mindske tiden og indsatsen i at søge efter grundordet i et specifikt ord.

Alt det bedste,

Gaellim


Hvad er Power Query & M Language: En detaljeret oversigt

Hvad er Power Query & M Language: En detaljeret oversigt

Denne vejledning giver et overblik over Power Query Editor og M-sproget inde på LuckyTemplates-skrivebordet.

Opret en sideinddelt rapport: Tilføjelse af tekster og billeder

Opret en sideinddelt rapport: Tilføjelse af tekster og billeder

Lær, hvordan du opretter en sideinddelt rapport, tilføjer tekster og billeder og derefter eksporterer din rapport til forskellige dokumentformater.

SharePoint Automate-funktionen | En introduktion

SharePoint Automate-funktionen | En introduktion

Lær, hvordan du bruger SharePoint-automatiseringsfunktionen til at skabe arbejdsgange og hjælpe dig med at mikrostyre SharePoint-brugere, -biblioteker og -lister.

Løs en dataanalyseudfordring med LuckyTemplates Accelerator

Løs en dataanalyseudfordring med LuckyTemplates Accelerator

Udvid dine rapportudviklingsevner ved at deltage i en dataanalyseudfordring. Acceleratoren kan hjælpe dig med at blive LuckyTemplates-superbruger!

Løbende totaler i LuckyTemplates ved hjælp af DAX

Løbende totaler i LuckyTemplates ved hjælp af DAX

Lær, hvordan du beregner løbende totaler i LuckyTemplates ved hjælp af DAX. Løbende totaler giver dig mulighed for ikke at blive fanget af et individuelt resultat.

LuckyTemplates Dax-variabler er konstante: Hvad betyder det?

LuckyTemplates Dax-variabler er konstante: Hvad betyder det?

Forstå konceptet med variabler i DAX i LuckyTemplates og betydningen af ​​variabler for, hvordan dine mål beregnes.

LuckyTemplates hældningsdiagram: en oversigt

LuckyTemplates hældningsdiagram: en oversigt

Lær mere om det brugerdefinerede visuelle kaldet LuckyTemplates Slope-diagrammet, som bruges til at vise stigning/fald for en enkelt eller flere metrics.

LuckyTemplates farvetemaer til ensartede visualiseringer

LuckyTemplates farvetemaer til ensartede visualiseringer

Opdag farvetemaerne i LuckyTemplates. Disse er afgørende for, at dine rapporter og visualiseringer kan se ud og fungere problemfrit.

Beregning af gennemsnit i LuckyTemplates: Isolering af resultater på ugedage eller weekender ved hjælp af DAX

Beregning af gennemsnit i LuckyTemplates: Isolering af resultater på ugedage eller weekender ved hjælp af DAX

Beregning af et gennemsnit i LuckyTemplates kan gøres på mange måder for at give dig præcise oplysninger til dine virksomhedsrapporter.

LuckyTemplates tema | LuckyTemplates Desktop Standard Theming

LuckyTemplates tema | LuckyTemplates Desktop Standard Theming

Lad os dykke ned i Standard LuckyTemplates-temaer og gennemgå nogle af de funktioner, der er indbygget i selve LuckyTemplates Desktop-applikationen.