Lemmatizácia v Pythone | Príručka pre začiatočníkov

V tomto návode budeme diskutovať o lematizácii, čo je metóda, ktorá sa používa na zoskupovanie rôznych prvkov slova. Lemmatizácia sa tiež zameriava na zníženie ohýbania slov a zameriava sa na poskytnutie koreňovej alebo základnej formy slova, čo znamená slovo lemma .

Obsah

Lemmatizácia vs

Lemmatizácia je podobná prameneniu, ktoré tiež slúži na zníženie ohýbania slov. Jediný rozdiel je v tom, že lemmatizácia ako výsledok používa slová založené na slovníku.

Na druhej strane, odvodzovanie iba odstraňuje prípony z ohýbaného slova, čo môže viesť k slovám, ktoré neexistujú.

Napríklad, ak použijeme odvodenie od slova studies , dostane slovo studi ako výstup, pretože jeho cieľom je odstrániť príponu es zo slova studies .

Na druhej strane, ak sa použije lemmatizácia , výsledkom bude slovo štúdia , pretože sa zameriava na poskytnutie základnej formy slova.

Čo treba zvážiť pri využívaní lemmatizácie

  • Používa slová zo slovníka. S výrazom lemma , ktorý znamená koreň alebo základnú formu slova, je cieľom lemmatizácie poskytnúť základnú formu slova, a nie len odstraňovať skloňovanie slova.
  • Nájdenie základného slova úplne závisí od častí reči. Bez zadania častí reči nemusí lemmatizácia fungovať dobre a nemusíte získať výsledok, ktorý hľadáte.
  • Je to pomalšie ako stopkanie, ale je to silnejšie. Keďže lemmatizácia sa neriadi algoritmom na vykonávanie slov a potrebou poskytovať časti reči, považuje sa za pomalšiu ako odvodňovanie. Je však výkonnejší v tom, že na výsledky používa slová zo slovníka. 
  • Má vyššiu presnosť pri hľadaní koreňového slova. Keďže lemmatizácia používa slová zo slovníka pri usporiadaní výsledkov zo skloňovaného slova, budete mať vyššie šance na získanie presných výstupov.

Fáza prípravy na lemmatizáciu v Pythone

Skôr než pristúpime k implementácii lemmatizácie, začnime importovaním knižnice Word z textblob .

Lemmatizácia v Pythone |  Príručka pre začiatočníkov

Potom vytvoríme objekt slova. 

Lemmatizácia v Pythone |  Príručka pre začiatočníkov

Na vytvorenie objektu slova sme vytvorili premennú s názvom w . Potom sme uložili knižnicu programu Word, ktorá obsahuje náš objekt slova, ktorým je chobotnica , množné číslo slova chobotnica. Berte na vedomie, že pri odovzdávaní prvku pomocou knižnice Wordu je dôležité tento prvok uzavrieť jednoduchými úvodzovkami.

Inicializujeme premennú w, aby sme zistili, či obsahuje slovo objekt, ktorý sme práve vytvorili.

Lemmatizácia v Pythone |  Príručka pre začiatočníkov

Po vykonaní premennej w dostaneme ako výsledok slovo objekt octopi .

Implementácia lemmatizácie v Pythone

Ďalej budeme implementovať lematizáciu pomocou funkcie .lematize

Lemmatizácia v Pythone |  Príručka pre začiatočníkov

V tomto kroku sme použili premennú w , ktorá obsahuje slovo object octopi a na aplikáciu lematizácie sme využili funkciu .lematize . V dôsledku toho sme dostali slovo chobotnica , čo je koreň alebo základná forma slova chobotnica .

Potom skúsme použiť lematizáciu so slovom lepší .

Lemmatizácia v Pythone |  Príručka pre začiatočníkov

V predchádzajúcom príklade sme aktualizovali náš objekt slova z chobotnice na lepší . Potom sme to lemmatizovali funkciou .lematize . Výsledok, ktorý sme dostali, je teda rovnaký ako slovo objekt, ktoré sme použili.

Pri použití funkcie .lematize môžete zmeniť spôsob jej lemmatizácie odovzdaním slovného druhu. Ako príklad skúsme prejsť do funkcie .lematize, čo znamená prídavné meno v slovných druhoch. 

Lemmatizácia v Pythone |  Príručka pre začiatočníkov

Po pridaní slovného druhu do funkcie .lematize sme schopní získať základné slovo good ako výsledok.

Zmeňme náš objekt slova opäť na beh . Zmeňme tiež slovný druh, ktorý budeme odovzdávať funkcii .lematize na v , čo znamená sloveso.

Lemmatizácia v Pythone |  Príručka pre začiatočníkov

Po vykonaní zmien a inicializácii funkcie .lematize sme dostali koreňové slovo slova running , ktoré sa následne spustí . Väčšina lemmatizérov nie je schopná vykonávať metódy, ktoré sme práve urobili pri použití funkcie .lematize.

Funkcia .lematize je však významným nástrojom na použitie pri vykonávaní určitých typov na získanie základného tvaru slova.




Záver

Stručne povedané, sme schopní pochopiť použitie lemmatizácie a ako funguje. Diskutovali sme aj o podobnosti a rozdieloch lemmatizácie od pramenitosti . Sme tiež schopní vytvoriť objekt slova pomocou knižnice Word a ako využiť funkciu .lematize .

Navyše sme sa naučili, ako použiť rôzne časti reči vo funkcii .lematize. Implementácia lemmatizácie vo vašich každodenných úlohách analýzy textu vám výrazne pomôže znížiť čas a námahu pri hľadaní základného slova konkrétneho slova.

Všetko najlepšie,

Gaellim


Vytvoření tabulky data v LuckyTemplates

Vytvoření tabulky data v LuckyTemplates

Zjistěte, proč je důležité mít vyhrazenou tabulku s daty v LuckyTemplates, a naučte se nejrychlejší a nejefektivnější způsob, jak toho dosáhnout.

LuckyTemplates Mobile Reporting Tipy a techniky

LuckyTemplates Mobile Reporting Tipy a techniky

Tento stručný návod zdůrazňuje funkci mobilního hlášení LuckyTemplates. Ukážu vám, jak můžete efektivně vytvářet přehledy pro mobily.

Profesionální servisní analytické zprávy v LuckyTemplates

Profesionální servisní analytické zprávy v LuckyTemplates

V této ukázce LuckyTemplates si projdeme sestavy ukazující profesionální analýzy služeb od firmy, která má více smluv a zákaznických vztahů.

Aktualizácie Microsoft Power Platform | Microsoft Ignite 2021

Aktualizácie Microsoft Power Platform | Microsoft Ignite 2021

Pozrite si kľúčové aktualizácie pre Power Apps a Power Automate a ich výhody a dôsledky pre platformu Microsoft Power Platform.

Bežné funkcie SQL: Prehľad

Bežné funkcie SQL: Prehľad

Objavte niektoré bežné funkcie SQL, ktoré môžeme použiť, ako napríklad reťazec, dátum a niektoré pokročilé funkcie na spracovanie alebo manipuláciu s údajmi.

Vytvoření šablony LuckyTemplates: Průvodce a tipy

Vytvoření šablony LuckyTemplates: Průvodce a tipy

V tomto tutoriálu se naučíte, jak vytvořit dokonalou šablonu LuckyTemplates, která je nakonfigurována podle vašich potřeb a preferencí.

Parametry pole a malé násobky v LuckyTemplates

Parametry pole a malé násobky v LuckyTemplates

V tomto blogu si ukážeme, jak vrstvit parametry pole s malými násobky, abychom vytvořili neuvěřitelně užitečné přehledy a vizuály.

LuckyTemplates Rank a vlastní seskupení

LuckyTemplates Rank a vlastní seskupení

V tomto blogu se dozvíte, jak používat funkce hodnocení LuckyTemplates a vlastní seskupování k segmentaci ukázkových dat a jejich seřazení podle kritérií.

Zobrazení kumulativního součtu pouze do určitého data v LuckyTemplates

Zobrazení kumulativního součtu pouze do určitého data v LuckyTemplates

V tomto tutoriálu se budu zabývat konkrétní technikou, jak zobrazit kumulativní součet pouze do určitého data ve vašich vizuálech v LuckyTemplates.

Bullet Charts: Pokročilé vlastní vizuální prvky pro LuckyTemplates

Bullet Charts: Pokročilé vlastní vizuální prvky pro LuckyTemplates

Naučte se vytvářet a přizpůsobovat Bullet grafy v LuckyTemplates, které se používají hlavně pro měření výkonu oproti cílovým nebo předchozím rokům.