Lemmatizáció Pythonban | Útmutató kezdőknek

Ebben az oktatóanyagban a lemmatizálásról fogunk beszélni, amely egy olyan módszer, amelyet egy szó különböző elemeinek csoportosítására használnak. A lemmatizálás célja a szó inflexiójának csökkentése is, és a szó gyökének vagy alapformájának biztosítására összpontosít, amit a lemma szó jelent.

Tartalomjegyzék

Lemmatizáció vs száradás

A lemmatizáció hasonló a szótőhöz, amely szintén csökkenti a szavak ragozását. Az egyetlen különbség az, hogy a lemmatizálás szótár alapú szavakat használ.

Másrészt a tőképző csak a ragozott szó toldalékait távolítja el, ami nem létező szavakat eredményezhet.

Például, ha a tanulmányok szó tőzését használjuk , akkor ez a studi szót adja ki kimenetként, mivel célja az es utótag eltávolítása a tanulmányok szóból .

Másrészt, ha a lemmatizálást használjuk, akkor a tanulmány szó lesz az eredmény, mivel ez egy szó alapformájának biztosítására összpontosít.

A lemmatizáció alkalmazásakor figyelembe veendő dolgok

  • Szótár alapú szavakat használ. A lemma kifejezéssel , amely egy szó gyökerét vagy alapformáját jelenti, a lemmatizálás célja a szó alapformájának megadása, nem pedig a szó ragozásainak eltávolítása.
  • Teljesen a beszédrészektől függ, hogy megtaláljuk-e az alapszót. A beszédrészek megadása nélkül előfordulhat, hogy a lemmatizálás nem működik jól, és előfordulhat, hogy nem kapja meg a keresett eredményt.
  • Lassabb, mint a száradás, de erősebb. Mivel a lemmatizálás nem követi a szavakon végrehajtandó algoritmust és a beszédrészek megadásának szükségességét, lassabbnak tekinthető, mint a szótő. Hatékonyabb azonban abban a tekintetben, hogy szótár alapú szavakat használ az eredményekhez. 
  • Nagyobb pontossággal keresi az alapszót. Mivel a lemmatizálás szótár alapú szavakat használ a ragozott szó eredményeinek elrendezéséhez, nagyobb az esélye a pontos kimenetek elérésére.

Előkészületi szakasz a lemmatizáláshoz Pythonban

Mielőtt folytatnánk a lemmatizálás megvalósítását, kezdjük a Word könyvtár importálásával a textblobból .

Lemmatizáció Pythonban |  Útmutató kezdőknek

Ezt követően létrehozunk egy szóobjektumot. 

Lemmatizáció Pythonban |  Útmutató kezdőknek

Egy szóobjektum létrehozásához létrehoztunk egy w nevű változót . Ezután eltároltuk a szótárat, amely a szóobjektumunkat tartalmazza, ami az octopi , a polip szó többes számú alakja. Vegye figyelembe, hogy amikor egy elemet a Word könyvtár használatával ad át, fontos, hogy az elemet egyetlen idézőjelbe helyezze.

Inicializáljuk a w változót , hogy megnézzük, tartalmazza-e az általunk létrehozott objektum szót.

Lemmatizáció Pythonban |  Útmutató kezdőknek

A w változó végrehajtásakor az objektum octopi szót kapjuk eredményül.

Lemmatizáció megvalósítása Pythonban

Ezután a lemmatizálást fogjuk megvalósítani a .lemmatize függvény használatával. 

Lemmatizáció Pythonban |  Útmutató kezdőknek

Ebben a lépésben a w változót használtuk, amely az objektum octopi szót tartalmazza, és a .lemmatize függvényt használtuk a lemmatizálás alkalmazására. Ennek eredményeként megkaptuk a polip szót, amely az octopi szó gyöke vagy alapja .

Ezek után próbáljuk meg alkalmazni a lemmatizálást a jobb szóval .

Lemmatizáció Pythonban |  Útmutató kezdőknek

Az előző példában a szóobjektumunkat octopi- ról jobbra frissítettük . Ezután lemmatizáltuk a .lemmatize függvénnyel. Így a kapott eredmény megegyezik az általunk használt objektum szóval.

A .lemmatize függvény használatával a lemmatizálás módját megváltoztathatjuk egy beszédrészlet átadásával. Példaként, próbáljunk meg átadni egy .lemmatize függvényt, amely a melléknevet jelenti a beszédrészekben. 

Lemmatizáció Pythonban |  Útmutató kezdőknek

Miután hozzáadtunk egy beszédrészt a .lemmatize függvényhez, eredményeként az alapszót jóvá tudjuk tenni .

Változtassuk át a szóobjektumunkat ismét futóra . Változtassuk meg azt a beszédrészt is, amelyet át fogunk adni a .lemmatize függvénynek, v- re , ami az igét jelenti.

Lemmatizáció Pythonban |  Útmutató kezdőknek

A változtatások elvégzése és a .lemmatize függvény inicializálása után megkaptuk a futó szó gyökérszavát, ami ennek eredményeként lefut . A legtöbb lemmatizáló nem képes végrehajtani azokat a metódusokat, amelyeket a .lemmatize függvény használatával tettünk.

A .lemmatize függvény azonban jelentős eszköz, amelyet bizonyos típusú műveletek végrehajtásakor használhatunk egy szó alapformájának megszerzéséhez.




Következtetés

Röviden, meg tudjuk érteni a lemmatizáció használatát és működését. Megvitattuk a lemmatizálás hasonlóságát és különbségeit a származékostól is . A Word könyvtár használatával és a .lemmatize funkció használatával is létrehozhatunk egy szóobjektumot .

Sőt, megtanultuk, hogyan alkalmazzuk a beszéd különböző részeit a .lemmatize függvényben. A lemmatizálás alkalmazása a napi szövegelemzési feladatokban nagymértékben segít csökkenteni egy adott szó alapszava kereséséhez szükséges időt és erőfeszítést.

Minden jót,

Gaellim


Dátumtáblázat létrehozása a LuckyTemplates alkalmazásban

Dátumtáblázat létrehozása a LuckyTemplates alkalmazásban

Tudja meg, miért fontos egy dedikált dátumtáblázat a LuckyTemplatesben, és ismerje meg ennek leggyorsabb és leghatékonyabb módját.

LuckyTemplates mobil jelentéskészítési tippek és technikák

LuckyTemplates mobil jelentéskészítési tippek és technikák

Ez a rövid oktatóanyag kiemeli a LuckyTemplates mobil jelentési funkcióját. Megmutatom, hogyan készíthet hatékony jelentéseket mobileszközökön.

Professzionális szolgáltatáselemzési jelentések LuckyTemplatesben

Professzionális szolgáltatáselemzési jelentések LuckyTemplatesben

Ebben a LuckyTemplates bemutatóban olyan jelentéseket tekintünk át, amelyek professzionális szolgáltatáselemzést mutatnak be egy olyan cégtől, amely több szerződéssel és ügyfél-elkötelezettséggel rendelkezik.

Microsoft Power Platform frissítések | Microsoft Ignite 2021

Microsoft Power Platform frissítések | Microsoft Ignite 2021

Tekintse át a Power Apps és a Power Automate legfontosabb frissítéseit, valamint azok előnyeit és következményeit a Microsoft Power Platform számára.

Gyakori SQL-függvények: Áttekintés

Gyakori SQL-függvények: Áttekintés

Fedezzen fel néhány gyakori SQL-függvényt, amelyeket használhatunk, például a karakterláncot, a dátumot és néhány speciális függvényt az adatok feldolgozásához vagy manipulálásához.

LuckyTemplates sablonok létrehozása: útmutató és tippek

LuckyTemplates sablonok létrehozása: útmutató és tippek

Ebből az oktatóanyagból megtudhatja, hogyan hozhatja létre a tökéletes LuckyTemplates sablont, amely az Ön igényeinek és preferenciáinak megfelelően van konfigurálva.

Mezőparaméterek és kis többszörösek a LuckyTemplatesben

Mezőparaméterek és kis többszörösek a LuckyTemplatesben

Ebben a blogban bemutatjuk, hogyan lehet a mezőparamétereket kis többszörösekkel rétegezni, hogy hihetetlenül hasznos betekintést és látványelemeket hozzon létre.

LuckyTemplates rangsor és egyéni csoportosítás

LuckyTemplates rangsor és egyéni csoportosítás

Ebből a blogból megtudhatja, hogyan használhatja a LuckyTemplates rangsorolási és egyéni csoportosítási funkcióit a mintaadatok szegmentálására és kritériumok szerinti rangsorolására.

A LuckyTemplatesben csak egy meghatározott dátumig összesített összeg látható

A LuckyTemplatesben csak egy meghatározott dátumig összesített összeg látható

Ebben az oktatóanyagban egy konkrét technikát fogok bemutatni, hogyan jelenítheti meg a kumulatív összeget csak egy adott dátumig a LuckyTemplates vizualizációjában.

Bullet Charts: speciális egyéni látványelemek a LuckyTemplates számára

Bullet Charts: speciális egyéni látványelemek a LuckyTemplates számára

Ismerje meg, hogyan hozhat létre és testreszabhat Bullet diagramokat a LuckyTemplates alkalmazásban, amelyeket főként a teljesítmény mérésére használnak a célhoz vagy az előző évekhez képest.