Lemmatizáció Pythonban | Útmutató kezdőknek

Ebben az oktatóanyagban a lemmatizálásról fogunk beszélni, amely egy olyan módszer, amelyet egy szó különböző elemeinek csoportosítására használnak. A lemmatizálás célja a szó inflexiójának csökkentése is, és a szó gyökének vagy alapformájának biztosítására összpontosít, amit a lemma szó jelent.

Tartalomjegyzék

Lemmatizáció vs száradás

A lemmatizáció hasonló a szótőhöz, amely szintén csökkenti a szavak ragozását. Az egyetlen különbség az, hogy a lemmatizálás szótár alapú szavakat használ.

Másrészt a tőképző csak a ragozott szó toldalékait távolítja el, ami nem létező szavakat eredményezhet.

Például, ha a tanulmányok szó tőzését használjuk , akkor ez a studi szót adja ki kimenetként, mivel célja az es utótag eltávolítása a tanulmányok szóból .

Másrészt, ha a lemmatizálást használjuk, akkor a tanulmány szó lesz az eredmény, mivel ez egy szó alapformájának biztosítására összpontosít.

A lemmatizáció alkalmazásakor figyelembe veendő dolgok

  • Szótár alapú szavakat használ. A lemma kifejezéssel , amely egy szó gyökerét vagy alapformáját jelenti, a lemmatizálás célja a szó alapformájának megadása, nem pedig a szó ragozásainak eltávolítása.
  • Teljesen a beszédrészektől függ, hogy megtaláljuk-e az alapszót. A beszédrészek megadása nélkül előfordulhat, hogy a lemmatizálás nem működik jól, és előfordulhat, hogy nem kapja meg a keresett eredményt.
  • Lassabb, mint a száradás, de erősebb. Mivel a lemmatizálás nem követi a szavakon végrehajtandó algoritmust és a beszédrészek megadásának szükségességét, lassabbnak tekinthető, mint a szótő. Hatékonyabb azonban abban a tekintetben, hogy szótár alapú szavakat használ az eredményekhez. 
  • Nagyobb pontossággal keresi az alapszót. Mivel a lemmatizálás szótár alapú szavakat használ a ragozott szó eredményeinek elrendezéséhez, nagyobb az esélye a pontos kimenetek elérésére.

Előkészületi szakasz a lemmatizáláshoz Pythonban

Mielőtt folytatnánk a lemmatizálás megvalósítását, kezdjük a Word könyvtár importálásával a textblobból .

Lemmatizáció Pythonban |  Útmutató kezdőknek

Ezt követően létrehozunk egy szóobjektumot. 

Lemmatizáció Pythonban |  Útmutató kezdőknek

Egy szóobjektum létrehozásához létrehoztunk egy w nevű változót . Ezután eltároltuk a szótárat, amely a szóobjektumunkat tartalmazza, ami az octopi , a polip szó többes számú alakja. Vegye figyelembe, hogy amikor egy elemet a Word könyvtár használatával ad át, fontos, hogy az elemet egyetlen idézőjelbe helyezze.

Inicializáljuk a w változót , hogy megnézzük, tartalmazza-e az általunk létrehozott objektum szót.

Lemmatizáció Pythonban |  Útmutató kezdőknek

A w változó végrehajtásakor az objektum octopi szót kapjuk eredményül.

Lemmatizáció megvalósítása Pythonban

Ezután a lemmatizálást fogjuk megvalósítani a .lemmatize függvény használatával. 

Lemmatizáció Pythonban |  Útmutató kezdőknek

Ebben a lépésben a w változót használtuk, amely az objektum octopi szót tartalmazza, és a .lemmatize függvényt használtuk a lemmatizálás alkalmazására. Ennek eredményeként megkaptuk a polip szót, amely az octopi szó gyöke vagy alapja .

Ezek után próbáljuk meg alkalmazni a lemmatizálást a jobb szóval .

Lemmatizáció Pythonban |  Útmutató kezdőknek

Az előző példában a szóobjektumunkat octopi- ról jobbra frissítettük . Ezután lemmatizáltuk a .lemmatize függvénnyel. Így a kapott eredmény megegyezik az általunk használt objektum szóval.

A .lemmatize függvény használatával a lemmatizálás módját megváltoztathatjuk egy beszédrészlet átadásával. Példaként, próbáljunk meg átadni egy .lemmatize függvényt, amely a melléknevet jelenti a beszédrészekben. 

Lemmatizáció Pythonban |  Útmutató kezdőknek

Miután hozzáadtunk egy beszédrészt a .lemmatize függvényhez, eredményeként az alapszót jóvá tudjuk tenni .

Változtassuk át a szóobjektumunkat ismét futóra . Változtassuk meg azt a beszédrészt is, amelyet át fogunk adni a .lemmatize függvénynek, v- re , ami az igét jelenti.

Lemmatizáció Pythonban |  Útmutató kezdőknek

A változtatások elvégzése és a .lemmatize függvény inicializálása után megkaptuk a futó szó gyökérszavát, ami ennek eredményeként lefut . A legtöbb lemmatizáló nem képes végrehajtani azokat a metódusokat, amelyeket a .lemmatize függvény használatával tettünk.

A .lemmatize függvény azonban jelentős eszköz, amelyet bizonyos típusú műveletek végrehajtásakor használhatunk egy szó alapformájának megszerzéséhez.




Következtetés

Röviden, meg tudjuk érteni a lemmatizáció használatát és működését. Megvitattuk a lemmatizálás hasonlóságát és különbségeit a származékostól is . A Word könyvtár használatával és a .lemmatize funkció használatával is létrehozhatunk egy szóobjektumot .

Sőt, megtanultuk, hogyan alkalmazzuk a beszéd különböző részeit a .lemmatize függvényben. A lemmatizálás alkalmazása a napi szövegelemzési feladatokban nagymértékben segít csökkenteni egy adott szó alapszava kereséséhez szükséges időt és erőfeszítést.

Minden jót,

Gaellim

Leave a Comment

E-mail melléklet mentése SharePointba a Power Automate segítségével

E-mail melléklet mentése SharePointba a Power Automate segítségével

Ebből a blogból megtudhatja, hogyan mentheti automatikusan az e-mail mellékleteket a SharePointba, majd törölheti az e-maileket a Power Automate segítségével.

A Microsoft LuckyTemplates irányítópult 18 legjobb példája 2023

A Microsoft LuckyTemplates irányítópult 18 legjobb példája 2023

A Microsoft LuckyTemplates irányítópult 18 legjobb példája 2023

A Power Automate folyamatok létrehozása a semmiből

A Power Automate folyamatok létrehozása a semmiből

Ismerje meg, hogyan hozhat létre <strong>Power Automate</strong> folyamatokat a semmiből. Sablon használata helyett mi magunk hozzuk létre a kiváltó okokat és a műveleteket.

4 módszer a Pi használatára a Pythonban példákkal

4 módszer a Pi használatára a Pythonban példákkal

4 módszer a Pi használatára a Pythonban példákkal

Profit and Loss (P&L) kimutatások létrehozása a LuckyTemplates alkalmazásban

Profit and Loss (P&L) kimutatások létrehozása a LuckyTemplates alkalmazásban

Ebben az útmutatóban bemutatom, hogyan lehet Pénzügyi információk mátrixát létrehozni a Profit és veszteség (P&L) kimutatással a LuckyTemplates alkalmazásban.

Hogyan lehet dinamikusan egyesíteni az oszlopokat egy Power Query-táblázatban

Hogyan lehet dinamikusan egyesíteni az oszlopokat egy Power Query-táblázatban

Fedezze fel, hogyan lehet dinamikusan egyesíteni oszlopokat a Power Query Table.CombineColumns függvény segítségével.

SharePoint-fájlok hozzáadása a számítógéphez

SharePoint-fájlok hozzáadása a számítógéphez

Ismerje meg, hogyan adhatjuk hozzá és szinkronizálhatjuk SharePoint-fájljainkat az asztalon és a OneDrive-on.

Dátumtáblázat létrehozása a LuckyTemplates alkalmazásban

Dátumtáblázat létrehozása a LuckyTemplates alkalmazásban

Tudja meg, miért fontos egy dedikált dátumtáblázat a LuckyTemplatesben, és ismerje meg ennek leggyorsabb és leghatékonyabb módját.

LuckyTemplates mobil jelentéskészítési tippek és technikák

LuckyTemplates mobil jelentéskészítési tippek és technikák

Ez a rövid oktatóanyag kiemeli a LuckyTemplates mobil jelentési funkcióját. Megmutatom, hogyan készíthet hatékony jelentéseket mobileszközökön.

Professzionális szolgáltatáselemzési jelentések LuckyTemplatesben

Professzionális szolgáltatáselemzési jelentések LuckyTemplatesben

Ebben a LuckyTemplates bemutatóban olyan jelentéseket tekintünk át, amelyek professzionális szolgáltatáselemzést mutatnak be egy olyan cégtől, amely több szerződéssel és ügyfél-elkötelezettséggel rendelkezik.