Lemmatizáció Pythonban | Útmutató kezdőknek

Ebben az oktatóanyagban a lemmatizálásról fogunk beszélni, amely egy olyan módszer, amelyet egy szó különböző elemeinek csoportosítására használnak. A lemmatizálás célja a szó inflexiójának csökkentése is, és a szó gyökének vagy alapformájának biztosítására összpontosít, amit a lemma szó jelent.

Tartalomjegyzék

Lemmatizáció vs száradás

A lemmatizáció hasonló a szótőhöz, amely szintén csökkenti a szavak ragozását. Az egyetlen különbség az, hogy a lemmatizálás szótár alapú szavakat használ.

Másrészt a tőképző csak a ragozott szó toldalékait távolítja el, ami nem létező szavakat eredményezhet.

Például, ha a tanulmányok szó tőzését használjuk , akkor ez a studi szót adja ki kimenetként, mivel célja az es utótag eltávolítása a tanulmányok szóból .

Másrészt, ha a lemmatizálást használjuk, akkor a tanulmány szó lesz az eredmény, mivel ez egy szó alapformájának biztosítására összpontosít.

A lemmatizáció alkalmazásakor figyelembe veendő dolgok

  • Szótár alapú szavakat használ. A lemma kifejezéssel , amely egy szó gyökerét vagy alapformáját jelenti, a lemmatizálás célja a szó alapformájának megadása, nem pedig a szó ragozásainak eltávolítása.
  • Teljesen a beszédrészektől függ, hogy megtaláljuk-e az alapszót. A beszédrészek megadása nélkül előfordulhat, hogy a lemmatizálás nem működik jól, és előfordulhat, hogy nem kapja meg a keresett eredményt.
  • Lassabb, mint a száradás, de erősebb. Mivel a lemmatizálás nem követi a szavakon végrehajtandó algoritmust és a beszédrészek megadásának szükségességét, lassabbnak tekinthető, mint a szótő. Hatékonyabb azonban abban a tekintetben, hogy szótár alapú szavakat használ az eredményekhez. 
  • Nagyobb pontossággal keresi az alapszót. Mivel a lemmatizálás szótár alapú szavakat használ a ragozott szó eredményeinek elrendezéséhez, nagyobb az esélye a pontos kimenetek elérésére.

Előkészületi szakasz a lemmatizáláshoz Pythonban

Mielőtt folytatnánk a lemmatizálás megvalósítását, kezdjük a Word könyvtár importálásával a textblobból .

Lemmatizáció Pythonban |  Útmutató kezdőknek

Ezt követően létrehozunk egy szóobjektumot. 

Lemmatizáció Pythonban |  Útmutató kezdőknek

Egy szóobjektum létrehozásához létrehoztunk egy w nevű változót . Ezután eltároltuk a szótárat, amely a szóobjektumunkat tartalmazza, ami az octopi , a polip szó többes számú alakja. Vegye figyelembe, hogy amikor egy elemet a Word könyvtár használatával ad át, fontos, hogy az elemet egyetlen idézőjelbe helyezze.

Inicializáljuk a w változót , hogy megnézzük, tartalmazza-e az általunk létrehozott objektum szót.

Lemmatizáció Pythonban |  Útmutató kezdőknek

A w változó végrehajtásakor az objektum octopi szót kapjuk eredményül.

Lemmatizáció megvalósítása Pythonban

Ezután a lemmatizálást fogjuk megvalósítani a .lemmatize függvény használatával. 

Lemmatizáció Pythonban |  Útmutató kezdőknek

Ebben a lépésben a w változót használtuk, amely az objektum octopi szót tartalmazza, és a .lemmatize függvényt használtuk a lemmatizálás alkalmazására. Ennek eredményeként megkaptuk a polip szót, amely az octopi szó gyöke vagy alapja .

Ezek után próbáljuk meg alkalmazni a lemmatizálást a jobb szóval .

Lemmatizáció Pythonban |  Útmutató kezdőknek

Az előző példában a szóobjektumunkat octopi- ról jobbra frissítettük . Ezután lemmatizáltuk a .lemmatize függvénnyel. Így a kapott eredmény megegyezik az általunk használt objektum szóval.

A .lemmatize függvény használatával a lemmatizálás módját megváltoztathatjuk egy beszédrészlet átadásával. Példaként, próbáljunk meg átadni egy .lemmatize függvényt, amely a melléknevet jelenti a beszédrészekben. 

Lemmatizáció Pythonban |  Útmutató kezdőknek

Miután hozzáadtunk egy beszédrészt a .lemmatize függvényhez, eredményeként az alapszót jóvá tudjuk tenni .

Változtassuk át a szóobjektumunkat ismét futóra . Változtassuk meg azt a beszédrészt is, amelyet át fogunk adni a .lemmatize függvénynek, v- re , ami az igét jelenti.

Lemmatizáció Pythonban |  Útmutató kezdőknek

A változtatások elvégzése és a .lemmatize függvény inicializálása után megkaptuk a futó szó gyökérszavát, ami ennek eredményeként lefut . A legtöbb lemmatizáló nem képes végrehajtani azokat a metódusokat, amelyeket a .lemmatize függvény használatával tettünk.

A .lemmatize függvény azonban jelentős eszköz, amelyet bizonyos típusú műveletek végrehajtásakor használhatunk egy szó alapformájának megszerzéséhez.




Következtetés

Röviden, meg tudjuk érteni a lemmatizáció használatát és működését. Megvitattuk a lemmatizálás hasonlóságát és különbségeit a származékostól is . A Word könyvtár használatával és a .lemmatize funkció használatával is létrehozhatunk egy szóobjektumot .

Sőt, megtanultuk, hogyan alkalmazzuk a beszéd különböző részeit a .lemmatize függvényben. A lemmatizálás alkalmazása a napi szövegelemzési feladatokban nagymértékben segít csökkenteni egy adott szó alapszava kereséséhez szükséges időt és erőfeszítést.

Minden jót,

Gaellim


Mi az a Power Query & M Language: Részletes áttekintés

Mi az a Power Query & M Language: Részletes áttekintés

Ez az oktatóanyag áttekintést nyújt a Power Query szerkesztőről és az M nyelvről a LuckyTemplates asztalon.

Oldalszámozott jelentés készítése: Szövegek és képek hozzáadása

Oldalszámozott jelentés készítése: Szövegek és képek hozzáadása

Ismerje meg, hogyan hozhat létre oldalszámozott jelentést, hogyan adhat hozzá szövegeket és képeket, majd exportálhatja a jelentést különböző dokumentumformátumokba.

A SharePoint automatizálási szolgáltatás | Bevezetés

A SharePoint automatizálási szolgáltatás | Bevezetés

Ismerje meg, hogyan használhatja a SharePoint automatizálási funkcióját munkafolyamatok létrehozására, és segít a SharePoint-felhasználók, -könyvtárak és -listák mikrokezelésében.

Oldja meg az adatelemzési kihívást a LuckyTemplates Accelerator segítségével

Oldja meg az adatelemzési kihívást a LuckyTemplates Accelerator segítségével

Fejlessze jelentéskészítési készségeit, ha csatlakozik egy adatelemzési kihíváshoz. Az Accelerator segítségével LuckyTemplates szuperfelhasználóvá válhatsz!

Összesítések futtatása a LuckyTemplates alkalmazásban a DAX segítségével

Összesítések futtatása a LuckyTemplates alkalmazásban a DAX segítségével

Ismerje meg, hogyan számíthatja ki a futó összegeket a LuckyTemplates programban a DAX segítségével. Az összesítések futtatása lehetővé teszi, hogy ne ragadjon le egyetlen egyéni eredménynél sem.

A LuckyTemplates Dax-változói állandóak: mit jelent ez?

A LuckyTemplates Dax-változói állandóak: mit jelent ez?

Ismerje meg a változók fogalmát a DAX-ban a LuckyTemplates-en belül, és a változók hatásait a mérőszámok kiszámítására.

LuckyTemplates lejtődiagram: Áttekintés

LuckyTemplates lejtődiagram: Áttekintés

Tudjon meg többet a LuckyTemplates Slope diagram nevű egyéni vizualizációról, amely egyetlen vagy több mérőszám növekedésének/csökkenésének megjelenítésére szolgál.

LuckyTemplates színes témák az egységes vizualizációkhoz

LuckyTemplates színes témák az egységes vizualizációkhoz

Fedezze fel a LuckyTemplates színtémáit. Ezek elengedhetetlenek ahhoz, hogy jelentései és vizualizációi zökkenőmentesen nézzenek ki és működjenek.

Átlag kiszámítása LuckyTemplatesben: Hétköznapi vagy hétvégi eredmények elkülönítése a DAX segítségével

Átlag kiszámítása LuckyTemplatesben: Hétköznapi vagy hétvégi eredmények elkülönítése a DAX segítségével

Az átlag kiszámítása a LuckyTemplates alkalmazásban számos módon elvégezhető, hogy pontos információkat kapjon üzleti jelentéseihez.

LuckyTemplates Theming | LuckyTemplates Desktop Standard Theming

LuckyTemplates Theming | LuckyTemplates Desktop Standard Theming

Nézzük meg a Standard LuckyTemplates Theming témakört, és tekintsünk át néhány olyan funkciót, amely magában a LuckyTemplates Desktop alkalmazásban található.