Ebben az oktatóanyagban a lemmatizálásról fogunk beszélni, amely egy olyan módszer, amelyet egy szó különböző elemeinek csoportosítására használnak. A lemmatizálás célja a szó inflexiójának csökkentése is, és a szó gyökének vagy alapformájának biztosítására összpontosít, amit a lemma szó jelent.
Tartalomjegyzék
Lemmatizáció vs száradás
A lemmatizáció hasonló a szótőhöz, amely szintén csökkenti a szavak ragozását. Az egyetlen különbség az, hogy a lemmatizálás szótár alapú szavakat használ.
Másrészt a tőképző csak a ragozott szó toldalékait távolítja el, ami nem létező szavakat eredményezhet.
Például, ha a tanulmányok szó tőzését használjuk , akkor ez a studi szót adja ki kimenetként, mivel célja az es utótag eltávolítása a tanulmányok szóból .
Másrészt, ha a lemmatizálást használjuk, akkor a tanulmány szó lesz az eredmény, mivel ez egy szó alapformájának biztosítására összpontosít.
A lemmatizáció alkalmazásakor figyelembe veendő dolgok
- Szótár alapú szavakat használ. A lemma kifejezéssel , amely egy szó gyökerét vagy alapformáját jelenti, a lemmatizálás célja a szó alapformájának megadása, nem pedig a szó ragozásainak eltávolítása.
- Teljesen a beszédrészektől függ, hogy megtaláljuk-e az alapszót. A beszédrészek megadása nélkül előfordulhat, hogy a lemmatizálás nem működik jól, és előfordulhat, hogy nem kapja meg a keresett eredményt.
- Lassabb, mint a száradás, de erősebb. Mivel a lemmatizálás nem követi a szavakon végrehajtandó algoritmust és a beszédrészek megadásának szükségességét, lassabbnak tekinthető, mint a szótő. Hatékonyabb azonban abban a tekintetben, hogy szótár alapú szavakat használ az eredményekhez.
- Nagyobb pontossággal keresi az alapszót. Mivel a lemmatizálás szótár alapú szavakat használ a ragozott szó eredményeinek elrendezéséhez, nagyobb az esélye a pontos kimenetek elérésére.
Előkészületi szakasz a lemmatizáláshoz Pythonban
Mielőtt folytatnánk a lemmatizálás megvalósítását, kezdjük a Word könyvtár importálásával a textblobból .

Ezt követően létrehozunk egy szóobjektumot.

Egy szóobjektum létrehozásához létrehoztunk egy w nevű változót . Ezután eltároltuk a szótárat, amely a szóobjektumunkat tartalmazza, ami az octopi , a polip szó többes számú alakja. Vegye figyelembe, hogy amikor egy elemet a Word könyvtár használatával ad át, fontos, hogy az elemet egyetlen idézőjelbe helyezze.
Inicializáljuk a w változót , hogy megnézzük, tartalmazza-e az általunk létrehozott objektum szót.

A w változó végrehajtásakor az objektum octopi szót kapjuk eredményül.
Lemmatizáció megvalósítása Pythonban
Ezután a lemmatizálást fogjuk megvalósítani a .lemmatize függvény használatával.

Ebben a lépésben a w változót használtuk, amely az objektum octopi szót tartalmazza, és a .lemmatize függvényt használtuk a lemmatizálás alkalmazására. Ennek eredményeként megkaptuk a polip szót, amely az octopi szó gyöke vagy alapja .
Ezek után próbáljuk meg alkalmazni a lemmatizálást a jobb szóval .

Az előző példában a szóobjektumunkat octopi- ról jobbra frissítettük . Ezután lemmatizáltuk a .lemmatize függvénnyel. Így a kapott eredmény megegyezik az általunk használt objektum szóval.
A .lemmatize függvény használatával a lemmatizálás módját megváltoztathatjuk egy beszédrészlet átadásával. Példaként, próbáljunk meg átadni egy .lemmatize függvényt, amely a melléknevet jelenti a beszédrészekben.

Miután hozzáadtunk egy beszédrészt a .lemmatize függvényhez, eredményeként az alapszót jóvá tudjuk tenni .
Változtassuk át a szóobjektumunkat ismét futóra . Változtassuk meg azt a beszédrészt is, amelyet át fogunk adni a .lemmatize függvénynek, v- re , ami az igét jelenti.

A változtatások elvégzése és a .lemmatize függvény inicializálása után megkaptuk a futó szó gyökérszavát, ami ennek eredményeként lefut . A legtöbb lemmatizáló nem képes végrehajtani azokat a metódusokat, amelyeket a .lemmatize függvény használatával tettünk.
A .lemmatize függvény azonban jelentős eszköz, amelyet bizonyos típusú műveletek végrehajtásakor használhatunk egy szó alapformájának megszerzéséhez.
Következtetés
Röviden, meg tudjuk érteni a lemmatizáció használatát és működését. Megvitattuk a lemmatizálás hasonlóságát és különbségeit a származékostól is . A Word könyvtár használatával és a .lemmatize funkció használatával is létrehozhatunk egy szóobjektumot .
Sőt, megtanultuk, hogyan alkalmazzuk a beszéd különböző részeit a .lemmatize függvényben. A lemmatizálás alkalmazása a napi szövegelemzési feladatokban nagymértékben segít csökkenteni egy adott szó alapszava kereséséhez szükséges időt és erőfeszítést.
Minden jót,
Gaellim