Lemmatisaatio Pythonissa | Aloittelijan opas

Tässä opetusohjelmassa aiomme keskustella lemmatisaatiosta, joka on menetelmä, jota käytetään sanan eri elementtien ryhmittelyyn. Lemmatisaatio pyrkii myös vähentämään sanan taivutusmuotoa ja keskittyy tarjoamaan sanan juuri- tai perusmuoto, jota sana lemma tarkoittaa.

Sisällysluettelo

Lemmatisaatio vs stemming

Lemmatisaatio on samanlainen kuin varsinainen, joka myös vähentää sanojen taivutusmuotoja. Ainoa ero on, että lemmatisaatio käyttää sanakirjapohjaisia ​​sanoja tuloksena.

Toisaalta johdettu sana poistaa vain liitteet taivutetusta sanasta, mikä voi johtaa sanoihin, joita ei ole olemassa.

Jos esimerkiksi käytämme johdettua sanaa tutkimukset , se antaa sanan studi tulosteena, koska sen tarkoituksena on poistaa es- liite sanasta tutkimukset .

Toisaalta, jos lemmatisaatiota käytetään, tuloksena annetaan sana tutkimus , koska se keskittyy sanan perusmuodon tarjoamiseen.

Huomioittavia asioita käytettäessä lemmatisaatiota

  • Se käyttää sanakirjapohjaisia ​​sanoja. Termillä lemma , joka tarkoittaa sanan juuri- tai kantamuotoa, lemmatisaatio pyrkii tarjoamaan sanan perusmuodon sen sijaan, että poistaisi vain sanan taivutusmuotoja.
  • Perussanan löytäminen riippuu täysin puheen osista. Ilman puheenosien määrittämistä) lemmatointi ei välttämättä toimi hyvin, etkä välttämättä saa etsimääsi tulosta.
  • Se on hitaampi kuin varsiminen, mutta se on tehokkaampi. Koska lemmatisointi ei noudata algoritmia suoritettaessa sanoja ja tarvetta tarjota puheenosia, sitä pidetään hitaampana kuin johdosta. Se on kuitenkin tehokkaampi, koska se käyttää sanakirjapohjaisia ​​sanoja tuloksiin. 
  • Sillä on suurempi tarkkuus etsiessään juurisanaa. Koska lemmatisointi käyttää sanakirjapohjaisia ​​sanoja taivutetun sanan tulosten asettamisessa, sinulla on paremmat mahdollisuudet saada tarkkoja tuloksia.

Lemmatisoinnin valmisteluvaihe Pythonissa

Ennen kuin jatkamme lemmatisoinnin toteuttamista, aloitetaan tuomalla Word- kirjasto textblobista .

Lemmatisaatio Pythonissa |  Aloittelijan opas

Sen jälkeen luomme sanaobjektin. 

Lemmatisaatio Pythonissa |  Aloittelijan opas

Sanaobjektin luomiseksi loimme muuttujan nimeltä w . Sitten tallensimme Word-kirjaston, joka sisältää sanaobjektimme, joka on octopi , sanan mustekala monikkomuoto. Huomaa, että kun välität elementin Word-kirjaston avulla, on tärkeää sisällyttää se yksittäisiin lainausmerkkeihin.

Alustetaan muuttuja w nähdäksemme, sisältääkö se juuri luomamme sanaobjektin.

Lemmatisaatio Pythonissa |  Aloittelijan opas

Kun w- muuttuja suoritetaan, saamme tuloksena sanan objekti octopi .

Lemmatisoinnin toteuttaminen Pythonissa

Seuraavaksi toteutamme lemmatisoinnin käyttämällä .lemmatize- funktiota. 

Lemmatisaatio Pythonissa |  Aloittelijan opas

Tässä vaiheessa käytimme w -muuttujaa, joka sisältää sanan objekti octopi , ja .lemmatize -funktiota lemmatisoinnin soveltamiseen. Tuloksena saimme sanan mustekala , joka on sanan mustekala juuri- tai kantamuoto .

Sen jälkeen kokeillaan soveltaa lemmatisaatiota sanalla parempi .

Lemmatisaatio Pythonissa |  Aloittelijan opas

Edellisessä esimerkissä päivitimme sanaobjektimme mustekalasta paremmaksi . Sitten lemmatisoimme sen .lemmatize - funktiolla. Siten saamamme tulos on sama kuin käyttämämme sana objekti.

Käytettäessä .lemmatize-funktiota voit muuttaa sen lemmatisoinnin tapaa välittämällä puheenosan. Esimerkkinä yritetään siirtää funktio .lemmatize, joka tarkoittaa adjektiivia puheosissa. 

Lemmatisaatio Pythonissa |  Aloittelijan opas

Kun olet lisännyt osan puhetta .lemmatize-funktioon, voimme saada perussanasta hyvän tuloksen.

Muutetaan sanaobjekti jälleen juoksevaksi . Muutetaan myös .lemmatize-funktiolle siirrettävä sanan osa v:ksi, joka tarkoittaa verbiä.

Lemmatisaatio Pythonissa |  Aloittelijan opas

Muutosten tekemisen ja .lemmatize-funktion alustamisen jälkeen saimme sanan juoksun juurisanan, joka ajetaan tuloksena. Useimmat lemmatisoijat eivät pysty suorittamaan menetelmiä, joita teimme juuri käyttämällä .lemmatize-toimintoa.

.lemmatize-funktio on kuitenkin huomattava työkalu suoritettaessa tietyntyyppisiä sanan perusmuotoja.




Johtopäätös

Lyhyesti sanottuna voimme ymmärtää lemmatisoinnin käytön ja miten se toimii. Olemme keskustelleet myös lemmatisoinnin samankaltaisuudesta ja eroista johtumisesta . Pystymme myös luomaan sanaobjektin Word- kirjaston avulla ja hyödyntämään .lemmatize -funktiota.

Lisäksi olemme oppineet käyttämään puheen eri osia .lemmatize-funktiossa. Lemmatisoinnin toteuttaminen päivittäisissä tekstianalyysitehtävissäsi auttaa sinua huomattavasti vähentämään aikaa ja vaivaa tietyn sanan perussanan etsimiseen.

Kaikki parhaat,

Gaellim


Päivämäärätaulukon luominen LuckyTemplatesissa

Päivämäärätaulukon luominen LuckyTemplatesissa

Ota selvää, miksi LuckyTemplatesissa on tärkeää pitää oma päivämäärätaulukko ja opi nopein ja tehokkain tapa tehdä se.

LuckyTemplates mobiiliraportointivinkkejä ja -tekniikoita

LuckyTemplates mobiiliraportointivinkkejä ja -tekniikoita

Tämä lyhyt opetusohjelma korostaa LuckyTemplates-mobiiliraportointiominaisuutta. Näytän sinulle, kuinka voit kehittää raportteja tehokkaasti mobiililaitteille.

Ammattimainen palveluanalyysiraportit LuckyTemplatesissa

Ammattimainen palveluanalyysiraportit LuckyTemplatesissa

Tässä LuckyTemplates Showcase -esittelyssä käymme läpi raportteja, jotka näyttävät ammattitaitoisen palveluanalytiikan yritykseltä, jolla on useita sopimuksia ja asiakkaiden sitoumuksia.

Microsoft Power Platform -päivitykset | Microsoft Ignite 2021

Microsoft Power Platform -päivitykset | Microsoft Ignite 2021

Käy läpi tärkeimmät Power Appsin ja Power Automaten päivitykset sekä niiden edut ja vaikutukset Microsoft Power Platformiin.

Yleiset SQL-funktiot: Yleiskatsaus

Yleiset SQL-funktiot: Yleiskatsaus

Tutustu joihinkin yleisiin SQL-toimintoihin, joita voimme käyttää, kuten merkkijono, päivämäärä ja joitain lisätoimintoja tietojen käsittelyyn tai käsittelyyn.

LuckyTemplates-mallin luominen: opas ja vinkkejä

LuckyTemplates-mallin luominen: opas ja vinkkejä

Tässä opetusohjelmassa opit luomaan täydellisen LuckyTemplates-mallin, joka on määritetty tarpeidesi ja mieltymystesi mukaan.

Kenttäparametrit ja pienet kertoimet LuckyTemplatesissa

Kenttäparametrit ja pienet kertoimet LuckyTemplatesissa

Tässä blogissa esittelemme, kuinka kerrostat kenttäparametreja pienillä kerroilla uskomattoman hyödyllisten näkemysten ja visuaalien luomiseksi.

LuckyTemplates-sijoitus ja mukautettu ryhmittely

LuckyTemplates-sijoitus ja mukautettu ryhmittely

Tässä blogissa opit käyttämään LuckyTemplates-sijoitus- ja mukautettuja ryhmittelyominaisuuksia näytetietojen segmentoimiseen ja luokitteluun kriteerien mukaan.

LuckyTemplatesissa näytetään vain tiettyyn päivämäärään asti kumulatiivinen kokonaissumma

LuckyTemplatesissa näytetään vain tiettyyn päivämäärään asti kumulatiivinen kokonaissumma

Tässä opetusohjelmassa käsittelen tiettyä tekniikkaa, jolla voit näyttää kumulatiivisen kokonaissumman LuckyTemplates-visuaaleissasi vain tiettyyn päivämäärään asti.

Bullet Charts: Kehittyneet mukautetut visuaalit LuckyTemplatesille

Bullet Charts: Kehittyneet mukautetut visuaalit LuckyTemplatesille

Opi luomaan ja mukauttamaan Bullet-kaavioita LuckyTemplatesissa, joita käytetään pääasiassa suorituskyvyn mittaamiseen suhteessa tavoitteeseen tai edellisiin vuosiin.