Tekstianalyysi Pythonilla: Puheen osien tunnistaminen

Tässä blogissa näytämme, kuinka Pythonilla voit tunnistaa LuckyTemplates-tekstidatan puheosat. Käsittelemme Pythonin käytön vaiheet tekstianalyysissä ja annamme esimerkkejä ja vinkkejä, jotka auttavat sinua pääsemään alkuun omien tekstianalyysiprojektien parissa. Voit katsoa tämän opetusohjelman koko videon tämän blogin alaosasta.

Sisällysluettelo

Lähdetiedot

Tässä opetusohjelmassa käytämme valmiina olevaa sanapilveä, joka sisältää arvioitavat tekstit. Tämä näkyy alla olevan kuvan vasemmassa reunassa. Oikealla puolella on suodattimet eri puheen osien, esimerkiksi adjektiivien tai verbien, tunnistamiseen. 

Tekstianalyysi Pythonilla: Puheen osien tunnistaminen

Voimme suodattaa pois sanat, jotka ovat adverbeja, substantiivit, erityyppiset substantiivit tai verbit ja verbipohjat. Tämä on erittäin hyödyllistä, kun luot markkinointikampanjaa ja etsit sanoja asiakasarvosteluistasi. 

Aloitetaan avaamalla editori. 

Lähdetiedoissamme on sarakkeita tunnuksille, iän, otsikon ja arvostelun tekstille. Keskitymme Review Text -sarakkeeseen ja jäsentelemme sen tekstianalyysiä varten. On myös muita luokkia, joista voi olla hyötyä analyysissämme.

Tekstianalyysi Pythonilla: Puheen osien tunnistaminen

Tekstianalyysi Pythonilla

Aloitetaan tavallisista tuomistamme tiedoista. Ensimmäinen asia, jonka teemme, on suodattaa rivit, koska meillä on paljon dataa, ja kun teemme tekstianalyysiä, se vie aikaa. 

Suodata tietomme ottamalla ensimmäiset 50 riviä tekstianalyysin nopeuttamiseksi. 

Tekstianalyysi Pythonilla: Puheen osien tunnistaminen

Kun suodatus on poistettu, siirry kohtaan Muunna ja suorita komentosarja. Koodaamme kaiken tänne, koska koodia ei ole paljon. 

Tekstianalyysi Pythonilla: Puheen osien tunnistaminen

Pakettien tuonti

Tuodaan kaksi pakettia Python-tekstianalyysiimme editorillamme. "Tuomme pandat pd -muodossa" , tietojenkäsittelykirjastomme, joka tallennetaan muuttujaksi pd. Ja sitten " tekstiblobista " " tuomme TextBlobin" isolla kirjaimella sanojen välissä. 

Voimme aina dokumentoida tekemämme asiakirjan merkkijonon. Kirjoitetaanpa pakettiemme päälle #tuoda tärkeimmät kirjastot .

Tekstianalyysi Pythonilla: Puheen osien tunnistaminen

Muuttujan nimeäminen uudelleen

Skriptimme ensimmäisellä rivillä on tämä LuckyTemplatesin tarjoama rivi, jossa lukee # 'tietojoukko' sisältää tämän skriptin syöttötiedot. Tämä rivi sanoo, että tietojamme kutsutaan tietojoukoksi. 

Joten muutetaan sitä, koska "tietojoukon" kirjoittaminen kestää liian kauan. Kirjoita seuraavalle riville #change tietojoukon muuttuja ja df = dataset .

Tekstianalyysi Pythonilla: Puheen osien tunnistaminen

Nyt on lyhyempi kirjoittaa muuttujamme. 

Tekstianalyysin tekeminen

Jatketaan tekstianalyysiämme. Muista, että arvostelutekstimme ovat sarakkeessa, jossa on yksittäisiä soluja. Tämä asetus ei todellakaan ole hyödyllinen meille, koska haluamme kaikki tekstit yhteen, jotta voimme suorittaa analyysin siitä. 

Emme kuitenkaan halua, että niitä yhdistetään ilman välilyöntiä, joten aloitetaan koodimme välilyönnillä lainausmerkin sisällä .  

Lisätään sitten .join ja eristetään arvostelutekstisarake käyttämällä df -muuttujaamme, joka sisältää tietojoukon. Kirjoita "Arvosteluteksti", joka on sijoitettu sarakkeen eristävään hakasulkeeseen. 

Tämä koodi yhdistää kaiken, mutta meidän on tallennettava se, joten luodaan muuttuja nimeltä sanat.

Tekstianalyysi Pythonilla: Puheen osien tunnistaminen

Kun olemme saaneet kaikki sanat yhteen, voimme sitten alkaa analysoimaan sanoja tekstilobin avulla. 

Ensimmäinen asia, joka on tehtävä, on luoda puheosat käyttämällä blob -muuttujaa, joka meidän on välitettävä sanoja tekstiblobille. Käytämme tekstiä ja välitämme tekstin, joka on sanamme . Tämä kirjoitetaan muodossa blob = TextBlob(words).

Nyt kun meillä on kyseinen blob, otamme sen ja luomme osat_of_speech- muuttujamme käyttämällä blob.tags -muuttujaa . Tunnisteet ovat kunkin puheen osan lyhenteitä. 

Seuraavaksi aiomme tallentaa tämän tietokehykseksi käyttämällä Pandaja , jotka olemme tuoneet sisään. Kutsutaan sitä tiedoksemme , joka on yhtä suuri kuin pd.DataFrame , ja tuomme sisään osat_of_speech

Tekstianalyysi Pythonilla: Puheen osien tunnistaminen

Suorita koodimme napsauttamalla OK . Koodimme suorittamisen jälkeen meidän pitäisi saada taulukko muuttujistamme. Meillä on tietojoukko tai alkuperäiset tietomme. Meillä on myös tietomme ja df

Tekstianalyysi Pythonilla: Puheen osien tunnistaminen

Jos et saanut toivottua tulosta, näytämme sinulle erilaisia ​​tapoja välttää joitain koodissa mahdollisesti ilmeneviä virheitä.

Tekstianalyysin koodin korjaaminen Pythonissa

Joskus meidän on ehkä oltava hyvin yksiselitteisiä muuttaessamme huolestuttavan tekstin muotoa. 

Voimme tehdä sen kutsumalla df- muuttujaamme, eristämällä 'Review Text ', joka on sijoitettu hakasulkumerkinnän sisään ja muuttamalla sitten tyypin merkkijonoiksi käyttämällä .astype('str') . Sitten vain tallenna tämä uudelleen df- muuttujaan. 

Tekstianalyysi Pythonilla: Puheen osien tunnistaminen

Napsauta OK suorittaaksesi koodin uudelleen. Meidän pitäisi saada samat tulokset kuin aiemmin.

Nyt haluamme avata tietomme , viimeisen tuomamme muuttujan nähdäksemme, miltä se näyttää. 

Tekstianalyysi Pythonilla: Puheen osien tunnistaminen

Meidän pitäisi jakaa kaikki sanamme puheenosiksi. Emme vielä nimenneet sarakkeitamme, mutta voimme tehdä sen helposti. 

Tekstianalyysi Pythonilla: Puheen osien tunnistaminen

Tämän saman tekstianalyysin vanhassa versiossa kutsuin ensimmäistä saraketta Wordiksi ja toista lyhenteeksi

Tekstianalyysi Pythonilla: Puheen osien tunnistaminen

Puheen osat -kyselyssä tuomme todelliset sanat, jotka ovat näille lyhenteille, ja yhdistämme ne kaikki yhteen.

Tekstianalyysi Pythonilla: Puheen osien tunnistaminen

Nyt suljetaan ja haetaan

Tekstianalyysi Pythonilla: Puheen osien tunnistaminen

Tekemiemme vaiheiden avulla pystyimme suodattamaan puheen eri osien läpi, jotka tunnistimme yksinkertaisella koodilla. Se antaa meille tämän visuaalisen LuckyTemplatesissa, jossa voimme helposti suodattaa tekstimme sen perusteella, mihin puheen luokkaan ne kuuluvat. 

Tekstianalyysi Pythonilla: Puheen osien tunnistaminen




Johtopäätös

Kuten , saatat kohdata tarpeen poimia oivalluksia ja merkityksiä suurista määristä jäsentämätöntä tekstidataa. Opit on hyödyllinen tapa ymmärtää tekstidataa tekstianalyysin avulla.

Nyt voit helposti jakaa tekstin pienempiin yksiköihin, kuten sanoihin ja lauseisiin, ja analysoida sitten näistä yksiköistä kuvioita ja suhteita. Voit saavuttaa kaikki nämä tavoitteet käyttämällä tekstianalyysiä Pythonissa ja LuckyTemplatesissa. 

Kaikki parhaat,


PowerApps-hakukenttä: lisääminen ja mukauttaminen

PowerApps-hakukenttä: lisääminen ja mukauttaminen

Opi luomaan PowerApps-hakukenttä tyhjästä ja muokkaamaan sitä vastaamaan sovelluksesi yleistä teemaa.

SELECTEDVALUE DAX Esimerkki - Sadonkorjuun viipalointilaitteen valinta

SELECTEDVALUE DAX Esimerkki - Sadonkorjuun viipalointilaitteen valinta

Kerää tai kaappaa suuren sisällä oleva arvo käyttääksesi sitä toisessa suuressa dynaamisiin laskelmiin käyttämällä LuckyTemplatesin SELECTEDVALUE DAX -arvoa.

Versiohistoria SharePoint-luetteloissa

Versiohistoria SharePoint-luetteloissa

Tutustu siihen, kuinka SharePointin versiohistoria voi auttaa sinua näkemään tiettyjen tietojen kehityksen ja kuinka monta muutosta se on käynyt läpi.

Värien heksadesimaalikoodien valitsin LuckyTemplates-raporteille

Värien heksadesimaalikoodien valitsin LuckyTemplates-raporteille

Tässä on työkalu raporttien ja visuaalien luomiseen, värien heksadesimaalikoodien valitsin, jonka avulla voit helposti saada värit LuckyTemplates-raporttiisi.

Dynaaminen päivämäärän slicer LuckyTemplatesissa käyttäen jaksotaulukkoa

Dynaaminen päivämäärän slicer LuckyTemplatesissa käyttäen jaksotaulukkoa

Voit helposti näyttää ajanjakson raportissasi viipaleina jaksotaulukon avulla. Käytä M-koodia luodaksesi dynaamisen päivämäärän osittimen LuckyTemplatesissa.

Suhde- ja taajuustaulukot Excelissä

Suhde- ja taajuustaulukot Excelissä

Aioin sukeltaa Excelin taajuustaulukoihin sekä suhteellisiin taulukoihin. Selvitä, mitä ne ovat ja milloin niitä käytetään.

Kuinka asentaa DAX Studio & Tabular Editor LuckyTemplatesissa

Kuinka asentaa DAX Studio & Tabular Editor LuckyTemplatesissa

Opi lataamaan ja asentamaan DAX Studio ja Tabular Editor 3 ja miten ne määritetään käytettäväksi LuckyTemplatesissa ja Excelissä.

LuckyTemplates -muotokartan visualisointi tilaanalyysiin

LuckyTemplates -muotokartan visualisointi tilaanalyysiin

Tämä blogi sisältää Shape Map -visualisoinnin tilaanalyysiä varten LuckyTemplatesissa. Näytän sinulle, kuinka voit käyttää tätä visualisointia tehokkaasti sen ominaisuuksien ja elementtien kanssa.

LuckyTemplatesin talousraportointi: tulosten kohdentaminen malleihin jokaisella rivillä

LuckyTemplatesin talousraportointi: tulosten kohdentaminen malleihin jokaisella rivillä

Tässä opetusohjelmassa esittelen ainutlaatuisen idean talousraportoinnista, joka allokoi tulokset LuckyTemplatesin sisällä olevien taulukkopohjien ennalta määrittämiseen.

DAX-mittaukset LuckyTemplatesissa käyttämällä mittahaaroitusta

DAX-mittaukset LuckyTemplatesissa käyttämällä mittahaaroitusta

Luo DAX-suureita LuckyTemplatesissa käyttämällä olemassa olevia suureita tai kaavoja. Tätä kutsun mittahaaroitustekniikaksi.