Tekstianalyysi Pythonilla: Puheen osien tunnistaminen

Tässä blogissa näytämme, kuinka Pythonilla voit tunnistaa LuckyTemplates-tekstidatan puheosat. Käsittelemme Pythonin käytön vaiheet tekstianalyysissä ja annamme esimerkkejä ja vinkkejä, jotka auttavat sinua pääsemään alkuun omien tekstianalyysiprojektien parissa. Voit katsoa tämän opetusohjelman koko videon tämän blogin alaosasta.

Sisällysluettelo

Lähdetiedot

Tässä opetusohjelmassa käytämme valmiina olevaa sanapilveä, joka sisältää arvioitavat tekstit. Tämä näkyy alla olevan kuvan vasemmassa reunassa. Oikealla puolella on suodattimet eri puheen osien, esimerkiksi adjektiivien tai verbien, tunnistamiseen. 

Tekstianalyysi Pythonilla: Puheen osien tunnistaminen

Voimme suodattaa pois sanat, jotka ovat adverbeja, substantiivit, erityyppiset substantiivit tai verbit ja verbipohjat. Tämä on erittäin hyödyllistä, kun luot markkinointikampanjaa ja etsit sanoja asiakasarvosteluistasi. 

Aloitetaan avaamalla editori. 

Lähdetiedoissamme on sarakkeita tunnuksille, iän, otsikon ja arvostelun tekstille. Keskitymme Review Text -sarakkeeseen ja jäsentelemme sen tekstianalyysiä varten. On myös muita luokkia, joista voi olla hyötyä analyysissämme.

Tekstianalyysi Pythonilla: Puheen osien tunnistaminen

Tekstianalyysi Pythonilla

Aloitetaan tavallisista tuomistamme tiedoista. Ensimmäinen asia, jonka teemme, on suodattaa rivit, koska meillä on paljon dataa, ja kun teemme tekstianalyysiä, se vie aikaa. 

Suodata tietomme ottamalla ensimmäiset 50 riviä tekstianalyysin nopeuttamiseksi. 

Tekstianalyysi Pythonilla: Puheen osien tunnistaminen

Kun suodatus on poistettu, siirry kohtaan Muunna ja suorita komentosarja. Koodaamme kaiken tänne, koska koodia ei ole paljon. 

Tekstianalyysi Pythonilla: Puheen osien tunnistaminen

Pakettien tuonti

Tuodaan kaksi pakettia Python-tekstianalyysiimme editorillamme. "Tuomme pandat pd -muodossa" , tietojenkäsittelykirjastomme, joka tallennetaan muuttujaksi pd. Ja sitten " tekstiblobista " " tuomme TextBlobin" isolla kirjaimella sanojen välissä. 

Voimme aina dokumentoida tekemämme asiakirjan merkkijonon. Kirjoitetaanpa pakettiemme päälle #tuoda tärkeimmät kirjastot .

Tekstianalyysi Pythonilla: Puheen osien tunnistaminen

Muuttujan nimeäminen uudelleen

Skriptimme ensimmäisellä rivillä on tämä LuckyTemplatesin tarjoama rivi, jossa lukee # 'tietojoukko' sisältää tämän skriptin syöttötiedot. Tämä rivi sanoo, että tietojamme kutsutaan tietojoukoksi. 

Joten muutetaan sitä, koska "tietojoukon" kirjoittaminen kestää liian kauan. Kirjoita seuraavalle riville #change tietojoukon muuttuja ja df = dataset .

Tekstianalyysi Pythonilla: Puheen osien tunnistaminen

Nyt on lyhyempi kirjoittaa muuttujamme. 

Tekstianalyysin tekeminen

Jatketaan tekstianalyysiämme. Muista, että arvostelutekstimme ovat sarakkeessa, jossa on yksittäisiä soluja. Tämä asetus ei todellakaan ole hyödyllinen meille, koska haluamme kaikki tekstit yhteen, jotta voimme suorittaa analyysin siitä. 

Emme kuitenkaan halua, että niitä yhdistetään ilman välilyöntiä, joten aloitetaan koodimme välilyönnillä lainausmerkin sisällä .  

Lisätään sitten .join ja eristetään arvostelutekstisarake käyttämällä df -muuttujaamme, joka sisältää tietojoukon. Kirjoita "Arvosteluteksti", joka on sijoitettu sarakkeen eristävään hakasulkeeseen. 

Tämä koodi yhdistää kaiken, mutta meidän on tallennettava se, joten luodaan muuttuja nimeltä sanat.

Tekstianalyysi Pythonilla: Puheen osien tunnistaminen

Kun olemme saaneet kaikki sanat yhteen, voimme sitten alkaa analysoimaan sanoja tekstilobin avulla. 

Ensimmäinen asia, joka on tehtävä, on luoda puheosat käyttämällä blob -muuttujaa, joka meidän on välitettävä sanoja tekstiblobille. Käytämme tekstiä ja välitämme tekstin, joka on sanamme . Tämä kirjoitetaan muodossa blob = TextBlob(words).

Nyt kun meillä on kyseinen blob, otamme sen ja luomme osat_of_speech- muuttujamme käyttämällä blob.tags -muuttujaa . Tunnisteet ovat kunkin puheen osan lyhenteitä. 

Seuraavaksi aiomme tallentaa tämän tietokehykseksi käyttämällä Pandaja , jotka olemme tuoneet sisään. Kutsutaan sitä tiedoksemme , joka on yhtä suuri kuin pd.DataFrame , ja tuomme sisään osat_of_speech

Tekstianalyysi Pythonilla: Puheen osien tunnistaminen

Suorita koodimme napsauttamalla OK . Koodimme suorittamisen jälkeen meidän pitäisi saada taulukko muuttujistamme. Meillä on tietojoukko tai alkuperäiset tietomme. Meillä on myös tietomme ja df

Tekstianalyysi Pythonilla: Puheen osien tunnistaminen

Jos et saanut toivottua tulosta, näytämme sinulle erilaisia ​​tapoja välttää joitain koodissa mahdollisesti ilmeneviä virheitä.

Tekstianalyysin koodin korjaaminen Pythonissa

Joskus meidän on ehkä oltava hyvin yksiselitteisiä muuttaessamme huolestuttavan tekstin muotoa. 

Voimme tehdä sen kutsumalla df- muuttujaamme, eristämällä 'Review Text ', joka on sijoitettu hakasulkumerkinnän sisään ja muuttamalla sitten tyypin merkkijonoiksi käyttämällä .astype('str') . Sitten vain tallenna tämä uudelleen df- muuttujaan. 

Tekstianalyysi Pythonilla: Puheen osien tunnistaminen

Napsauta OK suorittaaksesi koodin uudelleen. Meidän pitäisi saada samat tulokset kuin aiemmin.

Nyt haluamme avata tietomme , viimeisen tuomamme muuttujan nähdäksemme, miltä se näyttää. 

Tekstianalyysi Pythonilla: Puheen osien tunnistaminen

Meidän pitäisi jakaa kaikki sanamme puheenosiksi. Emme vielä nimenneet sarakkeitamme, mutta voimme tehdä sen helposti. 

Tekstianalyysi Pythonilla: Puheen osien tunnistaminen

Tämän saman tekstianalyysin vanhassa versiossa kutsuin ensimmäistä saraketta Wordiksi ja toista lyhenteeksi

Tekstianalyysi Pythonilla: Puheen osien tunnistaminen

Puheen osat -kyselyssä tuomme todelliset sanat, jotka ovat näille lyhenteille, ja yhdistämme ne kaikki yhteen.

Tekstianalyysi Pythonilla: Puheen osien tunnistaminen

Nyt suljetaan ja haetaan

Tekstianalyysi Pythonilla: Puheen osien tunnistaminen

Tekemiemme vaiheiden avulla pystyimme suodattamaan puheen eri osien läpi, jotka tunnistimme yksinkertaisella koodilla. Se antaa meille tämän visuaalisen LuckyTemplatesissa, jossa voimme helposti suodattaa tekstimme sen perusteella, mihin puheen luokkaan ne kuuluvat. 

Tekstianalyysi Pythonilla: Puheen osien tunnistaminen




Johtopäätös

Kuten , saatat kohdata tarpeen poimia oivalluksia ja merkityksiä suurista määristä jäsentämätöntä tekstidataa. Opit on hyödyllinen tapa ymmärtää tekstidataa tekstianalyysin avulla.

Nyt voit helposti jakaa tekstin pienempiin yksiköihin, kuten sanoihin ja lauseisiin, ja analysoida sitten näistä yksiköistä kuvioita ja suhteita. Voit saavuttaa kaikki nämä tavoitteet käyttämällä tekstianalyysiä Pythonissa ja LuckyTemplatesissa. 

Kaikki parhaat,


Päivämäärätaulukon luominen LuckyTemplatesissa

Päivämäärätaulukon luominen LuckyTemplatesissa

Ota selvää, miksi LuckyTemplatesissa on tärkeää pitää oma päivämäärätaulukko ja opi nopein ja tehokkain tapa tehdä se.

LuckyTemplates mobiiliraportointivinkkejä ja -tekniikoita

LuckyTemplates mobiiliraportointivinkkejä ja -tekniikoita

Tämä lyhyt opetusohjelma korostaa LuckyTemplates-mobiiliraportointiominaisuutta. Näytän sinulle, kuinka voit kehittää raportteja tehokkaasti mobiililaitteille.

Ammattimainen palveluanalyysiraportit LuckyTemplatesissa

Ammattimainen palveluanalyysiraportit LuckyTemplatesissa

Tässä LuckyTemplates Showcase -esittelyssä käymme läpi raportteja, jotka näyttävät ammattitaitoisen palveluanalytiikan yritykseltä, jolla on useita sopimuksia ja asiakkaiden sitoumuksia.

Microsoft Power Platform -päivitykset | Microsoft Ignite 2021

Microsoft Power Platform -päivitykset | Microsoft Ignite 2021

Käy läpi tärkeimmät Power Appsin ja Power Automaten päivitykset sekä niiden edut ja vaikutukset Microsoft Power Platformiin.

Yleiset SQL-funktiot: Yleiskatsaus

Yleiset SQL-funktiot: Yleiskatsaus

Tutustu joihinkin yleisiin SQL-toimintoihin, joita voimme käyttää, kuten merkkijono, päivämäärä ja joitain lisätoimintoja tietojen käsittelyyn tai käsittelyyn.

LuckyTemplates-mallin luominen: opas ja vinkkejä

LuckyTemplates-mallin luominen: opas ja vinkkejä

Tässä opetusohjelmassa opit luomaan täydellisen LuckyTemplates-mallin, joka on määritetty tarpeidesi ja mieltymystesi mukaan.

Kenttäparametrit ja pienet kertoimet LuckyTemplatesissa

Kenttäparametrit ja pienet kertoimet LuckyTemplatesissa

Tässä blogissa esittelemme, kuinka kerrostat kenttäparametreja pienillä kerroilla uskomattoman hyödyllisten näkemysten ja visuaalien luomiseksi.

LuckyTemplates-sijoitus ja mukautettu ryhmittely

LuckyTemplates-sijoitus ja mukautettu ryhmittely

Tässä blogissa opit käyttämään LuckyTemplates-sijoitus- ja mukautettuja ryhmittelyominaisuuksia näytetietojen segmentoimiseen ja luokitteluun kriteerien mukaan.

LuckyTemplatesissa näytetään vain tiettyyn päivämäärään asti kumulatiivinen kokonaissumma

LuckyTemplatesissa näytetään vain tiettyyn päivämäärään asti kumulatiivinen kokonaissumma

Tässä opetusohjelmassa käsittelen tiettyä tekniikkaa, jolla voit näyttää kumulatiivisen kokonaissumman LuckyTemplates-visuaaleissasi vain tiettyyn päivämäärään asti.

Bullet Charts: Kehittyneet mukautetut visuaalit LuckyTemplatesille

Bullet Charts: Kehittyneet mukautetut visuaalit LuckyTemplatesille

Opi luomaan ja mukauttamaan Bullet-kaavioita LuckyTemplatesissa, joita käytetään pääasiassa suorituskyvyn mittaamiseen suhteessa tavoitteeseen tai edellisiin vuosiin.