Tekstianalyysi Pythonissa | Esittely

Tässä blogissa aiomme keskustella Pythonin tekstianalyysistä rakennetun datan luomiseksi tekstisisällöstä. Tämä auttaa sinua analysoimaan suuria tietomääriä ja kuluttaa vähemmän aikaa tiettyjen tehtävien käsittelyyn. Saat myös tietoa textblobista , joka käsittelee luonnollisen kielen käsittelytehtäviä.

Tekstianalyysi on prosessi, jossa tekstit analysoidaan käyttämällä koodeja tekstidatan automatisoituihin tuotanto- ja ryhmittelyprosesseihin.

Ennen kuin jatkamme, saatat joutua asentamaan kirjaston, jota käytämme tässä opetusohjelmassa.

Sisällysluettelo

Tekstianalyysin toteuttaminen Pythonissa

Aloitetaan tuomalla textblob . Muista dokumentoida tekemäsi kommentit.

Tekstianalyysi Pythonissa |  Esittely

Suorittamalla yllä oleva koodi meillä on nyt pääsy textblob- kirjastoon. Seuraava askel, jonka aiomme tehdä, on luoda lause, jota aiomme käyttää esimerkeissämme. Teemme tämän tallentamalla lauseen muuttujaan nimeltä lause .

Muista liittää lause, jonka haluat lisätä lainausmerkkeihin.

Tekstianalyysi Pythonissa |  Esittely

Textblob on loistava kirjasto, jossa voimme luoda blobin ja käyttää joitain sen toimintoja tekstianalyysissämme .

Tekstianalyysi Pythonissa |  Esittely

Kun luomme blobin, aloitamme luomalla muuttujan ja nimeämällä sen blobiksi . Tähän muuttujaan meidän on lisättävä TextBlob , joka on käyttämämme kirjasto.

Sulkujen sisällä käytämme lausemuuttujaa , joka sisältää aiemmin luomamme lauseen. Huomaa, että voit kirjoittaa itse lauseen manuaalisesti tämän osan sulkeisiin.

Voit tarkistaa, mitä tämä blob -muuttuja tekee, alustamalla sen kirjoittamalla muuttujan nimen ja painamalla Shift + Enter-näppäimiä. Tulosteen tulee olla samanlainen kuin alla oleva esimerkki.

Tekstianalyysi Pythonissa |  Esittely

Kuten tuloksesta näkyy, lause, jonka tallensimme lausemuuttujaan, sisältää nyt TextBlob .

Tekstidatan tokenointi Pythonissa

Jos haluat poistaa joitain sanoja lauseesta, voimme jakaa nämä sanat yksittäisiin osiin luettelossa. Tällä annetulla lauseella aiomme tehdä ne merkkinä tai erotella jokainen sana ja laittaa ne luetteloon.

Tätä varten aiomme käyttää blob- muuttujaa ja tokenize- funktiota. Sitten tallennamme sen muuttujaan nimeltä sanat .

Tekstianalyysi Pythonissa |  Esittely

Alustetaan sanamuuttuja samalla tavalla kuin alustattaessa blob -muuttujaa nähdäksemme, mitä tokenoidussa luettelossa on .

Tekstianalyysi Pythonissa |  Esittely

Kuten näet, jokainen sana ja jopa välimerkit on nyt erotettu luettelosta. Näin tokenize- toiminto toimii.

Nyt kun meillä on sanaluettelo, voimme sitten suorittaa siitä toisen toiminnon. Luodaan toinen luettelo sanoista, joita emme halua sisällyttää luetteloomme, kuten välimerkit ja artikkelit. Suorita tämä vaihe alla olevasta kuvakaappauksesta.

Tekstianalyysi Pythonissa |  Esittely

Lopetussanojen luetteloa luotaessa käytimme sulkeita lopetussanojen luettelon liittämiseen. Sitten jokainen lopetussana on suljettu yksittäisillä lainausmerkeillä ja ne erotetaan toisistaan ​​pilkulla. Tallensimme luettelon stop_words- muuttujaan.

Tästä eteenpäin aiomme tehdä luettelon ymmärtämisen poistaaksemme sanat, jotka ovat välttämättömiä tekstianalyysin suorittamiseen kohteessa . Tämä sisältää lauseiden puhdistamisen, tokenoinnin ja eri luetteloiden vertailun. Vertaamme nyt näitä kahta luetteloa ja luomme uuden luettelon clean_tokensista .

Tekstianalyysi Pythonissa |  Esittely

Yllä esitetyssä koodissa käytimme paikkamerkkiä, joka on w edustamaan elementtiä . Yritämme tässä osassa saada elementin sanamuuttujaan, jos elementtiä ei ole stop_words- muuttujassa . Jos aiomme alustaa clean_tokens , tämä on tulos.

Tekstianalyysi Pythonissa |  Esittely

Tässä prosessissa voimme puhdistaa tunnuksemme poistamalla tarpeettomat tunnukset, kuten välimerkit ja artikkelit. Tästä syystä luettelossamme on jäljellä vain olemussanat.

Tokenien yhdistäminen lauseen muodostamiseksi Pythonissa

Nyt kun olemme erotelleet puhtaat tunnukset , yritetään laittaa ne yhteen lauseeseen. Tätä varten meidän on käytettävä .join- toimintoa. Tarkista alla oleva esimerkki viitteeksi.

Tekstianalyysi Pythonissa |  Esittely

Yllä olevassa esimerkissä loimme muuttujan nimeltä clean_sentence säilyttääksemme puhtaat tunnukset, jotka yhdistetään lauseeksi. Voit myös huomata, että lisäsimme lainausmerkkien ja .join -funktion ympäröimän välilyönnin. Parametrien sisällä sisällytimme muuttujan clean_tokens .

Tämä on tulos, jos alustamme clean_sentence -muuttujan.

Tekstianalyysi Pythonissa |  Esittely

On huomattava, että lause ei näytä oikealta, koska poistimme artikkelit ja välimerkit aiemmin.

Kun olet luonut clean_sentence -lauseen , yritetään luoda uusi textblob , joka sisältää juuri luomamme clean_sentence -lauseen . Sitten tallennamme sen uuteen muuttujaan clean_blob .

Tekstianalyysi Pythonissa |  Esittely

Tekstiblobin erittely puheen osia varten käyttämällä .tags-funktiota

Tästä analyysiblobista voimme käyttää tämän blobin osia tarkistaaksemme puheenosia tai tehdäksemme vielä enemmän muutoksia. Yritetään tarkistaa jokaisen sanan puheosat uudessa textblobissamme .

Tekstianalyysi Pythonissa |  Esittely

Tekstiblobin puheosien tarkistamiseksi kannattaa käyttää .tags- funktiota. Tein tämän käyttämällä clean_blob- muuttujaamme ja lisäsin .tags- funktion heti sen jälkeen.

Jos saat virheilmoituksen .tags- toiminnon alustamisen yhteydessä, lue ja noudata ohjeita virheen korjaamiseksi. Tässä tapauksessa se näyttää tältä.

Tekstianalyysi Pythonissa |  Esittely

Jos vierität alas tämän virheilmoituksen lopussa, näet tarvittavat tiedot, joita tarvitset käytettävää ominaisuutta varten.

Tekstianalyysi Pythonissa |  Esittely

Kun olemme löytäneet koodin, joka meidän on alustettava, jotta voimme ladata tarvittavat tiedot, kopioi koodi ja avaa sitten Windows Search .

Tekstianalyysi Pythonissa |  Esittely

Anaconda Promptin avulla yritämme korjata virheen, jonka saimme .tags- funktion alustuksessa. Liitämme nyt virheilmoituksesta aiemmin kopioimamme koodin ja suoritamme sen painamalla Enter .

Tekstianalyysi Pythonissa |  Esittely

Kun se on valmis, yritä suorittaa .tags- toiminto uudelleen ja katso, toimiiko se.

Tekstianalyysi Pythonissa |  Esittely

Suorittaessamme koodin uudelleen voimme nähdä, että virhe on korjattu ja saimme tuloksen, joka sisältää jokaisen sanan uudesta textblobista tagien tai puheenosien kanssa .

Jos sinulla ei ole aavistustakaan, mitä nämä tunnisteet tarkoittavat, voit yksinkertaisesti mennä textblob-verkkosivustolle ja tarkistaa, mitä nämä tunnisteet edustavat. 

Ngrams-funktion käyttäminen tekstianalyysiin Pythonissa

Siirrytään toiseen esimerkkiin, joka koskee ngrammien saamista . Ngrams - funktiota käytetään etsimään sanoja, jotka esiintyvät usein yhdessä lauseessa tai asiakirjassa. Aloitetaan esimerkiksi luomalla uusi textblob ja tallentamalla se blob3 -muuttujaan.

Tekstianalyysi Pythonissa |  Esittely

Sen jälkeen hyödynnetään blob3- muuttujan ngrams- funktiota joidenkin sanayhdistelmien tarkistamiseen.

Tekstianalyysi Pythonissa |  Esittely

Oletuksena, jos et määrittänyt arvoa parametreihin, se näyttää trigrammit tai 3-sanan yhdistelmät. Mutta jos haluamme nähdä lauseesta 2 sanan yhdistelmiä, voimme asettaa 2 parametreihin kuten alla olevassa esimerkissä.

Tekstianalyysi Pythonissa |  Esittely

Kokeillaan tällä kertaa pidemmällä lauseella. Tässä esimerkissä kopioin vain pidemmän tekstin elokuva-arvostelusta. Voit käyttää mitä tahansa haluamaasi lausetta tässä osassa.

Tekstianalyysi Pythonissa |  Esittely

Viimeisenä esimerkkinä yritetään käyttää ngrammeja vielä kerran informatiivisemman lauseen kanssa.

Tekstianalyysi Pythonissa |  Esittely

Kaikkien näiden esimerkkien avulla voimme tehdä enemmän tekstiä tulosten perusteella, joita saamme ngrams - funktiolla.




Johtopäätös

Yhteenvetona totean, että olet oppinut eri toiminnoista, joita voit käyttää tekstianalyysin suorittamiseen Pythonissa.

Nämä ovat .tokenize-toiminto lauseen sanojen erottamiseen, .join-toiminto tokenoitujen sanojen yhdistämiseen, .tags-toiminto sanojen puheosien tarkistamiseen ja ngrams-toiminto sanayhdistelmien katseluun.

Lisäksi olet oppinut korjaamaan virheet, kuten teimme .tags -toiminnossa Anaconda Promptin avulla . Olet myös oppinut tuomaan, luomaan textblobin ja käyttämään tätä kirjastoa tekstianalyysin suorittamiseen .

Kaikki parhaat,

Gaellim


LuckyTemplates -muotokartan visualisointi tilaanalyysiin

LuckyTemplates -muotokartan visualisointi tilaanalyysiin

Tämä blogi sisältää Shape Map -visualisoinnin tilaanalyysiä varten LuckyTemplatesissa. Näytän sinulle, kuinka voit käyttää tätä visualisointia tehokkaasti sen ominaisuuksien ja elementtien kanssa.

LuckyTemplatesin talousraportointi: tulosten kohdentaminen malleihin jokaisella rivillä

LuckyTemplatesin talousraportointi: tulosten kohdentaminen malleihin jokaisella rivillä

Tässä opetusohjelmassa esittelen ainutlaatuisen idean talousraportoinnista, joka allokoi tulokset LuckyTemplatesin sisällä olevien taulukkopohjien ennalta määrittämiseen.

DAX-mittaukset LuckyTemplatesissa käyttämällä mittahaaroitusta

DAX-mittaukset LuckyTemplatesissa käyttämällä mittahaaroitusta

Luo DAX-suureita LuckyTemplatesissa käyttämällä olemassa olevia suureita tai kaavoja. Tätä kutsun mittahaaroitustekniikaksi.

Tehokkain toimintopuhelu LuckyTemplatesissa

Tehokkain toimintopuhelu LuckyTemplatesissa

Tässä blogissa tutustu LuckyTemplates-tietojoukkoon, tehokkaimpaan funktiokutsuun, joka tuo tuhansia M- ja DAX-funktioita sormiesi ulottuville.

Datamallinnustekniikat DAX-mittausten järjestämiseen

Datamallinnustekniikat DAX-mittausten järjestämiseen

Tämän päivän opetusohjelmassa jaan muutamia datamallinnustekniikoita DAX-mittausten järjestämiseksi paremmin tehokkaamman työnkulun aikaansaamiseksi.

LuckyTemplates Financial Dashboard: Täydelliset taulukon mukautusvinkit

LuckyTemplates Financial Dashboard: Täydelliset taulukon mukautusvinkit

LuckyTemplates on loistava työkalu talousraportointiin. Tässä on opetusohjelma räätälöityjen taulukoiden luomisesta LuckyTemplates-talouden hallintapaneelillesi.

Power Queryn kielivirran parhaat käytännöt

Power Queryn kielivirran parhaat käytännöt

Tässä opetusohjelmassa keskustellaan Power Query Language Flowsta ja siitä, kuinka se voi auttaa luomaan sujuvan ja tehokkaan dataraportin.

LuckyTemplates mukautetut kuvakkeet | PBI-visualisointitekniikka

LuckyTemplates mukautetut kuvakkeet | PBI-visualisointitekniikka

Keskustelen yhdestä suosikkitekniikoistani mukautettujen LuckyTemplates-kuvakkeiden ympärillä, joka käyttää mukautettuja kuvakkeita dynaamisella tavalla LuckyTemplates-visuaaleissa.

LuckyTemplates -taulukoiden luominen UNION & ROW -funktiolla

LuckyTemplates -taulukoiden luominen UNION & ROW -funktiolla

Tässä blogissa näytän sinulle, kuinka voit luoda LuckyTemplates-taulukoita käyttämällä kaavaa, joka yhdistää UNION-funktion ja ROW-funktion.

On-Premises Data Gateway Power Automatessa

On-Premises Data Gateway Power Automatessa

Tutustu siihen, kuinka On-premises-tietoyhdyskäytävä antaa Power Automaten käyttää työpöytäsovelluksia, kun käyttäjä on poissa tietokoneesta.