Tekstianalyysi Pythonissa | Esittely

Tässä blogissa aiomme keskustella Pythonin tekstianalyysistä rakennetun datan luomiseksi tekstisisällöstä. Tämä auttaa sinua analysoimaan suuria tietomääriä ja kuluttaa vähemmän aikaa tiettyjen tehtävien käsittelyyn. Saat myös tietoa textblobista , joka käsittelee luonnollisen kielen käsittelytehtäviä.

Tekstianalyysi on prosessi, jossa tekstit analysoidaan käyttämällä koodeja tekstidatan automatisoituihin tuotanto- ja ryhmittelyprosesseihin.

Ennen kuin jatkamme, saatat joutua asentamaan kirjaston, jota käytämme tässä opetusohjelmassa.

Sisällysluettelo

Tekstianalyysin toteuttaminen Pythonissa
Tekstidatan tokenointi Pythonissa
Tokenien yhdistäminen lauseen muodostamiseksi Pythonissa
- Tekstiblobin erittely puheen osia varten käyttämällä .tags-funktiota
- Ngrams-funktion käyttäminen tekstianalyysiin Pythonissa
Johtopäätös

Tekstianalyysin toteuttaminen Pythonissa

Aloitetaan tuomalla textblob . Muista dokumentoida tekemäsi kommentit.

Tekstianalyysi Pythonissa | Esittely

Suorittamalla yllä oleva koodi meillä on nyt pääsy textblob- kirjastoon. Seuraava askel, jonka aiomme tehdä, on luoda lause, jota aiomme käyttää esimerkeissämme. Teemme tämän tallentamalla lauseen muuttujaan nimeltä lause .

Muista liittää lause, jonka haluat lisätä lainausmerkkeihin.

Tekstianalyysi Pythonissa | Esittely

Textblob on loistava kirjasto, jossa voimme luoda blobin ja käyttää joitain sen toimintoja tekstianalyysissämme .

Tekstianalyysi Pythonissa | Esittely

Kun luomme blobin, aloitamme luomalla muuttujan ja nimeämällä sen blobiksi . Tähän muuttujaan meidän on lisättävä TextBlob , joka on käyttämämme kirjasto.

Sulkujen sisällä käytämme lausemuuttujaa , joka sisältää aiemmin luomamme lauseen. Huomaa, että voit kirjoittaa itse lauseen manuaalisesti tämän osan sulkeisiin.

Voit tarkistaa, mitä tämä blob -muuttuja tekee, alustamalla sen kirjoittamalla muuttujan nimen ja painamalla Shift + Enter-näppäimiä. Tulosteen tulee olla samanlainen kuin alla oleva esimerkki.

Tekstianalyysi Pythonissa | Esittely

Kuten tuloksesta näkyy, lause, jonka tallensimme lausemuuttujaan, sisältää nyt TextBlob .

Tekstidatan tokenointi Pythonissa

Jos haluat poistaa joitain sanoja lauseesta, voimme jakaa nämä sanat yksittäisiin osiin luettelossa. Tällä annetulla lauseella aiomme tehdä ne merkkinä tai erotella jokainen sana ja laittaa ne luetteloon.

Tätä varten aiomme käyttää blob- muuttujaa ja tokenize- funktiota. Sitten tallennamme sen muuttujaan nimeltä sanat .

Tekstianalyysi Pythonissa | Esittely

Alustetaan sanamuuttuja samalla tavalla kuin alustattaessa blob -muuttujaa nähdäksemme, mitä tokenoidussa luettelossa on .

Tekstianalyysi Pythonissa | Esittely

Kuten näet, jokainen sana ja jopa välimerkit on nyt erotettu luettelosta. Näin tokenize- toiminto toimii.

Nyt kun meillä on sanaluettelo, voimme sitten suorittaa siitä toisen toiminnon. Luodaan toinen luettelo sanoista, joita emme halua sisällyttää luetteloomme, kuten välimerkit ja artikkelit. Suorita tämä vaihe alla olevasta kuvakaappauksesta.

Tekstianalyysi Pythonissa | Esittely

Lopetussanojen luetteloa luotaessa käytimme sulkeita lopetussanojen luettelon liittämiseen. Sitten jokainen lopetussana on suljettu yksittäisillä lainausmerkeillä ja ne erotetaan toisistaan pilkulla. Tallensimme luettelon stop_words- muuttujaan.

Tästä eteenpäin aiomme tehdä luettelon ymmärtämisen poistaaksemme sanat, jotka ovat välttämättömiä tekstianalyysin suorittamiseen kohteessa . Tämä sisältää lauseiden puhdistamisen, tokenoinnin ja eri luetteloiden vertailun. Vertaamme nyt näitä kahta luetteloa ja luomme uuden luettelon clean_tokensista .

Tekstianalyysi Pythonissa | Esittely

Yllä esitetyssä koodissa käytimme paikkamerkkiä, joka on w edustamaan elementtiä . Yritämme tässä osassa saada elementin sanamuuttujaan, jos elementtiä ei ole stop_words- muuttujassa . Jos aiomme alustaa clean_tokens , tämä on tulos.

Tekstianalyysi Pythonissa | Esittely

Tässä prosessissa voimme puhdistaa tunnuksemme poistamalla tarpeettomat tunnukset, kuten välimerkit ja artikkelit. Tästä syystä luettelossamme on jäljellä vain olemussanat.

Tokenien yhdistäminen lauseen muodostamiseksi Pythonissa

Nyt kun olemme erotelleet puhtaat tunnukset , yritetään laittaa ne yhteen lauseeseen. Tätä varten meidän on käytettävä .join- toimintoa. Tarkista alla oleva esimerkki viitteeksi.

Tekstianalyysi Pythonissa | Esittely

Yllä olevassa esimerkissä loimme muuttujan nimeltä clean_sentence säilyttääksemme puhtaat tunnukset, jotka yhdistetään lauseeksi. Voit myös huomata, että lisäsimme lainausmerkkien ja .join -funktion ympäröimän välilyönnin. Parametrien sisällä sisällytimme muuttujan clean_tokens .

Tämä on tulos, jos alustamme clean_sentence -muuttujan.

Tekstianalyysi Pythonissa | Esittely

On huomattava, että lause ei näytä oikealta, koska poistimme artikkelit ja välimerkit aiemmin.

Kun olet luonut clean_sentence -lauseen , yritetään luoda uusi textblob , joka sisältää juuri luomamme clean_sentence -lauseen . Sitten tallennamme sen uuteen muuttujaan clean_blob .

Tekstianalyysi Pythonissa | Esittely

Tekstiblobin erittely puheen osia varten käyttämällä .tags-funktiota

Tästä analyysiblobista voimme käyttää tämän blobin osia tarkistaaksemme puheenosia tai tehdäksemme vielä enemmän muutoksia. Yritetään tarkistaa jokaisen sanan puheosat uudessa textblobissamme .

Tekstianalyysi Pythonissa | Esittely

Tekstiblobin puheosien tarkistamiseksi kannattaa käyttää .tags- funktiota. Tein tämän käyttämällä clean_blob- muuttujaamme ja lisäsin .tags- funktion heti sen jälkeen.

Jos saat virheilmoituksen .tags- toiminnon alustamisen yhteydessä, lue ja noudata ohjeita virheen korjaamiseksi. Tässä tapauksessa se näyttää tältä.

Tekstianalyysi Pythonissa | Esittely

Jos vierität alas tämän virheilmoituksen lopussa, näet tarvittavat tiedot, joita tarvitset käytettävää ominaisuutta varten.

Tekstianalyysi Pythonissa | Esittely

Kun olemme löytäneet koodin, joka meidän on alustettava, jotta voimme ladata tarvittavat tiedot, kopioi koodi ja avaa sitten Windows Search .

Tekstianalyysi Pythonissa | Esittely

Anaconda Promptin avulla yritämme korjata virheen, jonka saimme .tags- funktion alustuksessa. Liitämme nyt virheilmoituksesta aiemmin kopioimamme koodin ja suoritamme sen painamalla Enter .

Tekstianalyysi Pythonissa | Esittely

Kun se on valmis, yritä suorittaa .tags- toiminto uudelleen ja katso, toimiiko se.

Tekstianalyysi Pythonissa | Esittely

Suorittaessamme koodin uudelleen voimme nähdä, että virhe on korjattu ja saimme tuloksen, joka sisältää jokaisen sanan uudesta textblobista tagien tai puheenosien kanssa .

Jos sinulla ei ole aavistustakaan, mitä nämä tunnisteet tarkoittavat, voit yksinkertaisesti mennä textblob-verkkosivustolle ja tarkistaa, mitä nämä tunnisteet edustavat.

Ngrams-funktion käyttäminen tekstianalyysiin Pythonissa

Siirrytään toiseen esimerkkiin, joka koskee ngrammien saamista . Ngrams - funktiota käytetään etsimään sanoja, jotka esiintyvät usein yhdessä lauseessa tai asiakirjassa. Aloitetaan esimerkiksi luomalla uusi textblob ja tallentamalla se blob3 -muuttujaan.

Tekstianalyysi Pythonissa | Esittely

Sen jälkeen hyödynnetään blob3- muuttujan ngrams- funktiota joidenkin sanayhdistelmien tarkistamiseen.

Tekstianalyysi Pythonissa | Esittely

Oletuksena, jos et määrittänyt arvoa parametreihin, se näyttää trigrammit tai 3-sanan yhdistelmät. Mutta jos haluamme nähdä lauseesta 2 sanan yhdistelmiä, voimme asettaa 2 parametreihin kuten alla olevassa esimerkissä.

Tekstianalyysi Pythonissa | Esittely

Kokeillaan tällä kertaa pidemmällä lauseella. Tässä esimerkissä kopioin vain pidemmän tekstin elokuva-arvostelusta. Voit käyttää mitä tahansa haluamaasi lausetta tässä osassa.

Tekstianalyysi Pythonissa | Esittely

Viimeisenä esimerkkinä yritetään käyttää ngrammeja vielä kerran informatiivisemman lauseen kanssa.

Tekstianalyysi Pythonissa | Esittely

Kaikkien näiden esimerkkien avulla voimme tehdä enemmän tekstiä tulosten perusteella, joita saamme ngrams - funktiolla.

Johtopäätös

Yhteenvetona totean, että olet oppinut eri toiminnoista, joita voit käyttää tekstianalyysin suorittamiseen Pythonissa.

Nämä ovat .tokenize-toiminto lauseen sanojen erottamiseen, .join-toiminto tokenoitujen sanojen yhdistämiseen, .tags-toiminto sanojen puheosien tarkistamiseen ja ngrams-toiminto sanayhdistelmien katseluun.

Lisäksi olet oppinut korjaamaan virheet, kuten teimme .tags -toiminnossa Anaconda Promptin avulla . Olet myös oppinut tuomaan, luomaan textblobin ja käyttämään tätä kirjastoa tekstianalyysin suorittamiseen .

Kaikki parhaat,

Gaellim

Jätä kommentti

LuckyTemplates Financial Dashboard -esimerkkejä: Tarkennetaan

LuckyTemplates Financial Dashboard -esimerkkejä: Tarkennetaan

LuckyTemplates-taloudellinen hallintapaneeli tarjoaa kehittyneet työkalut taloudellisten tietojen analysointiin ja visualisointiin.

SharePoint Automate -ominaisuus | Esittely

SharePoint Automate -ominaisuus | Esittely

Opi käyttämään SharePointin automatisointiominaisuutta työnkulkujen luomiseen ja SharePoint-käyttäjien, kirjastojen ja luetteloiden mikrohallinnassa.

Päivämäärätaulukon luominen LuckyTemplatesissa

Päivämäärätaulukon luominen LuckyTemplatesissa

Ota selvää, miksi LuckyTemplatesissa on tärkeää pitää oma päivämäärätaulukko ja opi nopein ja tehokkain tapa tehdä se.

LuckyTemplates mobiiliraportointivinkkejä ja -tekniikoita

LuckyTemplates mobiiliraportointivinkkejä ja -tekniikoita

Tämä lyhyt opetusohjelma korostaa LuckyTemplates-mobiiliraportointiominaisuutta. Näytän sinulle, kuinka voit kehittää raportteja tehokkaasti mobiililaitteille.

Ammattimainen palveluanalyysiraportit LuckyTemplatesissa

Ammattimainen palveluanalyysiraportit LuckyTemplatesissa

Tässä LuckyTemplates Showcase -esittelyssä käymme läpi raportteja, jotka näyttävät ammattitaitoisen palveluanalytiikan yritykseltä, jolla on useita sopimuksia ja asiakkaiden sitoumuksia.

Yleiset SQL-funktiot: Yleiskatsaus

Yleiset SQL-funktiot: Yleiskatsaus

Tutustu joihinkin yleisiin SQL-toimintoihin, joita voimme käyttää, kuten merkkijono, päivämäärä ja joitain lisätoimintoja tietojen käsittelyyn tai käsittelyyn.

Microsoft Power Platform -päivitykset | Microsoft Ignite 2021

Microsoft Power Platform -päivitykset | Microsoft Ignite 2021

Käy läpi tärkeimmät Power Appsin ja Power Automaten päivitykset sekä niiden edut ja vaikutukset Microsoft Power Platformiin.

Kenttäparametrit ja pienet kertoimet LuckyTemplatesissa

Kenttäparametrit ja pienet kertoimet LuckyTemplatesissa

Tässä blogissa esittelemme, kuinka kerrostat kenttäparametreja pienillä kerroilla uskomattoman hyödyllisten näkemysten ja visuaalien luomiseksi.

LuckyTemplates-mallin luominen: opas ja vinkkejä

LuckyTemplates-mallin luominen: opas ja vinkkejä

Tässä opetusohjelmassa opit luomaan täydellisen LuckyTemplates-mallin, joka on määritetty tarpeidesi ja mieltymystesi mukaan.

LuckyTemplates-sijoitus ja mukautettu ryhmittely

LuckyTemplates-sijoitus ja mukautettu ryhmittely

Tässä blogissa opit käyttämään LuckyTemplates-sijoitus- ja mukautettuja ryhmittelyominaisuuksia näytetietojen segmentoimiseen ja luokitteluun kriteerien mukaan.