Szövegelemzés Pythonban | Bevezetés

Ebben a blogban a Pythonban végzett szövegelemzésről fogunk beszélni, amellyel szöveges tartalomból szerkesztett adatokat hozhatunk létre. Ez segít nagy mennyiségű adat elemzésében, és kevesebb időt vesz igénybe bizonyos feladatok elvégzése során. Ezenkívül ismereteket szerezhet a textblob- ról , amely természetes nyelvi feldolgozási feladatokkal foglalkozik.

A szövegelemzés a szövegek elemzésének folyamata a szövegadatok automatikus előállításához és csoportosításához szükséges kódok használatával.

Mielőtt folytatnánk, előfordulhat, hogy telepítenie kell azt a könyvtárat, amelyet ebben az oktatóanyagban fogunk használni.

Tartalomjegyzék

Szövegelemzés megvalósítása Pythonban

Kezdjük a textblob importálásával . Ne felejtse el dokumentálni, hogy mit csinál megjegyzésekkel.

Szövegelemzés Pythonban |  Bevezetés

A fenti kód futtatásával most már hozzáférünk a textblob könyvtárhoz. A következő lépés az, hogy létrehozunk egy mondatot, amelyet a példáinkhoz fogunk használni. Ezt úgy fogjuk megtenni, hogy eltárolunk egy mondatot egy mondat nevű változóban .

Ne felejtse el dupla idézőjelek közé tenni azt a mondatot, amelyet hozzá szeretne adni.

Szövegelemzés Pythonban |  Bevezetés

A textblob egy nagyszerű könyvtár, ahol létrehozhatunk egy blobot, és felhasználhatjuk annak egyes funkcióit a szövegelemzésünkhöz.

Szövegelemzés Pythonban |  Bevezetés

A blob létrehozása során először létrehozunk egy változót, és blob-nak nevezzük el . Ebben a változóban fel kell adnunk a TextBlob-ot , amely az általunk használt könyvtár.

A zárójelben azt a mondatváltozót használjuk, amely a korábban létrehozott mondatot tartalmazza. Vegye figyelembe, hogy magát a mondatot kézzel is beírhatja a zárójelbe ehhez a részhez.

A blob- változó működésének ellenőrzéséhez egyszerűen inicializálhatja a változó nevének begépelésével és a Shift + Enter billentyűk lenyomásával. A kimenetnek hasonlónak kell lennie az alábbi példához.

Szövegelemzés Pythonban |  Bevezetés

Amint az eredményből látható, a mondatváltozóban tárolt mondatot most a TextBlob tartalmazza .

Szöveges adatok tokenizálása Pythonban

Ha el szeretne távolítani néhány szót egy mondatból, ezeket a szavakat külön-külön részekre oszthatjuk egy listában. Ezzel az adott mondattal azt fogjuk tenni, hogy tokenizáljuk őket, vagy elválasztjuk az egyes szavakat, és listába helyezzük őket.

Ehhez a blob változót és a tokenize függvényt fogjuk használni. Ezután egy szavak nevű változóban tároljuk .

Szövegelemzés Pythonban |  Bevezetés

Inicializáljuk a szóváltozót ugyanúgy, mint a blob- változó inicializálásánál, hogy megnézzük, mi van a tokenizált listán.

Szövegelemzés Pythonban |  Bevezetés

Amint láthatja, a szavak és még az írásjelek is listában vannak elválasztva. Így működik a tokenize függvény.

Most, hogy megvan a szavak listája, egy másik funkciót is végrehajthatunk belőle. Hozzunk létre egy másik listát azokról a szavakról, amelyeket nem szeretnénk, hogy a listánkban szerepeljenek, például írásjeleket és cikkeket. A lépés végrehajtásához tekintse meg az alábbi képernyőképet.

Szövegelemzés Pythonban |  Bevezetés

A stopszavak listájának elkészítésekor zárójeleket használtunk a stopszavak listájának bezárásához. Ezután mindegyik stopszót szimpla idézőjel veszi körül, és mindegyiket vessző választja el. A listát a stop_words változóban tároltuk .

Innentől kezdve egy listaértelmezést fogunk végrehajtani, hogy eltávolítsuk a szövegelemzés elvégzéséhez szükséges szavakat. Ez magában foglalja a mondatok tisztítását, a tokenizálást és a különböző listák összehasonlítását. Most összehasonlítjuk ezt a két listát, és létrehozunk egy új tiszta_token listát .

Szövegelemzés Pythonban |  Bevezetés

A fent bemutatott kódban egy helyőrzőt használtunk, amely w egy elem ábrázolására . Ebben a részben megpróbáljuk elérni az elemet a szavak változóban, ha az elem nem létezik a stop_words változóban. Ha inicializálni fogjuk a clean_tokens -t , ez lesz az eredmény.

Szövegelemzés Pythonban |  Bevezetés

Ebben a folyamatban meg tudjuk tisztítani a tokenjeinket azáltal, hogy eltávolítjuk a szükségtelen tokenekeket, például az írásjeleket és a cikkeket. Emiatt már csak a lényegi szavak maradtak a listánkon.

Tokenek összekapcsolása mondat kialakításához Pythonban

Most, hogy szétválasztottuk a tiszta tokeneket , próbáljuk meg egy mondatba foglalni őket. Ehhez a .join függvényt kell használnunk. Tekintse meg az alábbi példát referenciaként.

Szövegelemzés Pythonban |  Bevezetés

A fenti példában egy clean_sentence nevű változót hoztunk létre a tiszta tokenek tárolására, amelyeket egy mondattá egyesítünk. Azt is észreveheti, hogy hozzáadtunk egy szóközt, amelyet kettős idézőjel és a .join függvény zár be. A paraméterek között szerepelt a clean_tokens változó.

Ez lesz a kimenet, ha inicializáljuk a clean_sentence változót.

Szövegelemzés Pythonban |  Bevezetés

Észrevehető, hogy a mondat nem jó, mert korábban eltávolítottuk a cikkeket és az írásjeleket.

A clean_sentence létrehozása után próbáljunk meg egy új textblobot létrehozni , amely tartalmazza az imént létrehozott clean_sentence-et . Ezután egy új clean_blob változóban tároljuk .

Szövegelemzés Pythonban |  Bevezetés

Szövegblob boncolgatása beszédrészekhez .tags funkció használatával

Ebből az elemzési blobból ennek a blobnak a darabjait használhatjuk a beszédrészek ellenőrzésére, vagy további módosítások végrehajtására. Próbáljuk meg ellenőrizni az egyes szavak beszédrészeit az új textblobunkban .

Szövegelemzés Pythonban |  Bevezetés

A textblob-ban lévő beszédrészek ellenőrzéséhez a .tags függvényt kell használni. Ezt úgy tettem, hogy a clean_blob változónkat használtam, majd rögtön utána hozzáadtam a .tags függvényt.

Ha bármikor hibaüzenetet kap a .tags funkció inicializálása során, csak olvassa el, és kövesse a lépéseket a hiba kijavításához. Ebben az esetben ez így néz ki.

Szövegelemzés Pythonban |  Bevezetés

Ha a hibaüzenet végén lefelé görget, látni fogja a használni kívánt funkcióhoz szükséges adatokat.

Szövegelemzés Pythonban |  Bevezetés

Miután megtaláltuk a kódot, amelyet inicializálnunk kell a szükséges adatok letöltéséhez, egyszerűen másolja ki a kódot, majd nyissa meg a Windows Search segítségével .

Szövegelemzés Pythonban |  Bevezetés

Az Anaconda Prompt segítségével megpróbáljuk kijavítani a hibát, amelyet a .tags függvény inicializálása során kaptunk. Most beillesztjük a korábban a hibaüzenetből kimásolt kódot, és az Enter lenyomásával futtatjuk .

Szövegelemzés Pythonban |  Bevezetés

Ha végzett, próbálja meg újra futtatni a .tags függvényt, és ellenőrizze, hogy működik-e.

Szövegelemzés Pythonban |  Bevezetés

A kód ismételt futtatásakor láthatjuk, hogy a hiba kijavított, és olyan eredményt kaptunk, amely az új textblob minden egyes szavát tartalmazza a címkékkel vagy beszédrészekkel együtt .

Ha fogalma sincs, mit jelentenek ezek a címkék , egyszerűen felkeresheti a textblob webhelyet , és ellenőrizheti, mit jelentenek ezek a címkék. 

Az ngrams függvény használata szövegelemzéshez Pythonban

Térjünk át egy másik példára, amely az ngramok beszerzéséről szól . Az ngrams függvény olyan szavak keresésére szolgál, amelyek gyakran együtt láthatók egy mondatban vagy dokumentumban. Példaként kezdjük egy új textblob létrehozásával , és tároljuk azt a blob3 változóban.

Szövegelemzés Pythonban |  Bevezetés

Ezt követően használjuk az ngrams függvényt a blob3 változóban néhány szókombináció ellenőrzésére.

Szövegelemzés Pythonban |  Bevezetés

Alapértelmezés szerint, ha nem adott meg értéket a paraméterekben, akkor trigramokat vagy 3 szóból álló kombinációkat fog megjeleníteni . De ha 2 szóból álló kombinációkat szeretnénk látni a mondatból, akkor a paraméterekben 2-t is beállíthatunk, mint az alábbi példában.

Szövegelemzés Pythonban |  Bevezetés

Próbáljuk meg ezúttal egy hosszabb mondattal. Ebben a példában csak egy hosszabb szöveget másoltam egy filmkritikából. Bármilyen mondatot használhat ehhez a részhez.

Szövegelemzés Pythonban |  Bevezetés

Utolsó példaként próbáljuk meg még egyszer használni az ngramokat egy informatívabb mondattal.

Szövegelemzés Pythonban |  Bevezetés

Mindezekkel a példákkal több szöveget is készíthetünk az ngrams függvénnyel kapott eredmények alapján .




Következtetés

Összefoglalva, megtanulta a Pythonban szövegelemzés végrehajtására használható különféle funkciókat.

Ezek a .tokenize funkció a szavak elválasztására egy mondatban, a .join funkció a tokenizált szavak kombinálására, a .tags funkció a szavak beszédrészeinek ellenőrzésére és az ngrams funkció a szavak kombinációjának megtekintésére.

Ezenkívül megtanulta, hogyan javíthat ki olyan hibákat, mint például a .tags függvényben az Anaconda Prompt használatával . Azt is megtanulta, hogyan importálhat, hozzon létre egy textblob-ot , és hogyan használja ezt a könyvtárat szövegelemzés végrehajtására a .

Minden jót,

Gaellim


LuckyTemplates alakzattérkép-vizualizáció a térbeli elemzéshez

LuckyTemplates alakzattérkép-vizualizáció a térbeli elemzéshez

Ez a blog tartalmazza a Shape Map vizualizációt a LuckyTemplates térbeli elemzéséhez. Megmutatom, hogyan használhatja hatékonyan ezt a vizualizációt annak funkcióival és elemeivel.

LuckyTemplates pénzügyi jelentések: az eredmények hozzárendelése a sablonokhoz minden egyes sorban

LuckyTemplates pénzügyi jelentések: az eredmények hozzárendelése a sablonokhoz minden egyes sorban

Ebben az oktatóanyagban egy egyedülálló ötletet mutatok be a pénzügyi jelentésekkel kapcsolatban, amely az eredmények hozzárendelését jelenti a LuckyTemplates-en belüli táblázatsablonok előre meghatározásához.

DAX-mértékek a LuckyTemplates-ben mértékelágazás használatával

DAX-mértékek a LuckyTemplates-ben mértékelágazás használatával

Hozzon létre DAX-mértékeket a LuckyTemplates alkalmazásban meglévő mértékek vagy képletek használatával. Ezt nevezem mértékelágazási technikának.

A legerősebb funkcióhívás a LuckyTemplatesben

A legerősebb funkcióhívás a LuckyTemplatesben

Ebben a blogban fedezze fel a LuckyTemplates adatkészletet, a leghatékonyabb függvényhívást, amely M- és DAX-függvények ezreit juttatja a keze ügyébe.

Adatmodellezési technikák a DAX-mérések megszervezéséhez

Adatmodellezési technikák a DAX-mérések megszervezéséhez

A mai oktatóanyagban megosztok néhány adatmodellezési technikát a DAX-mérések jobb rendszerezéséhez a hatékonyabb munkafolyamat érdekében.

LuckyTemplates pénzügyi irányítópult: Teljes táblázat testreszabási tippek

LuckyTemplates pénzügyi irányítópult: Teljes táblázat testreszabási tippek

A LuckyTemplates egy nagyszerű eszköz a pénzügyi jelentésekhez. Itt található egy oktatóanyag, amely bemutatja, hogyan hozhat létre személyre szabott táblázatokat a LuckyTemplates pénzügyi irányítópultjához.

A Power Query nyelvi folyamatának bevált gyakorlatai

A Power Query nyelvi folyamatának bevált gyakorlatai

Ez az oktatóanyag megvitatja a Power Query nyelvi folyamatot, és azt, hogyan segíthet zökkenőmentes és hatékony adatjelentések létrehozásában.

LuckyTemplates egyéni ikonok | PBI vizualizációs technika

LuckyTemplates egyéni ikonok | PBI vizualizációs technika

Az egyik kedvenc technikámról fogok beszélni a LuckyTemplates egyéni ikonok körül, amely dinamikusan használja az egyéni ikonokat a LuckyTemplates vizualizációkban.

LuckyTemplates táblázatok létrehozása UNION & ROW függvény használatával

LuckyTemplates táblázatok létrehozása UNION & ROW függvény használatával

Ebben a blogban megmutatom, hogyan hozhat létre LuckyTemplates táblázatokat olyan képlet segítségével, amely egyesíti az UNION és a ROW függvényt.

Helyszíni adatátjáró a Power Automate-ban

Helyszíni adatátjáró a Power Automate-ban

Fedezze fel, hogy a helyszíni adatátjáró hogyan teszi lehetővé a Power Automate számára az asztali alkalmazások elérését, amikor a felhasználó távol van a számítógéptől.