Szövegelemzés Pythonban | Bevezetés

Ebben a blogban a Pythonban végzett szövegelemzésről fogunk beszélni, amellyel szöveges tartalomból szerkesztett adatokat hozhatunk létre. Ez segít nagy mennyiségű adat elemzésében, és kevesebb időt vesz igénybe bizonyos feladatok elvégzése során. Ezenkívül ismereteket szerezhet a textblob- ról , amely természetes nyelvi feldolgozási feladatokkal foglalkozik.

A szövegelemzés a szövegek elemzésének folyamata a szövegadatok automatikus előállításához és csoportosításához szükséges kódok használatával.

Mielőtt folytatnánk, előfordulhat, hogy telepítenie kell azt a könyvtárat, amelyet ebben az oktatóanyagban fogunk használni.

Tartalomjegyzék

Szövegelemzés megvalósítása Pythonban
Szöveges adatok tokenizálása Pythonban
Tokenek összekapcsolása mondat kialakításához Pythonban
- Szövegblob boncolgatása beszédrészekhez .tags funkció használatával
- Az ngrams függvény használata szövegelemzéshez Pythonban
Következtetés

Szövegelemzés megvalósítása Pythonban

Kezdjük a textblob importálásával . Ne felejtse el dokumentálni, hogy mit csinál megjegyzésekkel.

Szövegelemzés Pythonban | Bevezetés

A fenti kód futtatásával most már hozzáférünk a textblob könyvtárhoz. A következő lépés az, hogy létrehozunk egy mondatot, amelyet a példáinkhoz fogunk használni. Ezt úgy fogjuk megtenni, hogy eltárolunk egy mondatot egy mondat nevű változóban .

Ne felejtse el dupla idézőjelek közé tenni azt a mondatot, amelyet hozzá szeretne adni.

Szövegelemzés Pythonban | Bevezetés

A textblob egy nagyszerű könyvtár, ahol létrehozhatunk egy blobot, és felhasználhatjuk annak egyes funkcióit a szövegelemzésünkhöz.

Szövegelemzés Pythonban | Bevezetés

A blob létrehozása során először létrehozunk egy változót, és blob-nak nevezzük el . Ebben a változóban fel kell adnunk a TextBlob-ot , amely az általunk használt könyvtár.

A zárójelben azt a mondatváltozót használjuk, amely a korábban létrehozott mondatot tartalmazza. Vegye figyelembe, hogy magát a mondatot kézzel is beírhatja a zárójelbe ehhez a részhez.

A blob- változó működésének ellenőrzéséhez egyszerűen inicializálhatja a változó nevének begépelésével és a Shift + Enter billentyűk lenyomásával. A kimenetnek hasonlónak kell lennie az alábbi példához.

Szövegelemzés Pythonban | Bevezetés

Amint az eredményből látható, a mondatváltozóban tárolt mondatot most a TextBlob tartalmazza .

Szöveges adatok tokenizálása Pythonban

Ha el szeretne távolítani néhány szót egy mondatból, ezeket a szavakat külön-külön részekre oszthatjuk egy listában. Ezzel az adott mondattal azt fogjuk tenni, hogy tokenizáljuk őket, vagy elválasztjuk az egyes szavakat, és listába helyezzük őket.

Ehhez a blob változót és a tokenize függvényt fogjuk használni. Ezután egy szavak nevű változóban tároljuk .

Szövegelemzés Pythonban | Bevezetés

Inicializáljuk a szóváltozót ugyanúgy, mint a blob- változó inicializálásánál, hogy megnézzük, mi van a tokenizált listán.

Szövegelemzés Pythonban | Bevezetés

Amint láthatja, a szavak és még az írásjelek is listában vannak elválasztva. Így működik a tokenize függvény.

Most, hogy megvan a szavak listája, egy másik funkciót is végrehajthatunk belőle. Hozzunk létre egy másik listát azokról a szavakról, amelyeket nem szeretnénk, hogy a listánkban szerepeljenek, például írásjeleket és cikkeket. A lépés végrehajtásához tekintse meg az alábbi képernyőképet.

Szövegelemzés Pythonban | Bevezetés

A stopszavak listájának elkészítésekor zárójeleket használtunk a stopszavak listájának bezárásához. Ezután mindegyik stopszót szimpla idézőjel veszi körül, és mindegyiket vessző választja el. A listát a stop_words változóban tároltuk .

Innentől kezdve egy listaértelmezést fogunk végrehajtani, hogy eltávolítsuk a szövegelemzés elvégzéséhez szükséges szavakat. Ez magában foglalja a mondatok tisztítását, a tokenizálást és a különböző listák összehasonlítását. Most összehasonlítjuk ezt a két listát, és létrehozunk egy új tiszta_token listát .

Szövegelemzés Pythonban | Bevezetés

A fent bemutatott kódban egy helyőrzőt használtunk, amely w egy elem ábrázolására . Ebben a részben megpróbáljuk elérni az elemet a szavak változóban, ha az elem nem létezik a stop_words változóban. Ha inicializálni fogjuk a clean_tokens -t , ez lesz az eredmény.

Szövegelemzés Pythonban | Bevezetés

Ebben a folyamatban meg tudjuk tisztítani a tokenjeinket azáltal, hogy eltávolítjuk a szükségtelen tokenekeket, például az írásjeleket és a cikkeket. Emiatt már csak a lényegi szavak maradtak a listánkon.

Tokenek összekapcsolása mondat kialakításához Pythonban

Most, hogy szétválasztottuk a tiszta tokeneket , próbáljuk meg egy mondatba foglalni őket. Ehhez a .join függvényt kell használnunk. Tekintse meg az alábbi példát referenciaként.

Szövegelemzés Pythonban | Bevezetés

A fenti példában egy clean_sentence nevű változót hoztunk létre a tiszta tokenek tárolására, amelyeket egy mondattá egyesítünk. Azt is észreveheti, hogy hozzáadtunk egy szóközt, amelyet kettős idézőjel és a .join függvény zár be. A paraméterek között szerepelt a clean_tokens változó.

Ez lesz a kimenet, ha inicializáljuk a clean_sentence változót.

Szövegelemzés Pythonban | Bevezetés

Észrevehető, hogy a mondat nem jó, mert korábban eltávolítottuk a cikkeket és az írásjeleket.

A clean_sentence létrehozása után próbáljunk meg egy új textblobot létrehozni , amely tartalmazza az imént létrehozott clean_sentence-et . Ezután egy új clean_blob változóban tároljuk .

Szövegelemzés Pythonban | Bevezetés

Szövegblob boncolgatása beszédrészekhez .tags funkció használatával

Ebből az elemzési blobból ennek a blobnak a darabjait használhatjuk a beszédrészek ellenőrzésére, vagy további módosítások végrehajtására. Próbáljuk meg ellenőrizni az egyes szavak beszédrészeit az új textblobunkban .

Szövegelemzés Pythonban | Bevezetés

A textblob-ban lévő beszédrészek ellenőrzéséhez a .tags függvényt kell használni. Ezt úgy tettem, hogy a clean_blob változónkat használtam, majd rögtön utána hozzáadtam a .tags függvényt.

Ha bármikor hibaüzenetet kap a .tags funkció inicializálása során, csak olvassa el, és kövesse a lépéseket a hiba kijavításához. Ebben az esetben ez így néz ki.

Szövegelemzés Pythonban | Bevezetés

Ha a hibaüzenet végén lefelé görget, látni fogja a használni kívánt funkcióhoz szükséges adatokat.

Szövegelemzés Pythonban | Bevezetés

Miután megtaláltuk a kódot, amelyet inicializálnunk kell a szükséges adatok letöltéséhez, egyszerűen másolja ki a kódot, majd nyissa meg a Windows Search segítségével .

Szövegelemzés Pythonban | Bevezetés

Az Anaconda Prompt segítségével megpróbáljuk kijavítani a hibát, amelyet a .tags függvény inicializálása során kaptunk. Most beillesztjük a korábban a hibaüzenetből kimásolt kódot, és az Enter lenyomásával futtatjuk .

Szövegelemzés Pythonban | Bevezetés

Ha végzett, próbálja meg újra futtatni a .tags függvényt, és ellenőrizze, hogy működik-e.

Szövegelemzés Pythonban | Bevezetés

A kód ismételt futtatásakor láthatjuk, hogy a hiba kijavított, és olyan eredményt kaptunk, amely az új textblob minden egyes szavát tartalmazza a címkékkel vagy beszédrészekkel együtt .

Ha fogalma sincs, mit jelentenek ezek a címkék , egyszerűen felkeresheti a textblob webhelyet , és ellenőrizheti, mit jelentenek ezek a címkék.

Az ngrams függvény használata szövegelemzéshez Pythonban

Térjünk át egy másik példára, amely az ngramok beszerzéséről szól . Az ngrams függvény olyan szavak keresésére szolgál, amelyek gyakran együtt láthatók egy mondatban vagy dokumentumban. Példaként kezdjük egy új textblob létrehozásával , és tároljuk azt a blob3 változóban.

Szövegelemzés Pythonban | Bevezetés

Ezt követően használjuk az ngrams függvényt a blob3 változóban néhány szókombináció ellenőrzésére.

Szövegelemzés Pythonban | Bevezetés

Alapértelmezés szerint, ha nem adott meg értéket a paraméterekben, akkor trigramokat vagy 3 szóból álló kombinációkat fog megjeleníteni . De ha 2 szóból álló kombinációkat szeretnénk látni a mondatból, akkor a paraméterekben 2-t is beállíthatunk, mint az alábbi példában.

Szövegelemzés Pythonban | Bevezetés

Próbáljuk meg ezúttal egy hosszabb mondattal. Ebben a példában csak egy hosszabb szöveget másoltam egy filmkritikából. Bármilyen mondatot használhat ehhez a részhez.

Szövegelemzés Pythonban | Bevezetés

Utolsó példaként próbáljuk meg még egyszer használni az ngramokat egy informatívabb mondattal.

Szövegelemzés Pythonban | Bevezetés

Mindezekkel a példákkal több szöveget is készíthetünk az ngrams függvénnyel kapott eredmények alapján .

Következtetés

Összefoglalva, megtanulta a Pythonban szövegelemzés végrehajtására használható különféle funkciókat.

Ezek a .tokenize funkció a szavak elválasztására egy mondatban, a .join funkció a tokenizált szavak kombinálására, a .tags funkció a szavak beszédrészeinek ellenőrzésére és az ngrams funkció a szavak kombinációjának megtekintésére.

Ezenkívül megtanulta, hogyan javíthat ki olyan hibákat, mint például a .tags függvényben az Anaconda Prompt használatával . Azt is megtanulta, hogyan importálhat, hozzon létre egy textblob-ot , és hogyan használja ezt a könyvtárat szövegelemzés végrehajtására a .

Minden jót,

Gaellim

Hagyj kommentárt

E-mail melléklet mentése SharePointba a Power Automate segítségével

E-mail melléklet mentése SharePointba a Power Automate segítségével

Ebből a blogból megtudhatja, hogyan mentheti automatikusan az e-mail mellékleteket a SharePointba, majd törölheti az e-maileket a Power Automate segítségével.

A Microsoft LuckyTemplates irányítópult 18 legjobb példája 2023

A Microsoft LuckyTemplates irányítópult 18 legjobb példája 2023

A Microsoft LuckyTemplates irányítópult 18 legjobb példája 2023

A Power Automate folyamatok létrehozása a semmiből

A Power Automate folyamatok létrehozása a semmiből

Ismerje meg, hogyan hozhat létre Power Automate folyamatokat a semmiből. Sablon használata helyett mi magunk hozzuk létre a kiváltó okokat és a műveleteket.

4 módszer a Pi használatára a Pythonban példákkal

4 módszer a Pi használatára a Pythonban példákkal

4 módszer a Pi használatára a Pythonban példákkal

Profit and Loss (P&L) kimutatások létrehozása a LuckyTemplates alkalmazásban

Profit and Loss (P&L) kimutatások létrehozása a LuckyTemplates alkalmazásban

Ebben az útmutatóban bemutatom, hogyan lehet Pénzügyi információk mátrixát létrehozni a Profit és veszteség (P&L) kimutatással a LuckyTemplates alkalmazásban.

Hogyan lehet dinamikusan egyesíteni az oszlopokat egy Power Query-táblázatban

Hogyan lehet dinamikusan egyesíteni az oszlopokat egy Power Query-táblázatban

Fedezze fel, hogyan lehet dinamikusan egyesíteni oszlopokat a Power Query Table.CombineColumns függvény segítségével.

SharePoint-fájlok hozzáadása a számítógéphez

SharePoint-fájlok hozzáadása a számítógéphez

Ismerje meg, hogyan adhatjuk hozzá és szinkronizálhatjuk SharePoint-fájljainkat az asztalon és a OneDrive-on.

Dátumtáblázat létrehozása a LuckyTemplates alkalmazásban

Dátumtáblázat létrehozása a LuckyTemplates alkalmazásban

Tudja meg, miért fontos egy dedikált dátumtáblázat a LuckyTemplatesben, és ismerje meg ennek leggyorsabb és leghatékonyabb módját.

LuckyTemplates mobil jelentéskészítési tippek és technikák

LuckyTemplates mobil jelentéskészítési tippek és technikák

Ez a rövid oktatóanyag kiemeli a LuckyTemplates mobil jelentési funkcióját. Megmutatom, hogyan készíthet hatékony jelentéseket mobileszközökön.

Professzionális szolgáltatáselemzési jelentések LuckyTemplatesben

Professzionális szolgáltatáselemzési jelentések LuckyTemplatesben

Ebben a LuckyTemplates bemutatóban olyan jelentéseket tekintünk át, amelyek professzionális szolgáltatáselemzést mutatnak be egy olyan cégtől, amely több szerződéssel és ügyfél-elkötelezettséggel rendelkezik.