Szövegelemzés Python használatával: Hogyan lehet azonosítani a beszédrészeket

Ebben a blogban megmutatjuk, hogyan lehet Python használatával azonosítani a beszédrészeket a LuckyTemplates szöveges adataiban. Leírjuk a Python szövegelemzési használatának lépéseit, és példákat és tippeket adunk a saját szövegelemzési projektek megkezdéséhez. Az oktatóanyag teljes videóját a blog alján tekintheti meg.

Tartalomjegyzék

Forrásadatok

Ebben az oktatóanyagban egy kész szófelhőt fogunk használni, amely tartalmazza az értékelni kívánt szövegeket. Ez az alábbi kép bal oldalán látható. A jobb oldalon találhatók a szűrők a különböző beszédrészek, például melléknevek vagy igék azonosítására. 

Szövegelemzés Python használatával: Hogyan lehet azonosítani a beszédrészeket

Kiszűrhetjük azokat a szavakat, amelyek határozószók, főnevek, különböző típusú főnevek vagy igék, valamint igealapok. Ez nagyon hasznos, ha marketingkampányt hoz létre, és szavakat keres a vásárlói véleményekben. 

Kezdjük a szerkesztő megnyitásával. 

Forrásadatainkban oszlopok találhatók az azonosítókhoz, az életkorhoz, a címhez és a vélemény szövegéhez. A Szöveg áttekintése oszlopra fogunk összpontosítani , és elemezni fogjuk a szövegelemzés elvégzéséhez. Vannak más kategóriák is, amelyek hasznosak lehetnek elemzésünkben.

Szövegelemzés Python használatával: Hogyan lehet azonosítani a beszédrészeket

Szövegelemzés Python használatával

Kezdjük az általunk bevitt normál adatokkal. Az első dolgunk az, hogy szűrjük a sorokat, mert sok adatunk van, és amikor szövegelemzést végzünk, az időbe telik. 

Adataink szűréséhez vegye ki az első 50 sort, hogy egy kicsit gyorsabb legyen a szövegelemzés. 

Szövegelemzés Python használatával: Hogyan lehet azonosítani a beszédrészeket

A kiszűrés után lépjen az Átalakítás és a szkript futtatása lehetőségre. Itt mindent kódolunk, mert nincs sok kód. 

Szövegelemzés Python használatával: Hogyan lehet azonosítani a beszédrészeket

A csomagok importálása

Hozzunk be két csomagot a Python szövegelemzésünkhöz a szerkesztőnkkel. A pandákat „pd-ként importáljuk, az adatkezelési könyvtárunkat pd változóként mentjük. Ezután a „ szövegblobból TextBlob-ot importálunk nagybetűvel a szavak között. 

Mindig dokumentálhatjuk, amit csinálunk egy dokumentumkarakterlánc elhelyezésével. Csomagjaink tetejére írjuk a #hozd be a nélkülözhetetlen könyvtárakat .

Szövegelemzés Python használatával: Hogyan lehet azonosítani a beszédrészeket

A változó átnevezése

A szkriptünk első sorában a LuckyTemplates által biztosított sor található, amely szerint a # 'dataset' tartalmazza a szkript bemeneti adatait. Ez a sor azt mondja, hogy adatainkat adathalmaznak nevezzük. 

Tehát változtassunk ezen, mert túl sokáig tart az „adatkészlet” írása. Írja be, hogy #change az adatkészlet változó , és a következő sorba df = dataset .

Szövegelemzés Python használatával: Hogyan lehet azonosítani a beszédrészeket

Most rövidebb a változónk felírása. 

Szövegelemzés készítése

Folytassuk szövegelemzésünket. Emlékezzünk vissza, hogy a felülvizsgálati szövegeink egy oszlopban vannak, különálló cellákkal. Ez a beállítás nem igazán hasznos számunkra, mert szeretnénk az összes szöveget egybegyűjteni, hogy elemzést végezhessünk rajta. 

Nem akarjuk azonban, hogy szóköz nélkül egyesítsék őket, ezért kezdjük a kódunkat egy szóközzel egy dupla idézőjelben .  

Ezután adjuk hozzá a .join karakterláncot, és különítsük el az áttekintés szövegoszlopát az adatkészletet tároló df változónk segítségével. Írja be a „Szöveg áttekintése” szót egy zárójelbe helyezve, amely elszigeteli az oszlopot. 

Ez a kód mindenhez kapcsolódik, de el kell mentenünk, ezért hozzunk létre egy változót, amelyet szavaknak nevezünk.

Szövegelemzés Python használatával: Hogyan lehet azonosítani a beszédrészeket

Miután az összes szót összeállítottuk, használhatjuk a szövegfoltunkat a szavak elemzéséhez. 

Az első dolog, hogy létrehozzuk a beszédrészeinket a blob változó használatával, amellyel szavakat kell átadnunk egy szöveges blobnak. Ezt a szövegfoltot fogjuk használni, és átadjuk a szöveget, ami a mi szavaink . Ezt a következőképpen kell beírni : blob = TextBlob(words).

Most, hogy megvan ez a blob, fogjuk, és létrehozzuk a beszédrészek_változóját a blob.tags segítségével . A címkék az egyes beszédrészek rövidítései lesznek. 

A következő lépésben elmentjük ezt egy adatkeretként az általunk bevitt Pandák segítségével . Nevezzük az adatainknak, amelyek megegyeznek a pd.DataFrame- vel , és bevisszük a beszédrészeinket

Szövegelemzés Python használatával: Hogyan lehet azonosítani a beszédrészeket

Kattintson az OK gombra a kód futtatásához. A kód futtatása után egy táblázatot kell kapnunk a változóinkról. Megvan az adatkészlet vagy az eredeti adataink. Megvannak az adataink is és a df

Szövegelemzés Python használatával: Hogyan lehet azonosítani a beszédrészeket

Ha nem érte el a kívánt eredményt, bemutatjuk a különböző módokat a kódban előforduló hibák elkerülésére.

A szövegelemzés kódjának javítása Pythonban

Néha nagyon határozottnak kell lennünk az érintett szöveg formátumának megváltoztatásakor. 

Ezt úgy tehetjük meg, hogy meghívjuk a df változónkat, elkülönítjük a zárójelben elhelyezett 'Review Text' -et, majd az .astype('str') segítségével módosítjuk a típust karakterláncokra . Ezután csak mentse újra a df változóba. 

Szövegelemzés Python használatával: Hogyan lehet azonosítani a beszédrészeket

Kattintson az OK gombra a kód újbóli futtatásához. Ugyanazokat az eredményeket kell elérnünk, mint korábban.

Most meg akarjuk nyitni adatainkat , az utolsó változót, amelyet bevittünk, hogy megnézzük, hogyan néz ki. 

Szövegelemzés Python használatával: Hogyan lehet azonosítani a beszédrészeket

Minden szavunkat beszédrészekre kell bontanunk. Az oszlopainkat még nem neveztük el, de ezt könnyen megtehetjük. 

Szövegelemzés Python használatával: Hogyan lehet azonosítani a beszédrészeket

Ugyanennek a szövegelemzésnek a régi változatában az első oszlopot Word- nek , a másodikat pedig rövidítésnek neveztem . 

Szövegelemzés Python használatával: Hogyan lehet azonosítani a beszédrészeket

A Beszédrészek lekérdezésben bevisszük azokat a szavakat, amelyek ezekhez a rövidítésekhez tartoznak, és összekapcsoljuk őket.

Szövegelemzés Python használatával: Hogyan lehet azonosítani a beszédrészeket

Most zárjuk be és alkalmazzuk

Szövegelemzés Python használatával: Hogyan lehet azonosítani a beszédrészeket

Az általunk elvégzett lépések lehetővé tették, hogy átszűrjük a különböző beszédrészeket, amelyeket egy egyszerű kód segítségével azonosítottunk. Ezt a vizualitást a LuckyTemplatesben adja meg, ahol egyszerűen szűrhetjük a szövegünket az alapján, hogy a beszéd mely részei kategóriákba tartoznak. 

Szövegelemzés Python használatával: Hogyan lehet azonosítani a beszédrészeket




Következtetés

Mint a , előfordulhat, hogy betekintést és jelentést kell kinyernie nagy mennyiségű strukturálatlan szöveges adatból. A tanultak hasznos megközelítést jelentenek a szöveges adatok szövegelemzés útján történő megértéséhez.

Mostantól könnyedén lebonthatja a szöveget kisebb egységekre, például szavakra és mondatokra, majd ezeket az egységeket minták és kapcsolatok szempontjából elemezheti. Mindezeket a célokat elérheti a Python és a LuckyTemplates szövegelemzésével. 

Minden jót,


PowerApps keresőmező: Hozzáadás és testreszabás

PowerApps keresőmező: Hozzáadás és testreszabás

Ismerje meg, hogyan hozhat létre PowerApps keresőmezőt a semmiből, és hogyan szabhatja testre az alkalmazás általános témájához.

SELECTEDVALUE DAX Példa – Szeletelő kiválasztása

SELECTEDVALUE DAX Példa – Szeletelő kiválasztása

Gyűjtsön be vagy rögzítsen egy értéket egy mértéken belül, hogy újra felhasználja egy másik mértékben a dinamikus számításokhoz a SELECTEDVALUE DAX használatával a LuckyTemplatesben.

Verzióelőzmények a SharePoint-listákban

Verzióelőzmények a SharePoint-listákban

Fedezze fel, hogy a SharePoint verzióelőzményei hogyan segíthetnek áttekinteni egy bizonyos adatok alakulását, és hány módosításon mentek keresztül.

Színes hexadecimális kódválasztó a LuckyTemplates jelentésekhez

Színes hexadecimális kódválasztó a LuckyTemplates jelentésekhez

Itt található egy eszköz jelentések és látványelemek készítéséhez, egy színhexadecimális kódválasztó, amellyel könnyedén lekérheti LuckyTemplates jelentései színeit.

Dinamikus dátumszeletelő a LuckyTemplatesben periódustáblázat használatával

Dinamikus dátumszeletelő a LuckyTemplatesben periódustáblázat használatával

Könnyedén megjeleníthet egy dátumtartományt szeletelőként a jelentésben időszaki táblázat segítségével. Használjon M-kódot a dinamikus dátumszeletelő létrehozásához a LuckyTemplates alkalmazásban.

Arány- és gyakorisági táblázatok Excelben

Arány- és gyakorisági táblázatok Excelben

Az Excel gyakorisági táblázataiban, valamint az aránytáblázatokban készültek. Nos, nézze meg, mik ezek, és mikor kell használni őket.

A DAX Studio és a Tabular Editor telepítése a LuckyTemplates alkalmazásban

A DAX Studio és a Tabular Editor telepítése a LuckyTemplates alkalmazásban

Ismerje meg, hogyan töltheti le és telepítheti a DAX Studio és a Tabular Editor 3 alkalmazást, és hogyan konfigurálhatja őket a LuckyTemplates és az Excel programban való használatra.

LuckyTemplates alakzattérkép-vizualizáció a térbeli elemzéshez

LuckyTemplates alakzattérkép-vizualizáció a térbeli elemzéshez

Ez a blog tartalmazza a Shape Map vizualizációt a LuckyTemplates térbeli elemzéséhez. Megmutatom, hogyan használhatja hatékonyan ezt a vizualizációt annak funkcióival és elemeivel.

LuckyTemplates pénzügyi jelentések: az eredmények hozzárendelése a sablonokhoz minden egyes sorban

LuckyTemplates pénzügyi jelentések: az eredmények hozzárendelése a sablonokhoz minden egyes sorban

Ebben az oktatóanyagban egy egyedülálló ötletet mutatok be a pénzügyi jelentésekkel kapcsolatban, amely az eredmények hozzárendelését jelenti a LuckyTemplates-en belüli táblázatsablonok előre meghatározásához.

DAX-mértékek a LuckyTemplates-ben mértékelágazás használatával

DAX-mértékek a LuckyTemplates-ben mértékelágazás használatával

Hozzon létre DAX-mértékeket a LuckyTemplates alkalmazásban meglévő mértékek vagy képletek használatával. Ezt nevezem mértékelágazási technikának.