Szövegelemzés Python használatával: Hogyan lehet azonosítani a beszédrészeket

Ebben a blogban megmutatjuk, hogyan lehet Python használatával azonosítani a beszédrészeket a LuckyTemplates szöveges adataiban. Leírjuk a Python szövegelemzési használatának lépéseit, és példákat és tippeket adunk a saját szövegelemzési projektek megkezdéséhez. Az oktatóanyag teljes videóját a blog alján tekintheti meg.

Tartalomjegyzék

Forrásadatok
Szövegelemzés Python használatával
A szövegelemzés kódjának javítása Pythonban
Következtetés

Forrásadatok

Ebben az oktatóanyagban egy kész szófelhőt fogunk használni, amely tartalmazza az értékelni kívánt szövegeket. Ez az alábbi kép bal oldalán látható. A jobb oldalon találhatók a szűrők a különböző beszédrészek, például melléknevek vagy igék azonosítására.

Szövegelemzés Python használatával: Hogyan lehet azonosítani a beszédrészeket

Kiszűrhetjük azokat a szavakat, amelyek határozószók, főnevek, különböző típusú főnevek vagy igék, valamint igealapok. Ez nagyon hasznos, ha marketingkampányt hoz létre, és szavakat keres a vásárlói véleményekben.

Kezdjük a szerkesztő megnyitásával.

Forrásadatainkban oszlopok találhatók az azonosítókhoz, az életkorhoz, a címhez és a vélemény szövegéhez. A Szöveg áttekintése oszlopra fogunk összpontosítani , és elemezni fogjuk a szövegelemzés elvégzéséhez. Vannak más kategóriák is, amelyek hasznosak lehetnek elemzésünkben.

Szövegelemzés Python használatával: Hogyan lehet azonosítani a beszédrészeket

Szövegelemzés Python használatával

Kezdjük az általunk bevitt normál adatokkal. Az első dolgunk az, hogy szűrjük a sorokat, mert sok adatunk van, és amikor szövegelemzést végzünk, az időbe telik.

Adataink szűréséhez vegye ki az első 50 sort, hogy egy kicsit gyorsabb legyen a szövegelemzés.

Szövegelemzés Python használatával: Hogyan lehet azonosítani a beszédrészeket

A kiszűrés után lépjen az Átalakítás és a szkript futtatása lehetőségre. Itt mindent kódolunk, mert nincs sok kód.

Szövegelemzés Python használatával: Hogyan lehet azonosítani a beszédrészeket

A csomagok importálása

Hozzunk be két csomagot a Python szövegelemzésünkhöz a szerkesztőnkkel. A pandákat „pd-ként importáljuk ” , az adatkezelési könyvtárunkat pd változóként mentjük. Ezután a „ szövegblobból ” „ TextBlob-ot importálunk ” nagybetűvel a szavak között.

Mindig dokumentálhatjuk, amit csinálunk egy dokumentumkarakterlánc elhelyezésével. Csomagjaink tetejére írjuk a #hozd be a nélkülözhetetlen könyvtárakat .

Szövegelemzés Python használatával: Hogyan lehet azonosítani a beszédrészeket

A változó átnevezése

A szkriptünk első sorában a LuckyTemplates által biztosított sor található, amely szerint a # 'dataset' tartalmazza a szkript bemeneti adatait. Ez a sor azt mondja, hogy adatainkat adathalmaznak nevezzük.

Tehát változtassunk ezen, mert túl sokáig tart az „adatkészlet” írása. Írja be, hogy #change az adatkészlet változó , és a következő sorba df = dataset .

Szövegelemzés Python használatával: Hogyan lehet azonosítani a beszédrészeket

Most rövidebb a változónk felírása.

Szövegelemzés készítése

Folytassuk szövegelemzésünket. Emlékezzünk vissza, hogy a felülvizsgálati szövegeink egy oszlopban vannak, különálló cellákkal. Ez a beállítás nem igazán hasznos számunkra, mert szeretnénk az összes szöveget egybegyűjteni, hogy elemzést végezhessünk rajta.

Nem akarjuk azonban, hogy szóköz nélkül egyesítsék őket, ezért kezdjük a kódunkat egy szóközzel egy dupla idézőjelben .

Ezután adjuk hozzá a .join karakterláncot, és különítsük el az áttekintés szövegoszlopát az adatkészletet tároló df változónk segítségével. Írja be a „Szöveg áttekintése” szót egy zárójelbe helyezve, amely elszigeteli az oszlopot.

Ez a kód mindenhez kapcsolódik, de el kell mentenünk, ezért hozzunk létre egy változót, amelyet szavaknak nevezünk.

Szövegelemzés Python használatával: Hogyan lehet azonosítani a beszédrészeket

Miután az összes szót összeállítottuk, használhatjuk a szövegfoltunkat a szavak elemzéséhez.

Az első dolog, hogy létrehozzuk a beszédrészeinket a blob változó használatával, amellyel szavakat kell átadnunk egy szöveges blobnak. Ezt a szövegfoltot fogjuk használni, és átadjuk a szöveget, ami a mi szavaink . Ezt a következőképpen kell beírni : blob = TextBlob(words).

Most, hogy megvan ez a blob, fogjuk, és létrehozzuk a beszédrészek_változóját a blob.tags segítségével . A címkék az egyes beszédrészek rövidítései lesznek.

A következő lépésben elmentjük ezt egy adatkeretként az általunk bevitt Pandák segítségével . Nevezzük az adatainknak, amelyek megegyeznek a pd.DataFrame- vel , és bevisszük a beszédrészeinket .

Szövegelemzés Python használatával: Hogyan lehet azonosítani a beszédrészeket

Kattintson az OK gombra a kód futtatásához. A kód futtatása után egy táblázatot kell kapnunk a változóinkról. Megvan az adatkészlet vagy az eredeti adataink. Megvannak az adataink is és a df .

Szövegelemzés Python használatával: Hogyan lehet azonosítani a beszédrészeket

Ha nem érte el a kívánt eredményt, bemutatjuk a különböző módokat a kódban előforduló hibák elkerülésére.

A szövegelemzés kódjának javítása Pythonban

Néha nagyon határozottnak kell lennünk az érintett szöveg formátumának megváltoztatásakor.

Ezt úgy tehetjük meg, hogy meghívjuk a df változónkat, elkülönítjük a zárójelben elhelyezett 'Review Text' -et, majd az .astype('str') segítségével módosítjuk a típust karakterláncokra . Ezután csak mentse újra a df változóba.

Szövegelemzés Python használatával: Hogyan lehet azonosítani a beszédrészeket

Kattintson az OK gombra a kód újbóli futtatásához. Ugyanazokat az eredményeket kell elérnünk, mint korábban.

Most meg akarjuk nyitni adatainkat , az utolsó változót, amelyet bevittünk, hogy megnézzük, hogyan néz ki.

Szövegelemzés Python használatával: Hogyan lehet azonosítani a beszédrészeket

Minden szavunkat beszédrészekre kell bontanunk. Az oszlopainkat még nem neveztük el, de ezt könnyen megtehetjük.

Szövegelemzés Python használatával: Hogyan lehet azonosítani a beszédrészeket

Ugyanennek a szövegelemzésnek a régi változatában az első oszlopot Word- nek , a másodikat pedig rövidítésnek neveztem .

Szövegelemzés Python használatával: Hogyan lehet azonosítani a beszédrészeket

A Beszédrészek lekérdezésben bevisszük azokat a szavakat, amelyek ezekhez a rövidítésekhez tartoznak, és összekapcsoljuk őket.

Szövegelemzés Python használatával: Hogyan lehet azonosítani a beszédrészeket

Most zárjuk be és alkalmazzuk .

Szövegelemzés Python használatával: Hogyan lehet azonosítani a beszédrészeket

Az általunk elvégzett lépések lehetővé tették, hogy átszűrjük a különböző beszédrészeket, amelyeket egy egyszerű kód segítségével azonosítottunk. Ezt a vizualitást a LuckyTemplatesben adja meg, ahol egyszerűen szűrhetjük a szövegünket az alapján, hogy a beszéd mely részei kategóriákba tartoznak.

Szövegelemzés Python használatával: Hogyan lehet azonosítani a beszédrészeket

Következtetés

Mint a , előfordulhat, hogy betekintést és jelentést kell kinyernie nagy mennyiségű strukturálatlan szöveges adatból. A tanultak hasznos megközelítést jelentenek a szöveges adatok szövegelemzés útján történő megértéséhez.

Mostantól könnyedén lebonthatja a szöveget kisebb egységekre, például szavakra és mondatokra, majd ezeket az egységeket minták és kapcsolatok szempontjából elemezheti. Mindezeket a célokat elérheti a Python és a LuckyTemplates szövegelemzésével.

Minden jót,

Hagyj kommentárt

E-mail melléklet mentése SharePointba a Power Automate segítségével

Ebből a blogból megtudhatja, hogyan mentheti automatikusan az e-mail mellékleteket a SharePointba, majd törölheti az e-maileket a Power Automate segítségével.

A Microsoft LuckyTemplates irányítópult 18 legjobb példája 2023

A Power Automate folyamatok létrehozása a semmiből

Ismerje meg, hogyan hozhat létre Power Automate folyamatokat a semmiből. Sablon használata helyett mi magunk hozzuk létre a kiváltó okokat és a műveleteket.

4 módszer a Pi használatára a Pythonban példákkal

Profit and Loss (P&L) kimutatások létrehozása a LuckyTemplates alkalmazásban

Ebben az útmutatóban bemutatom, hogyan lehet Pénzügyi információk mátrixát létrehozni a Profit és veszteség (P&L) kimutatással a LuckyTemplates alkalmazásban.

Hogyan lehet dinamikusan egyesíteni az oszlopokat egy Power Query-táblázatban

Fedezze fel, hogyan lehet dinamikusan egyesíteni oszlopokat a Power Query Table.CombineColumns függvény segítségével.

SharePoint-fájlok hozzáadása a számítógéphez

Ismerje meg, hogyan adhatjuk hozzá és szinkronizálhatjuk SharePoint-fájljainkat az asztalon és a OneDrive-on.

Dátumtáblázat létrehozása a LuckyTemplates alkalmazásban

Tudja meg, miért fontos egy dedikált dátumtáblázat a LuckyTemplatesben, és ismerje meg ennek leggyorsabb és leghatékonyabb módját.

LuckyTemplates mobil jelentéskészítési tippek és technikák

Ez a rövid oktatóanyag kiemeli a LuckyTemplates mobil jelentési funkcióját. Megmutatom, hogyan készíthet hatékony jelentéseket mobileszközökön.

Professzionális szolgáltatáselemzési jelentések LuckyTemplatesben

Ebben a LuckyTemplates bemutatóban olyan jelentéseket tekintünk át, amelyek professzionális szolgáltatáselemzést mutatnak be egy olyan cégtől, amely több szerződéssel és ügyfél-elkötelezettséggel rendelkezik.