Szövegelemzés Python használatával: Hogyan lehet azonosítani a beszédrészeket

Ebben a blogban megmutatjuk, hogyan lehet Python használatával azonosítani a beszédrészeket a LuckyTemplates szöveges adataiban. Leírjuk a Python szövegelemzési használatának lépéseit, és példákat és tippeket adunk a saját szövegelemzési projektek megkezdéséhez. Az oktatóanyag teljes videóját a blog alján tekintheti meg.

Tartalomjegyzék

Forrásadatok

Ebben az oktatóanyagban egy kész szófelhőt fogunk használni, amely tartalmazza az értékelni kívánt szövegeket. Ez az alábbi kép bal oldalán látható. A jobb oldalon találhatók a szűrők a különböző beszédrészek, például melléknevek vagy igék azonosítására. 

Szövegelemzés Python használatával: Hogyan lehet azonosítani a beszédrészeket

Kiszűrhetjük azokat a szavakat, amelyek határozószók, főnevek, különböző típusú főnevek vagy igék, valamint igealapok. Ez nagyon hasznos, ha marketingkampányt hoz létre, és szavakat keres a vásárlói véleményekben. 

Kezdjük a szerkesztő megnyitásával. 

Forrásadatainkban oszlopok találhatók az azonosítókhoz, az életkorhoz, a címhez és a vélemény szövegéhez. A Szöveg áttekintése oszlopra fogunk összpontosítani , és elemezni fogjuk a szövegelemzés elvégzéséhez. Vannak más kategóriák is, amelyek hasznosak lehetnek elemzésünkben.

Szövegelemzés Python használatával: Hogyan lehet azonosítani a beszédrészeket

Szövegelemzés Python használatával

Kezdjük az általunk bevitt normál adatokkal. Az első dolgunk az, hogy szűrjük a sorokat, mert sok adatunk van, és amikor szövegelemzést végzünk, az időbe telik. 

Adataink szűréséhez vegye ki az első 50 sort, hogy egy kicsit gyorsabb legyen a szövegelemzés. 

Szövegelemzés Python használatával: Hogyan lehet azonosítani a beszédrészeket

A kiszűrés után lépjen az Átalakítás és a szkript futtatása lehetőségre. Itt mindent kódolunk, mert nincs sok kód. 

Szövegelemzés Python használatával: Hogyan lehet azonosítani a beszédrészeket

A csomagok importálása

Hozzunk be két csomagot a Python szövegelemzésünkhöz a szerkesztőnkkel. A pandákat „pd-ként importáljuk, az adatkezelési könyvtárunkat pd változóként mentjük. Ezután a „ szövegblobból TextBlob-ot importálunk nagybetűvel a szavak között. 

Mindig dokumentálhatjuk, amit csinálunk egy dokumentumkarakterlánc elhelyezésével. Csomagjaink tetejére írjuk a #hozd be a nélkülözhetetlen könyvtárakat .

Szövegelemzés Python használatával: Hogyan lehet azonosítani a beszédrészeket

A változó átnevezése

A szkriptünk első sorában a LuckyTemplates által biztosított sor található, amely szerint a # 'dataset' tartalmazza a szkript bemeneti adatait. Ez a sor azt mondja, hogy adatainkat adathalmaznak nevezzük. 

Tehát változtassunk ezen, mert túl sokáig tart az „adatkészlet” írása. Írja be, hogy #change az adatkészlet változó , és a következő sorba df = dataset .

Szövegelemzés Python használatával: Hogyan lehet azonosítani a beszédrészeket

Most rövidebb a változónk felírása. 

Szövegelemzés készítése

Folytassuk szövegelemzésünket. Emlékezzünk vissza, hogy a felülvizsgálati szövegeink egy oszlopban vannak, különálló cellákkal. Ez a beállítás nem igazán hasznos számunkra, mert szeretnénk az összes szöveget egybegyűjteni, hogy elemzést végezhessünk rajta. 

Nem akarjuk azonban, hogy szóköz nélkül egyesítsék őket, ezért kezdjük a kódunkat egy szóközzel egy dupla idézőjelben .  

Ezután adjuk hozzá a .join karakterláncot, és különítsük el az áttekintés szövegoszlopát az adatkészletet tároló df változónk segítségével. Írja be a „Szöveg áttekintése” szót egy zárójelbe helyezve, amely elszigeteli az oszlopot. 

Ez a kód mindenhez kapcsolódik, de el kell mentenünk, ezért hozzunk létre egy változót, amelyet szavaknak nevezünk.

Szövegelemzés Python használatával: Hogyan lehet azonosítani a beszédrészeket

Miután az összes szót összeállítottuk, használhatjuk a szövegfoltunkat a szavak elemzéséhez. 

Az első dolog, hogy létrehozzuk a beszédrészeinket a blob változó használatával, amellyel szavakat kell átadnunk egy szöveges blobnak. Ezt a szövegfoltot fogjuk használni, és átadjuk a szöveget, ami a mi szavaink . Ezt a következőképpen kell beírni : blob = TextBlob(words).

Most, hogy megvan ez a blob, fogjuk, és létrehozzuk a beszédrészek_változóját a blob.tags segítségével . A címkék az egyes beszédrészek rövidítései lesznek. 

A következő lépésben elmentjük ezt egy adatkeretként az általunk bevitt Pandák segítségével . Nevezzük az adatainknak, amelyek megegyeznek a pd.DataFrame- vel , és bevisszük a beszédrészeinket

Szövegelemzés Python használatával: Hogyan lehet azonosítani a beszédrészeket

Kattintson az OK gombra a kód futtatásához. A kód futtatása után egy táblázatot kell kapnunk a változóinkról. Megvan az adatkészlet vagy az eredeti adataink. Megvannak az adataink is és a df

Szövegelemzés Python használatával: Hogyan lehet azonosítani a beszédrészeket

Ha nem érte el a kívánt eredményt, bemutatjuk a különböző módokat a kódban előforduló hibák elkerülésére.

A szövegelemzés kódjának javítása Pythonban

Néha nagyon határozottnak kell lennünk az érintett szöveg formátumának megváltoztatásakor. 

Ezt úgy tehetjük meg, hogy meghívjuk a df változónkat, elkülönítjük a zárójelben elhelyezett 'Review Text' -et, majd az .astype('str') segítségével módosítjuk a típust karakterláncokra . Ezután csak mentse újra a df változóba. 

Szövegelemzés Python használatával: Hogyan lehet azonosítani a beszédrészeket

Kattintson az OK gombra a kód újbóli futtatásához. Ugyanazokat az eredményeket kell elérnünk, mint korábban.

Most meg akarjuk nyitni adatainkat , az utolsó változót, amelyet bevittünk, hogy megnézzük, hogyan néz ki. 

Szövegelemzés Python használatával: Hogyan lehet azonosítani a beszédrészeket

Minden szavunkat beszédrészekre kell bontanunk. Az oszlopainkat még nem neveztük el, de ezt könnyen megtehetjük. 

Szövegelemzés Python használatával: Hogyan lehet azonosítani a beszédrészeket

Ugyanennek a szövegelemzésnek a régi változatában az első oszlopot Word- nek , a másodikat pedig rövidítésnek neveztem . 

Szövegelemzés Python használatával: Hogyan lehet azonosítani a beszédrészeket

A Beszédrészek lekérdezésben bevisszük azokat a szavakat, amelyek ezekhez a rövidítésekhez tartoznak, és összekapcsoljuk őket.

Szövegelemzés Python használatával: Hogyan lehet azonosítani a beszédrészeket

Most zárjuk be és alkalmazzuk

Szövegelemzés Python használatával: Hogyan lehet azonosítani a beszédrészeket

Az általunk elvégzett lépések lehetővé tették, hogy átszűrjük a különböző beszédrészeket, amelyeket egy egyszerű kód segítségével azonosítottunk. Ezt a vizualitást a LuckyTemplatesben adja meg, ahol egyszerűen szűrhetjük a szövegünket az alapján, hogy a beszéd mely részei kategóriákba tartoznak. 

Szövegelemzés Python használatával: Hogyan lehet azonosítani a beszédrészeket




Következtetés

Mint a , előfordulhat, hogy betekintést és jelentést kell kinyernie nagy mennyiségű strukturálatlan szöveges adatból. A tanultak hasznos megközelítést jelentenek a szöveges adatok szövegelemzés útján történő megértéséhez.

Mostantól könnyedén lebonthatja a szöveget kisebb egységekre, például szavakra és mondatokra, majd ezeket az egységeket minták és kapcsolatok szempontjából elemezheti. Mindezeket a célokat elérheti a Python és a LuckyTemplates szövegelemzésével. 

Minden jót,

Leave a Comment

E-mail melléklet mentése SharePointba a Power Automate segítségével

E-mail melléklet mentése SharePointba a Power Automate segítségével

Ebből a blogból megtudhatja, hogyan mentheti automatikusan az e-mail mellékleteket a SharePointba, majd törölheti az e-maileket a Power Automate segítségével.

A Microsoft LuckyTemplates irányítópult 18 legjobb példája 2023

A Microsoft LuckyTemplates irányítópult 18 legjobb példája 2023

A Microsoft LuckyTemplates irányítópult 18 legjobb példája 2023

A Power Automate folyamatok létrehozása a semmiből

A Power Automate folyamatok létrehozása a semmiből

Ismerje meg, hogyan hozhat létre <strong>Power Automate</strong> folyamatokat a semmiből. Sablon használata helyett mi magunk hozzuk létre a kiváltó okokat és a műveleteket.

4 módszer a Pi használatára a Pythonban példákkal

4 módszer a Pi használatára a Pythonban példákkal

4 módszer a Pi használatára a Pythonban példákkal

Profit and Loss (P&L) kimutatások létrehozása a LuckyTemplates alkalmazásban

Profit and Loss (P&L) kimutatások létrehozása a LuckyTemplates alkalmazásban

Ebben az útmutatóban bemutatom, hogyan lehet Pénzügyi információk mátrixát létrehozni a Profit és veszteség (P&L) kimutatással a LuckyTemplates alkalmazásban.

Hogyan lehet dinamikusan egyesíteni az oszlopokat egy Power Query-táblázatban

Hogyan lehet dinamikusan egyesíteni az oszlopokat egy Power Query-táblázatban

Fedezze fel, hogyan lehet dinamikusan egyesíteni oszlopokat a Power Query Table.CombineColumns függvény segítségével.

SharePoint-fájlok hozzáadása a számítógéphez

SharePoint-fájlok hozzáadása a számítógéphez

Ismerje meg, hogyan adhatjuk hozzá és szinkronizálhatjuk SharePoint-fájljainkat az asztalon és a OneDrive-on.

Dátumtáblázat létrehozása a LuckyTemplates alkalmazásban

Dátumtáblázat létrehozása a LuckyTemplates alkalmazásban

Tudja meg, miért fontos egy dedikált dátumtáblázat a LuckyTemplatesben, és ismerje meg ennek leggyorsabb és leghatékonyabb módját.

LuckyTemplates mobil jelentéskészítési tippek és technikák

LuckyTemplates mobil jelentéskészítési tippek és technikák

Ez a rövid oktatóanyag kiemeli a LuckyTemplates mobil jelentési funkcióját. Megmutatom, hogyan készíthet hatékony jelentéseket mobileszközökön.

Professzionális szolgáltatáselemzési jelentések LuckyTemplatesben

Professzionális szolgáltatáselemzési jelentések LuckyTemplatesben

Ebben a LuckyTemplates bemutatóban olyan jelentéseket tekintünk át, amelyek professzionális szolgáltatáselemzést mutatnak be egy olyan cégtől, amely több szerződéssel és ügyfél-elkötelezettséggel rendelkezik.