Home
» Power BI
»
Szövegelemzés Python használatával: Hogyan lehet azonosítani a beszédrészeket
Szövegelemzés Python használatával: Hogyan lehet azonosítani a beszédrészeket
Ebben a blogban megmutatjuk, hogyan lehet Python használatával azonosítani a beszédrészeket a LuckyTemplates szöveges adataiban. Leírjuk a Python szövegelemzési használatának lépéseit, és példákat és tippeket adunk a saját szövegelemzési projektek megkezdéséhez. Az oktatóanyag teljes videóját a blog alján tekintheti meg.
Ebben az oktatóanyagban egy kész szófelhőt fogunk használni, amely tartalmazza az értékelni kívánt szövegeket. Ez az alábbi kép bal oldalán látható. A jobb oldalon találhatók a szűrők a különböző beszédrészek, például melléknevek vagy igék azonosítására.
Kiszűrhetjük azokat a szavakat, amelyek határozószók, főnevek, különböző típusú főnevek vagy igék, valamint igealapok. Ez nagyon hasznos, ha marketingkampányt hoz létre, és szavakat keres a vásárlói véleményekben.
Kezdjük a szerkesztő megnyitásával.
Forrásadatainkban oszlopok találhatók az azonosítókhoz, az életkorhoz, a címhez és a vélemény szövegéhez. A Szöveg áttekintése oszlopra fogunk összpontosítani , és elemezni fogjuk a szövegelemzés elvégzéséhez. Vannak más kategóriák is, amelyek hasznosak lehetnek elemzésünkben.
Szövegelemzés Python használatával
Kezdjük az általunk bevitt normál adatokkal. Az első dolgunk az, hogy szűrjük a sorokat, mert sok adatunk van, és amikor szövegelemzést végzünk, az időbe telik.
Adataink szűréséhez vegye ki az első 50 sort, hogy egy kicsit gyorsabb legyen a szövegelemzés.
A kiszűrés után lépjen az Átalakítás és a szkript futtatása lehetőségre. Itt mindent kódolunk, mert nincs sok kód.
A csomagok importálása
Hozzunk be két csomagot a Python szövegelemzésünkhöz a szerkesztőnkkel. A pandákat „pd-ként importáljuk ” , az adatkezelési könyvtárunkat pd változóként mentjük. Ezután a „ szövegblobból ” „ TextBlob-ot importálunk ” nagybetűvel a szavak között.
Mindig dokumentálhatjuk, amit csinálunk egy dokumentumkarakterlánc elhelyezésével. Csomagjaink tetejére írjuk a #hozd be a nélkülözhetetlen könyvtárakat .
A változó átnevezése
A szkriptünk első sorában a LuckyTemplates által biztosított sor található, amely szerint a # 'dataset' tartalmazza a szkript bemeneti adatait. Ez a sor azt mondja, hogy adatainkat adathalmaznak nevezzük.
Tehát változtassunk ezen, mert túl sokáig tart az „adatkészlet” írása. Írja be, hogy #change az adatkészlet változó , és a következő sorba df = dataset .
Most rövidebb a változónk felírása.
Szövegelemzés készítése
Folytassuk szövegelemzésünket. Emlékezzünk vissza, hogy a felülvizsgálati szövegeink egy oszlopban vannak, különálló cellákkal. Ez a beállítás nem igazán hasznos számunkra, mert szeretnénk az összes szöveget egybegyűjteni, hogy elemzést végezhessünk rajta.
Nem akarjuk azonban, hogy szóköz nélkül egyesítsék őket, ezért kezdjük a kódunkat egy szóközzel egy dupla idézőjelben .
Ezután adjuk hozzá a .join karakterláncot, és különítsük el az áttekintés szövegoszlopát az adatkészletet tároló df változónk segítségével. Írja be a „Szöveg áttekintése” szót egy zárójelbe helyezve, amely elszigeteli az oszlopot.
Ez a kód mindenhez kapcsolódik, de el kell mentenünk, ezért hozzunk létre egy változót, amelyet szavaknak nevezünk.
Miután az összes szót összeállítottuk, használhatjuk a szövegfoltunkat a szavak elemzéséhez.
Az első dolog, hogy létrehozzuk a beszédrészeinket a blob változó használatával, amellyel szavakat kell átadnunk egy szöveges blobnak. Ezt a szövegfoltot fogjuk használni, és átadjuk a szöveget, ami a mi szavaink . Ezt a következőképpen kell beírni : blob = TextBlob(words).
Most, hogy megvan ez a blob, fogjuk, és létrehozzuk a beszédrészek_változóját a blob.tags segítségével . A címkék az egyes beszédrészek rövidítései lesznek.
A következő lépésben elmentjük ezt egy adatkeretként az általunk bevitt Pandák segítségével . Nevezzük az adatainknak, amelyek megegyeznek a pd.DataFrame- vel , és bevisszük a beszédrészeinket .
Kattintson az OK gombra a kód futtatásához. A kód futtatása után egy táblázatot kell kapnunk a változóinkról. Megvan az adatkészlet vagy az eredeti adataink. Megvannak az adataink is és a df .
Ha nem érte el a kívánt eredményt, bemutatjuk a különböző módokat a kódban előforduló hibák elkerülésére.
A szövegelemzés kódjának javítása Pythonban
Néha nagyon határozottnak kell lennünk az érintett szöveg formátumának megváltoztatásakor.
Ezt úgy tehetjük meg, hogy meghívjuk a df változónkat, elkülönítjük a zárójelben elhelyezett 'Review Text' -et, majd az .astype('str') segítségével módosítjuk a típust karakterláncokra . Ezután csak mentse újra a df változóba.
Kattintson az OK gombra a kód újbóli futtatásához. Ugyanazokat az eredményeket kell elérnünk, mint korábban.
Most meg akarjuk nyitni adatainkat , az utolsó változót, amelyet bevittünk, hogy megnézzük, hogyan néz ki.
Minden szavunkat beszédrészekre kell bontanunk. Az oszlopainkat még nem neveztük el, de ezt könnyen megtehetjük.
Ugyanennek a szövegelemzésnek a régi változatában az első oszlopot Word- nek , a másodikat pedig rövidítésnek neveztem .
A Beszédrészek lekérdezésben bevisszük azokat a szavakat, amelyek ezekhez a rövidítésekhez tartoznak, és összekapcsoljuk őket.
Most zárjuk be és alkalmazzuk .
Az általunk elvégzett lépések lehetővé tették, hogy átszűrjük a különböző beszédrészeket, amelyeket egy egyszerű kód segítségével azonosítottunk. Ezt a vizualitást a LuckyTemplatesben adja meg, ahol egyszerűen szűrhetjük a szövegünket az alapján, hogy a beszéd mely részei kategóriákba tartoznak.
Következtetés
Mint a , előfordulhat, hogy betekintést és jelentést kell kinyernie nagy mennyiségű strukturálatlan szöveges adatból. A tanultak hasznos megközelítést jelentenek a szöveges adatok szövegelemzés útján történő megértéséhez.
Mostantól könnyedén lebonthatja a szöveget kisebb egységekre, például szavakra és mondatokra, majd ezeket az egységeket minták és kapcsolatok szempontjából elemezheti. Mindezeket a célokat elérheti a Python és a LuckyTemplates szövegelemzésével.