Analýza textu pomocí Pythonu: Jak identifikovat části řeči

V tomto blogu vám ukážeme, jak používat Python k identifikaci slovních druhů v textových datech v rámci LuckyTemplates. Probereme kroky pro použití Pythonu pro analýzu textu a poskytneme příklady a tipy, které vám pomohou začít s vašimi vlastními projekty analýzy textu. Celé video tohoto tutoriálu si můžete prohlédnout ve spodní části tohoto blogu.

Obsah

Zdrojová data

V tomto tutoriálu použijeme hotový shluk slov obsahující texty, které budeme vyhodnocovat. To je zobrazeno na levé straně obrázku níže. Na pravé straně máme filtry pro identifikaci různých částí řeči, například přídavná jména nebo slovesa. 

Analýza textu pomocí Pythonu: Jak identifikovat části řeči

Můžeme odfiltrovat slova, která jsou příslovce, podstatná jména, různé druhy podstatných jmen nebo sloves a slovesné základy. To je velmi užitečné při vytváření marketingové kampaně a hledání slov ve vašich zákaznických recenzích. 

Začněme otevřením našeho editoru. 

V našich zdrojových datech máme sloupce pro ID, věk, titul a text recenze. Zaměříme se na sloupec Kontrolní text a budeme jej analyzovat, abychom provedli analýzu textu. Existují také další kategorie, které mohou být užitečné v naší analýze.

Analýza textu pomocí Pythonu: Jak identifikovat části řeči

Analýza textu pomocí Pythonu

Začněme normálními daty, která jsme přinesli. První věc, kterou uděláme, je filtrovat řádky, protože máme hodně dat, a když provádíme analýzu textu, zabere to čas. 

Chcete-li filtrovat naše data, vezměte prvních 50 řádků, aby byla analýza textu o něco rychlejší. 

Analýza textu pomocí Pythonu: Jak identifikovat části řeči

Po odfiltrování přejděte na Transform and Run script. Vše zakódujeme zde, protože kódu není mnoho. 

Analýza textu pomocí Pythonu: Jak identifikovat části řeči

Import balíčků

Přineseme dva balíčky pro naši analýzu textu v Pythonu pomocí našeho editoru. Budeme „importovat pandy jako pd“ , naši knihovnu pro manipulaci s daty, která bude uložena jako proměnná pd. A pak „ z textového blobu , „importujeme TextBlob“ s velkým mezi slovy. 

Vždy můžeme zdokumentovat, co děláme, vložením řetězce dokumentu. Napišme #bring in the basic Librarys nad naše balíčky.

Analýza textu pomocí Pythonu: Jak identifikovat části řeči

Přejmenování proměnné

V prvním řádku našeho skriptu je tento řádek poskytnutý LuckyTemplates, který říká, že # 'dataset' obsahuje vstupní data pro tento skript. Tento řádek říká, že naše data se nazývají datová sada. 

Změňme to, protože zápis „datasetu“ trvá příliš dlouho. Do dalšího řádku zadejte #change proměnnou datové sady a df = datovou sadu .

Analýza textu pomocí Pythonu: Jak identifikovat části řeči

Nyní je zápis naší proměnné kratší. 

Provádím analýzu textu

Pokračujme v analýze textu. Připomeňme, že naše texty recenzí jsou ve sloupci s jednotlivými buňkami. Toto nastavení nám moc nepomůže, protože chceme všechny texty pohromadě, abychom na nich mohli provést analýzu. 

Nechceme však, aby byly spojeny bez mezery, takže začněme náš kód mezerou uvnitř dvojitých uvozovek .  

Pak přidejte .join a izolujte náš sloupec s textem recenze pomocí naší proměnné df , která obsahuje datovou sadu. Napište 'Review Text' umístěný v závorce, která izoluje sloupec. 

Tento kód vše spojí, ale musíme ho uložit, takže vytvoříme proměnnou nazvanou slova.

Analýza textu pomocí Pythonu: Jak identifikovat části řeči

Jakmile máme všechna slova pohromadě, můžeme pak použít náš textový blob k zahájení analýzy slov. 

První věc, kterou musíte udělat, je vytvořit naše slovní druhy pomocí proměnné blob , kterou potřebujeme k předání slov do textového blobu. Použijeme tento textový blob a předáme text, což jsou naše slova . To se zadává jako blob = TextBlob(slova).

Nyní, když máme tento blob, vezmeme ho a vytvoříme proměnnou parts_of_speech pomocí blob.tags . Tagy budou zkratky pro každý z druhů řeči. 

Co uděláme dále, je uložit to jako datový rámec pomocí Pandas , které jsme přinesli. Nazvěme to naše data , která se rovnají pd.DataFrame a přinášíme naše části_mluvy

Analýza textu pomocí Pythonu: Jak identifikovat části řeči

Kliknutím na OK spustíme náš kód. Po spuštění našeho kódu bychom měli dostat tabulku našich proměnných. Máme datovou sadu nebo naše původní data. Máme také svá data a df

Analýza textu pomocí Pythonu: Jak identifikovat části řeči

Pokud jste nedosáhli zamýšlených výsledků, ukážeme vám různé způsoby, jak se vyhnout některým chybám, které se mohou v kódu objevit.

Oprava kódu pro analýzu textu v Pythonu

Někdy možná potřebujeme být velmi explicitní při změně formátu textu, který nás zajímá. 

Můžeme to udělat tak, že zavoláme naši proměnnou df , izolujeme 'Review Text ' umístěný v závorce a pak změníme typ na řetězce pomocí .astype('str') . Pak to stačí znovu uložit do proměnné df

Analýza textu pomocí Pythonu: Jak identifikovat části řeči

Klepnutím na tlačítko OK znovu spusťte kód. Měli bychom získat stejné výsledky jako dříve.

Nyní chceme otevřít naše data , poslední proměnnou, kterou jsme přinesli, abychom viděli, jak to vypadá. 

Analýza textu pomocí Pythonu: Jak identifikovat části řeči

Všechna naše slova bychom měli rozdělit na části řeči. Své sloupce jsme ještě nepojmenovali, ale můžeme to snadno udělat. 

Analýza textu pomocí Pythonu: Jak identifikovat části řeči

Ve staré verzi této analýzy textu jsem první sloupec nazval jako Word a druhý jako Zkratka

Analýza textu pomocí Pythonu: Jak identifikovat části řeči

V dotazu Parts of Speech přinášíme skutečná slova, která jsou pro tyto zkratky a spojujeme je všechna dohromady.

Analýza textu pomocí Pythonu: Jak identifikovat části řeči

Nyní pojďme Zavřít a použít

Analýza textu pomocí Pythonu: Jak identifikovat části řeči

Kroky, které jsme provedli, nám umožnily filtrovat různé části řeči, které jsme identifikovali pomocí jednoduchého kódu. Poskytuje nám tento vizuál v LuckyTemplates, kde můžeme snadno filtrovat náš text podle toho, do jaké kategorie slovních druhů spadají. 

Analýza textu pomocí Pythonu: Jak identifikovat části řeči




Závěr

Jako , můžete narazit na potřebu extrahovat postřehy a význam z velkého množství nestrukturovaných textových dat. To, co jste se naučili, je užitečný přístup k pochopení textových dat prostřednictvím analýzy textu.

Nyní můžete snadno rozdělit text na menší jednotky, jako jsou slova a věty, a poté tyto jednotky analyzovat na vzory a vztahy. Všechny tyto cíle můžete dosáhnout pomocí textové analýzy v Pythonu a LuckyTemplates. 

Vše nejlepší,


Vyhledávací pole PowerApps: Jak přidat a přizpůsobit

Vyhledávací pole PowerApps: Jak přidat a přizpůsobit

Naučte se, jak vytvořit vyhledávací pole PowerApps úplně od začátku a přizpůsobit je tak, aby odpovídalo celkovému tématu vaší aplikace.

Příklad SELECTEDVALUE DAX – Výběr kráječe sklizně

Příklad SELECTEDVALUE DAX – Výběr kráječe sklizně

Sklízejte nebo zachycujte hodnotu uvnitř míry a znovu ji použijte v jiném taktu pro dynamické výpočty pomocí SELECTEDVALUE DAX v LuckyTemplates.

Historie verzí v seznamech SharePoint

Historie verzí v seznamech SharePoint

Zjistěte, jak vám historie verzí na SharePointu může pomoci vidět vývoj určitých dat a kolika změn prošla.

Výběr barevných hexadecimálních kódů pro zprávy LuckyTemplates

Výběr barevných hexadecimálních kódů pro zprávy LuckyTemplates

Zde je nástroj pro vytváření sestav a vizuálů, výběr barevných hexadecimálních kódů, který můžete použít ke snadnému získání barev pro vaše sestavy LuckyTemplates.

Dynamický datový výřez v LuckyTemplates pomocí tabulky období

Dynamický datový výřez v LuckyTemplates pomocí tabulky období

Pomocí tabulky období můžete v přehledu snadno zobrazit časové období jako průřez. Použijte M kód k vytvoření dynamického datového výřezu v LuckyTemplates.

Tabulky proporcí a četností v Excelu

Tabulky proporcí a četností v Excelu

Chtěli jsme se ponořit do tabulek četností v Excelu a také do tabulek proporcí. Podívejte se, co to je a kdy je použít.

Ako nainštalovať DAX Studio & Tabular Editor v LuckyTemplates

Ako nainštalovať DAX Studio & Tabular Editor v LuckyTemplates

Zistite, ako stiahnuť a nainštalovať DAX Studio a Tabular Editor 3 a ako ich nakonfigurovať na použitie v LuckyTemplates a v Exceli.

LuckyTemplates Vizualizácia tvarovej mapy pre priestorovú analýzu

LuckyTemplates Vizualizácia tvarovej mapy pre priestorovú analýzu

Tento blog obsahuje vizualizáciu Shape Map pre priestorovú analýzu v LuckyTemplates. Ukážem vám, ako môžete efektívne využiť túto vizualizáciu s jej funkciami a prvkami.

LuckyTemplates Finančné výkazníctvo: Prideľovanie výsledkov šablónam v každom jednom riadku

LuckyTemplates Finančné výkazníctvo: Prideľovanie výsledkov šablónam v každom jednom riadku

V tomto návode predstavujem jedinečný nápad týkajúci sa finančného výkazníctva, ktorý spočíva v prideľovaní výsledkov na vopred určené šablóny tabuliek v rámci LuckyTemplates.

DAX měří v LuckyTemplates pomocí Measure Branching

DAX měří v LuckyTemplates pomocí Measure Branching

Vytvářejte míry DAX v LuckyTemplates pomocí existujících mír nebo vzorců. Tomu říkám technika větvení opatření.