Analýza textu pomocí Pythonu: Jak identifikovat části řeči

V tomto blogu vám ukážeme, jak používat Python k identifikaci slovních druhů v textových datech v rámci LuckyTemplates. Probereme kroky pro použití Pythonu pro analýzu textu a poskytneme příklady a tipy, které vám pomohou začít s vašimi vlastními projekty analýzy textu. Celé video tohoto tutoriálu si můžete prohlédnout ve spodní části tohoto blogu.

Obsah

Zdrojová data
Analýza textu pomocí Pythonu
Oprava kódu pro analýzu textu v Pythonu
Závěr

Zdrojová data

V tomto tutoriálu použijeme hotový shluk slov obsahující texty, které budeme vyhodnocovat. To je zobrazeno na levé straně obrázku níže. Na pravé straně máme filtry pro identifikaci různých částí řeči, například přídavná jména nebo slovesa.

Analýza textu pomocí Pythonu: Jak identifikovat části řeči

Můžeme odfiltrovat slova, která jsou příslovce, podstatná jména, různé druhy podstatných jmen nebo sloves a slovesné základy. To je velmi užitečné při vytváření marketingové kampaně a hledání slov ve vašich zákaznických recenzích.

Začněme otevřením našeho editoru.

V našich zdrojových datech máme sloupce pro ID, věk, titul a text recenze. Zaměříme se na sloupec Kontrolní text a budeme jej analyzovat, abychom provedli analýzu textu. Existují také další kategorie, které mohou být užitečné v naší analýze.

Analýza textu pomocí Pythonu: Jak identifikovat části řeči

Analýza textu pomocí Pythonu

Začněme normálními daty, která jsme přinesli. První věc, kterou uděláme, je filtrovat řádky, protože máme hodně dat, a když provádíme analýzu textu, zabere to čas.

Chcete-li filtrovat naše data, vezměte prvních 50 řádků, aby byla analýza textu o něco rychlejší.

Analýza textu pomocí Pythonu: Jak identifikovat části řeči

Po odfiltrování přejděte na Transform and Run script. Vše zakódujeme zde, protože kódu není mnoho.

Analýza textu pomocí Pythonu: Jak identifikovat části řeči

Import balíčků

Přineseme dva balíčky pro naši analýzu textu v Pythonu pomocí našeho editoru. Budeme „importovat pandy jako pd“ , naši knihovnu pro manipulaci s daty, která bude uložena jako proměnná pd. A pak „ z textového blobu “ , „importujeme TextBlob“ s velkým mezi slovy.

Vždy můžeme zdokumentovat, co děláme, vložením řetězce dokumentu. Napišme #bring in the basic Librarys nad naše balíčky.

Analýza textu pomocí Pythonu: Jak identifikovat části řeči

Přejmenování proměnné

V prvním řádku našeho skriptu je tento řádek poskytnutý LuckyTemplates, který říká, že # 'dataset' obsahuje vstupní data pro tento skript. Tento řádek říká, že naše data se nazývají datová sada.

Změňme to, protože zápis „datasetu“ trvá příliš dlouho. Do dalšího řádku zadejte #change proměnnou datové sady a df = datovou sadu .

Analýza textu pomocí Pythonu: Jak identifikovat části řeči

Nyní je zápis naší proměnné kratší.

Provádím analýzu textu

Pokračujme v analýze textu. Připomeňme, že naše texty recenzí jsou ve sloupci s jednotlivými buňkami. Toto nastavení nám moc nepomůže, protože chceme všechny texty pohromadě, abychom na nich mohli provést analýzu.

Nechceme však, aby byly spojeny bez mezery, takže začněme náš kód mezerou uvnitř dvojitých uvozovek .

Pak přidejte .join a izolujte náš sloupec s textem recenze pomocí naší proměnné df , která obsahuje datovou sadu. Napište 'Review Text' umístěný v závorce, která izoluje sloupec.

Tento kód vše spojí, ale musíme ho uložit, takže vytvoříme proměnnou nazvanou slova.

Analýza textu pomocí Pythonu: Jak identifikovat části řeči

Jakmile máme všechna slova pohromadě, můžeme pak použít náš textový blob k zahájení analýzy slov.

První věc, kterou musíte udělat, je vytvořit naše slovní druhy pomocí proměnné blob , kterou potřebujeme k předání slov do textového blobu. Použijeme tento textový blob a předáme text, což jsou naše slova . To se zadává jako blob = TextBlob(slova).

Nyní, když máme tento blob, vezmeme ho a vytvoříme proměnnou parts_of_speech pomocí blob.tags . Tagy budou zkratky pro každý z druhů řeči.

Co uděláme dále, je uložit to jako datový rámec pomocí Pandas , které jsme přinesli. Nazvěme to naše data , která se rovnají pd.DataFrame a přinášíme naše části_mluvy .

Analýza textu pomocí Pythonu: Jak identifikovat části řeči

Kliknutím na OK spustíme náš kód. Po spuštění našeho kódu bychom měli dostat tabulku našich proměnných. Máme datovou sadu nebo naše původní data. Máme také svá data a df .

Analýza textu pomocí Pythonu: Jak identifikovat části řeči

Pokud jste nedosáhli zamýšlených výsledků, ukážeme vám různé způsoby, jak se vyhnout některým chybám, které se mohou v kódu objevit.

Oprava kódu pro analýzu textu v Pythonu

Někdy možná potřebujeme být velmi explicitní při změně formátu textu, který nás zajímá.

Můžeme to udělat tak, že zavoláme naši proměnnou df , izolujeme 'Review Text ' umístěný v závorce a pak změníme typ na řetězce pomocí .astype('str') . Pak to stačí znovu uložit do proměnné df .

Analýza textu pomocí Pythonu: Jak identifikovat části řeči

Klepnutím na tlačítko OK znovu spusťte kód. Měli bychom získat stejné výsledky jako dříve.

Nyní chceme otevřít naše data , poslední proměnnou, kterou jsme přinesli, abychom viděli, jak to vypadá.

Analýza textu pomocí Pythonu: Jak identifikovat části řeči

Všechna naše slova bychom měli rozdělit na části řeči. Své sloupce jsme ještě nepojmenovali, ale můžeme to snadno udělat.

Analýza textu pomocí Pythonu: Jak identifikovat části řeči

Ve staré verzi této analýzy textu jsem první sloupec nazval jako Word a druhý jako Zkratka .

Analýza textu pomocí Pythonu: Jak identifikovat části řeči

V dotazu Parts of Speech přinášíme skutečná slova, která jsou pro tyto zkratky a spojujeme je všechna dohromady.

Analýza textu pomocí Pythonu: Jak identifikovat části řeči

Nyní pojďme Zavřít a použít .

Analýza textu pomocí Pythonu: Jak identifikovat části řeči

Kroky, které jsme provedli, nám umožnily filtrovat různé části řeči, které jsme identifikovali pomocí jednoduchého kódu. Poskytuje nám tento vizuál v LuckyTemplates, kde můžeme snadno filtrovat náš text podle toho, do jaké kategorie slovních druhů spadají.

Analýza textu pomocí Pythonu: Jak identifikovat části řeči

Závěr

Jako , můžete narazit na potřebu extrahovat postřehy a význam z velkého množství nestrukturovaných textových dat. To, co jste se naučili, je užitečný přístup k pochopení textových dat prostřednictvím analýzy textu.

Nyní můžete snadno rozdělit text na menší jednotky, jako jsou slova a věty, a poté tyto jednotky analyzovat na vzory a vztahy. Všechny tyto cíle můžete dosáhnout pomocí textové analýzy v Pythonu a LuckyTemplates.

Vše nejlepší,

Zanechat komentář

Extrahovanie motívov a obrázkov LuckyTemplates z PBIX

Naučte se, jak rozebrat soubor PBIX a extrahovat motivy a obrázky LuckyTemplates z pozadí pro váš report!

Prehľad a vytvorenie domovskej stránky SharePointu

Naučte sa, ako vytvoriť domovskú stránku SharePointu, ktorá sa predvolene načítava, keď používatelia zadajú adresu vašej webovej lokality.

Vytvoření tabulky data v LuckyTemplates

Zjistěte, proč je důležité mít vyhrazenou tabulku s daty v LuckyTemplates, a naučte se nejrychlejší a nejefektivnější způsob, jak toho dosáhnout.

LuckyTemplates Mobile Reporting Tipy a techniky

Tento stručný návod zdůrazňuje funkci mobilního hlášení LuckyTemplates. Ukážu vám, jak můžete efektivně vytvářet přehledy pro mobily.

Profesionální servisní analytické zprávy v LuckyTemplates

V této ukázce LuckyTemplates si projdeme sestavy ukazující profesionální analýzy služeb od firmy, která má více smluv a zákaznických vztahů.

Bežné funkcie SQL: Prehľad

Objavte niektoré bežné funkcie SQL, ktoré môžeme použiť, ako napríklad reťazec, dátum a niektoré pokročilé funkcie na spracovanie alebo manipuláciu s údajmi.

Aktualizácie Microsoft Power Platform | Microsoft Ignite 2021

Pozrite si kľúčové aktualizácie pre Power Apps a Power Automate a ich výhody a dôsledky pre platformu Microsoft Power Platform.

Parametry pole a malé násobky v LuckyTemplates

V tomto blogu si ukážeme, jak vrstvit parametry pole s malými násobky, abychom vytvořili neuvěřitelně užitečné přehledy a vizuály.

Vytvoření šablony LuckyTemplates: Průvodce a tipy

V tomto tutoriálu se naučíte, jak vytvořit dokonalou šablonu LuckyTemplates, která je nakonfigurována podle vašich potřeb a preferencí.

LuckyTemplates Rank a vlastní seskupení

V tomto blogu se dozvíte, jak používat funkce hodnocení LuckyTemplates a vlastní seskupování k segmentaci ukázkových dat a jejich seřazení podle kritérií.