Analýza textu v Pythonu | Úvod

V tomto blogu budeme diskutovat o analýze textu v Pythonu pro vytváření konstruovaných dat z textového obsahu. To vám pomůže při analýze velkého množství dat a spotřebuje méně času při práci na určitých úkolech. Získáte také znalosti o textblobu , který se zabývá úlohami zpracování přirozeného jazyka.

Textová analýza je proces analýzy textů pomocí kódů pro automatizované procesy vytváření a seskupování textových dat.

Než budeme pokračovat, možná budete muset nainstalovat knihovnu, kterou budeme používat v tomto tutoriálu.

Obsah

Implementace analýzy textu v Pythonu

Začněme importem textblob . Nezapomeňte zdokumentovat, co děláte pomocí komentářů.

Analýza textu v Pythonu |  Úvod

Spuštěním výše uvedeného kódu máme nyní přístup ke knihovně textblob . Dalším krokem, který uděláme, je vytvoření věty, kterou budeme používat pro naše příklady. Uděláme to uložením věty do proměnné s názvem věta .

Nezapomeňte větu, kterou chcete přidat, uzavřít do dvojitých uvozovek.

Analýza textu v Pythonu |  Úvod

Textblob je skvělá knihovna, kde můžeme vytvořit blob a použít některé jeho funkce pro naši analýzu textu v .

Analýza textu v Pythonu |  Úvod

Při vytváření objektu BLOB začneme vytvořením proměnné a pojmenujeme ji blob . Do této proměnné musíme přidat TextBlob, což je knihovna, kterou používáme.

Uvnitř závorek použijeme proměnnou věta , která obsahuje větu, kterou jsme vytvořili dříve. Vezměte na vědomí, že se můžete rozhodnout ručně napsat samotnou větu do závorek pro tuto část.

Chcete-li zkontrolovat, co tato proměnná blob dělá, můžete ji jednoduše inicializovat zadáním názvu proměnné a stisknutím kláves Shift + Enter. Výstup by měl být podobný příkladu níže.

Analýza textu v Pythonu |  Úvod

Jak můžete vidět z výsledku, větu, kterou jsme uložili do proměnné věta , nyní obsahuje TextBlob .

Tokenizace textových dat v Pythonu

Pokud chcete některá slova z věty odstranit, můžeme každé z těchto slov rozdělit na jednotlivé části v seznamu. S touto danou větou je uděláme tokenizace nebo oddělení jednotlivých slov a jejich zařazení do seznamu.

K tomu použijeme proměnnou blob a použijeme funkci tokenizace . Poté jej uložíme do proměnné s názvem slova .

Analýza textu v Pythonu |  Úvod

Pojďme inicializovat proměnnou slov stejným způsobem, jako jsme to udělali při inicializaci proměnné blob , abychom viděli, co je v tokenizovaném seznamu.

Analýza textu v Pythonu |  Úvod

Jak vidíte, každé ze slov a dokonce i interpunkční znaménka jsou nyní oddělena v seznamu. Takto funguje funkce tokenizace .

Nyní, když máme seznam slov, můžeme z něj pak provést další funkci. Vytvořme další seznam slov, která nechceme, aby byla zahrnuta do našeho seznamu, jako jsou interpunkce a články. Chcete-li provést tento krok, podívejte se na níže uvedený snímek obrazovky.

Analýza textu v Pythonu |  Úvod

Při vytváření seznamu zastavovacích slov jsme použili závorky k uzavření seznamu zastavovacích slov. Potom je každé z ukončovacích slov uzavřeno jednoduchými uvozovkami a každé je odděleno čárkou. Seznam jsme uložili do proměnné stop_words .

Odtud provedeme porozumění seznamu , abychom odstranili slova, která jsou nezbytná pro provádění analýzy textu v . To zahrnuje čištění vět, tokenizaci a porovnávání různých seznamů. Nyní porovnáme tyto dva seznamy a vytvoříme nový seznam clean_tokens .

Analýza textu v Pythonu |  Úvod

Ve výše uvedeném kódu jsme použili zástupný symbol, který je w k reprezentaci prvku . V této části se snažíme získat prvek v proměnné slova, pokud prvek v proměnné stop_words neexistuje . Pokud budeme inicializovat clean_tokens , bude to výsledek.

Analýza textu v Pythonu |  Úvod

V tomto procesu jsme schopni vyčistit naše tokeny tím, že zahájíme proces odstranění nepotřebných tokenů, jako jsou interpunkce a články. Z toho důvodu nám na našem seznamu zbyla pouze základní slova.

Spojení tokenů k vytvoření věty v Pythonu

Nyní, když jsme oddělili čisté žetony , zkusme je dát dohromady do jedné věty. K tomu musíme využít funkci .join . Podívejte se na níže uvedený příklad.

Analýza textu v Pythonu |  Úvod

Ve výše uvedeném příkladu jsme vytvořili proměnnou s názvem clean_sentence pro uložení našich čistých tokenů, které budou spojeny do věty. Můžete si také všimnout, že jsme přidali mezeru uzavřenou dvojitými uvozovkami a funkci .join . Do parametrů jsme zahrnuli proměnnou clean_tokens .

Toto bude výstup, pokud inicializujeme proměnnou clean_sentence .

Analýza textu v Pythonu |  Úvod

Je zřejmé, že věta nevypadá správně, protože jsme dříve odstranili články a interpunkci.

Po vytvoření clean_sentence zkusme vytvořit nový textový blok obsahující clean_sentence , který jsme právě vytvořili. Poté jej uložíme do nové proměnné clean_blob .

Analýza textu v Pythonu |  Úvod

Rozebírání textového bloku pro části řeči pomocí funkce .tags

Z tohoto blobu analýzy můžeme použít části tohoto blobu ke kontrole slovních druhů nebo k ještě větším změnám. Zkusme zkontrolovat slovní druhy každého slova v našem novém textovém blobu .

Analýza textu v Pythonu |  Úvod

Chcete-li zkontrolovat části řeči v textovém bloku, měli byste použít funkci .tags . Udělal jsem to pomocí naší proměnné clean_blob a hned poté jsem přidal funkci .tags .

Pokud se někdy při inicializaci funkce .tags zobrazí chybová zpráva , přečtěte si a postupujte podle pokynů, abyste chybu opravili. V tomto případě to vypadá takto.

Analýza textu v Pythonu |  Úvod

Pokud se na konci této chybové zprávy posunete dolů, uvidíte požadovaná data, která potřebujete pro funkci, kterou se pokoušíte použít.

Analýza textu v Pythonu |  Úvod

Jakmile najdeme kód, který potřebujeme inicializovat, abychom si mohli stáhnout potřebná data, stačí kód zkopírovat a poté otevřít pomocí Windows Search .

Analýza textu v Pythonu |  Úvod

Pomocí Anaconda Prompt se pokusíme opravit chybu, kterou jsme obdrželi při inicializaci funkce .tags . Nyní vložíme kód, který jsme zkopírovali z chybové zprávy dříve, a spustíme jej stisknutím klávesy Enter .

Analýza textu v Pythonu |  Úvod

Po dokončení zkuste znovu spustit funkci .tags a zjistěte, zda funguje.

Analýza textu v Pythonu |  Úvod

Po opětovném spuštění kódu vidíme, že chyba je opravena a obdrželi jsme výsledek, který obsahuje každé slovo z nového textového bloku spolu se značkami nebo částmi řeči.

Pokud nemáte ponětí, co tyto značky znamenají, můžete jednoduše přejít na webovou stránku textblob a zkontrolovat, co tyto značky představují. 

Využití funkce ngrams pro analýzu textu v Pythonu

Pojďme k dalšímu příkladu, který se týká získání ngramů . Funkce ngrams se používá k hledání slov, která se často vyskytují společně ve větě nebo dokumentu. Jako příklad začněme vytvořením nového textového bloku a jeho uložením do proměnné blob3 .

Analýza textu v Pythonu |  Úvod

Poté použijme funkci ngrams v proměnné blob3 ke kontrole některých kombinací slov.

Analýza textu v Pythonu |  Úvod

Ve výchozím nastavení, pokud jste nezadali hodnotu v parametrech, zobrazí se trigramy nebo kombinace tří slov. Pokud ale chceme vidět 2slovná spojení z věty, můžeme v parametrech nastavit 2 jako v příkladu níže.

Analýza textu v Pythonu |  Úvod

Zkusme to tentokrát delší větou. V tomto příkladu jsem právě zkopíroval delší text z recenze filmu. Pro tuto část můžete použít jakoukoli větu, kterou chcete.

Analýza textu v Pythonu |  Úvod

Jako poslední příklad zkusme použít ngrams ještě jednou s více informativní větou.

Analýza textu v Pythonu |  Úvod

Se všemi těmito příklady můžeme provést více textu na základě výsledků, které dostáváme s funkcí ngrams .




Závěr

Abych to shrnul, dozvěděli jste se o různých funkcích, které můžete využít k provádění analýzy textu v Pythonu.

Jedná se o funkci .tokenize pro oddělení slov ve větě, funkci .join pro kombinování tokenizovaných slov, funkci .tags pro kontrolu slovních druhů slov a funkci ngrams pro zobrazení kombinace slov.

Navíc jste se naučili, jak opravit chyby, jako jsme udělali ve funkci .tags pomocí Anaconda Prompt . Také jste se naučili, jak importovat, vytvářet textový blok a používat tuto knihovnu pro provádění analýzy textu v .

Vše nejlepší,

Gaellim


Vytvoření tabulky data v LuckyTemplates

Vytvoření tabulky data v LuckyTemplates

Zjistěte, proč je důležité mít vyhrazenou tabulku s daty v LuckyTemplates, a naučte se nejrychlejší a nejefektivnější způsob, jak toho dosáhnout.

LuckyTemplates Mobile Reporting Tipy a techniky

LuckyTemplates Mobile Reporting Tipy a techniky

Tento stručný návod zdůrazňuje funkci mobilního hlášení LuckyTemplates. Ukážu vám, jak můžete efektivně vytvářet přehledy pro mobily.

Profesionální servisní analytické zprávy v LuckyTemplates

Profesionální servisní analytické zprávy v LuckyTemplates

V této ukázce LuckyTemplates si projdeme sestavy ukazující profesionální analýzy služeb od firmy, která má více smluv a zákaznických vztahů.

Aktualizácie Microsoft Power Platform | Microsoft Ignite 2021

Aktualizácie Microsoft Power Platform | Microsoft Ignite 2021

Pozrite si kľúčové aktualizácie pre Power Apps a Power Automate a ich výhody a dôsledky pre platformu Microsoft Power Platform.

Bežné funkcie SQL: Prehľad

Bežné funkcie SQL: Prehľad

Objavte niektoré bežné funkcie SQL, ktoré môžeme použiť, ako napríklad reťazec, dátum a niektoré pokročilé funkcie na spracovanie alebo manipuláciu s údajmi.

Vytvoření šablony LuckyTemplates: Průvodce a tipy

Vytvoření šablony LuckyTemplates: Průvodce a tipy

V tomto tutoriálu se naučíte, jak vytvořit dokonalou šablonu LuckyTemplates, která je nakonfigurována podle vašich potřeb a preferencí.

Parametry pole a malé násobky v LuckyTemplates

Parametry pole a malé násobky v LuckyTemplates

V tomto blogu si ukážeme, jak vrstvit parametry pole s malými násobky, abychom vytvořili neuvěřitelně užitečné přehledy a vizuály.

LuckyTemplates Rank a vlastní seskupení

LuckyTemplates Rank a vlastní seskupení

V tomto blogu se dozvíte, jak používat funkce hodnocení LuckyTemplates a vlastní seskupování k segmentaci ukázkových dat a jejich seřazení podle kritérií.

Zobrazení kumulativního součtu pouze do určitého data v LuckyTemplates

Zobrazení kumulativního součtu pouze do určitého data v LuckyTemplates

V tomto tutoriálu se budu zabývat konkrétní technikou, jak zobrazit kumulativní součet pouze do určitého data ve vašich vizuálech v LuckyTemplates.

Bullet Charts: Pokročilé vlastní vizuální prvky pro LuckyTemplates

Bullet Charts: Pokročilé vlastní vizuální prvky pro LuckyTemplates

Naučte se vytvářet a přizpůsobovat Bullet grafy v LuckyTemplates, které se používají hlavně pro měření výkonu oproti cílovým nebo předchozím rokům.