Analýza textu v Pythonu | Úvod

V tomto blogu budeme diskutovat o analýze textu v Pythonu pro vytváření konstruovaných dat z textového obsahu. To vám pomůže při analýze velkého množství dat a spotřebuje méně času při práci na určitých úkolech. Získáte také znalosti o textblobu , který se zabývá úlohami zpracování přirozeného jazyka.

Textová analýza je proces analýzy textů pomocí kódů pro automatizované procesy vytváření a seskupování textových dat.

Než budeme pokračovat, možná budete muset nainstalovat knihovnu, kterou budeme používat v tomto tutoriálu.

Obsah

Implementace analýzy textu v Pythonu

Začněme importem textblob . Nezapomeňte zdokumentovat, co děláte pomocí komentářů.

Analýza textu v Pythonu |  Úvod

Spuštěním výše uvedeného kódu máme nyní přístup ke knihovně textblob . Dalším krokem, který uděláme, je vytvoření věty, kterou budeme používat pro naše příklady. Uděláme to uložením věty do proměnné s názvem věta .

Nezapomeňte větu, kterou chcete přidat, uzavřít do dvojitých uvozovek.

Analýza textu v Pythonu |  Úvod

Textblob je skvělá knihovna, kde můžeme vytvořit blob a použít některé jeho funkce pro naši analýzu textu v .

Analýza textu v Pythonu |  Úvod

Při vytváření objektu BLOB začneme vytvořením proměnné a pojmenujeme ji blob . Do této proměnné musíme přidat TextBlob, což je knihovna, kterou používáme.

Uvnitř závorek použijeme proměnnou věta , která obsahuje větu, kterou jsme vytvořili dříve. Vezměte na vědomí, že se můžete rozhodnout ručně napsat samotnou větu do závorek pro tuto část.

Chcete-li zkontrolovat, co tato proměnná blob dělá, můžete ji jednoduše inicializovat zadáním názvu proměnné a stisknutím kláves Shift + Enter. Výstup by měl být podobný příkladu níže.

Analýza textu v Pythonu |  Úvod

Jak můžete vidět z výsledku, větu, kterou jsme uložili do proměnné věta , nyní obsahuje TextBlob .

Tokenizace textových dat v Pythonu

Pokud chcete některá slova z věty odstranit, můžeme každé z těchto slov rozdělit na jednotlivé části v seznamu. S touto danou větou je uděláme tokenizace nebo oddělení jednotlivých slov a jejich zařazení do seznamu.

K tomu použijeme proměnnou blob a použijeme funkci tokenizace . Poté jej uložíme do proměnné s názvem slova .

Analýza textu v Pythonu |  Úvod

Pojďme inicializovat proměnnou slov stejným způsobem, jako jsme to udělali při inicializaci proměnné blob , abychom viděli, co je v tokenizovaném seznamu.

Analýza textu v Pythonu |  Úvod

Jak vidíte, každé ze slov a dokonce i interpunkční znaménka jsou nyní oddělena v seznamu. Takto funguje funkce tokenizace .

Nyní, když máme seznam slov, můžeme z něj pak provést další funkci. Vytvořme další seznam slov, která nechceme, aby byla zahrnuta do našeho seznamu, jako jsou interpunkce a články. Chcete-li provést tento krok, podívejte se na níže uvedený snímek obrazovky.

Analýza textu v Pythonu |  Úvod

Při vytváření seznamu zastavovacích slov jsme použili závorky k uzavření seznamu zastavovacích slov. Potom je každé z ukončovacích slov uzavřeno jednoduchými uvozovkami a každé je odděleno čárkou. Seznam jsme uložili do proměnné stop_words .

Odtud provedeme porozumění seznamu , abychom odstranili slova, která jsou nezbytná pro provádění analýzy textu v . To zahrnuje čištění vět, tokenizaci a porovnávání různých seznamů. Nyní porovnáme tyto dva seznamy a vytvoříme nový seznam clean_tokens .

Analýza textu v Pythonu |  Úvod

Ve výše uvedeném kódu jsme použili zástupný symbol, který je w k reprezentaci prvku . V této části se snažíme získat prvek v proměnné slova, pokud prvek v proměnné stop_words neexistuje . Pokud budeme inicializovat clean_tokens , bude to výsledek.

Analýza textu v Pythonu |  Úvod

V tomto procesu jsme schopni vyčistit naše tokeny tím, že zahájíme proces odstranění nepotřebných tokenů, jako jsou interpunkce a články. Z toho důvodu nám na našem seznamu zbyla pouze základní slova.

Spojení tokenů k vytvoření věty v Pythonu

Nyní, když jsme oddělili čisté žetony , zkusme je dát dohromady do jedné věty. K tomu musíme využít funkci .join . Podívejte se na níže uvedený příklad.

Analýza textu v Pythonu |  Úvod

Ve výše uvedeném příkladu jsme vytvořili proměnnou s názvem clean_sentence pro uložení našich čistých tokenů, které budou spojeny do věty. Můžete si také všimnout, že jsme přidali mezeru uzavřenou dvojitými uvozovkami a funkci .join . Do parametrů jsme zahrnuli proměnnou clean_tokens .

Toto bude výstup, pokud inicializujeme proměnnou clean_sentence .

Analýza textu v Pythonu |  Úvod

Je zřejmé, že věta nevypadá správně, protože jsme dříve odstranili články a interpunkci.

Po vytvoření clean_sentence zkusme vytvořit nový textový blok obsahující clean_sentence , který jsme právě vytvořili. Poté jej uložíme do nové proměnné clean_blob .

Analýza textu v Pythonu |  Úvod

Rozebírání textového bloku pro části řeči pomocí funkce .tags

Z tohoto blobu analýzy můžeme použít části tohoto blobu ke kontrole slovních druhů nebo k ještě větším změnám. Zkusme zkontrolovat slovní druhy každého slova v našem novém textovém blobu .

Analýza textu v Pythonu |  Úvod

Chcete-li zkontrolovat části řeči v textovém bloku, měli byste použít funkci .tags . Udělal jsem to pomocí naší proměnné clean_blob a hned poté jsem přidal funkci .tags .

Pokud se někdy při inicializaci funkce .tags zobrazí chybová zpráva , přečtěte si a postupujte podle pokynů, abyste chybu opravili. V tomto případě to vypadá takto.

Analýza textu v Pythonu |  Úvod

Pokud se na konci této chybové zprávy posunete dolů, uvidíte požadovaná data, která potřebujete pro funkci, kterou se pokoušíte použít.

Analýza textu v Pythonu |  Úvod

Jakmile najdeme kód, který potřebujeme inicializovat, abychom si mohli stáhnout potřebná data, stačí kód zkopírovat a poté otevřít pomocí Windows Search .

Analýza textu v Pythonu |  Úvod

Pomocí Anaconda Prompt se pokusíme opravit chybu, kterou jsme obdrželi při inicializaci funkce .tags . Nyní vložíme kód, který jsme zkopírovali z chybové zprávy dříve, a spustíme jej stisknutím klávesy Enter .

Analýza textu v Pythonu |  Úvod

Po dokončení zkuste znovu spustit funkci .tags a zjistěte, zda funguje.

Analýza textu v Pythonu |  Úvod

Po opětovném spuštění kódu vidíme, že chyba je opravena a obdrželi jsme výsledek, který obsahuje každé slovo z nového textového bloku spolu se značkami nebo částmi řeči.

Pokud nemáte ponětí, co tyto značky znamenají, můžete jednoduše přejít na webovou stránku textblob a zkontrolovat, co tyto značky představují. 

Využití funkce ngrams pro analýzu textu v Pythonu

Pojďme k dalšímu příkladu, který se týká získání ngramů . Funkce ngrams se používá k hledání slov, která se často vyskytují společně ve větě nebo dokumentu. Jako příklad začněme vytvořením nového textového bloku a jeho uložením do proměnné blob3 .

Analýza textu v Pythonu |  Úvod

Poté použijme funkci ngrams v proměnné blob3 ke kontrole některých kombinací slov.

Analýza textu v Pythonu |  Úvod

Ve výchozím nastavení, pokud jste nezadali hodnotu v parametrech, zobrazí se trigramy nebo kombinace tří slov. Pokud ale chceme vidět 2slovná spojení z věty, můžeme v parametrech nastavit 2 jako v příkladu níže.

Analýza textu v Pythonu |  Úvod

Zkusme to tentokrát delší větou. V tomto příkladu jsem právě zkopíroval delší text z recenze filmu. Pro tuto část můžete použít jakoukoli větu, kterou chcete.

Analýza textu v Pythonu |  Úvod

Jako poslední příklad zkusme použít ngrams ještě jednou s více informativní větou.

Analýza textu v Pythonu |  Úvod

Se všemi těmito příklady můžeme provést více textu na základě výsledků, které dostáváme s funkcí ngrams .




Závěr

Abych to shrnul, dozvěděli jste se o různých funkcích, které můžete využít k provádění analýzy textu v Pythonu.

Jedná se o funkci .tokenize pro oddělení slov ve větě, funkci .join pro kombinování tokenizovaných slov, funkci .tags pro kontrolu slovních druhů slov a funkci ngrams pro zobrazení kombinace slov.

Navíc jste se naučili, jak opravit chyby, jako jsme udělali ve funkci .tags pomocí Anaconda Prompt . Také jste se naučili, jak importovat, vytvářet textový blok a používat tuto knihovnu pro provádění analýzy textu v .

Vše nejlepší,

Gaellim


Ako nainštalovať DAX Studio & Tabular Editor v LuckyTemplates

Ako nainštalovať DAX Studio & Tabular Editor v LuckyTemplates

Zistite, ako stiahnuť a nainštalovať DAX Studio a Tabular Editor 3 a ako ich nakonfigurovať na použitie v LuckyTemplates a v Exceli.

LuckyTemplates Vizualizácia tvarovej mapy pre priestorovú analýzu

LuckyTemplates Vizualizácia tvarovej mapy pre priestorovú analýzu

Tento blog obsahuje vizualizáciu Shape Map pre priestorovú analýzu v LuckyTemplates. Ukážem vám, ako môžete efektívne využiť túto vizualizáciu s jej funkciami a prvkami.

LuckyTemplates Finančné výkazníctvo: Prideľovanie výsledkov šablónam v každom jednom riadku

LuckyTemplates Finančné výkazníctvo: Prideľovanie výsledkov šablónam v každom jednom riadku

V tomto návode predstavujem jedinečný nápad týkajúci sa finančného výkazníctva, ktorý spočíva v prideľovaní výsledkov na vopred určené šablóny tabuliek v rámci LuckyTemplates.

DAX měří v LuckyTemplates pomocí Measure Branching

DAX měří v LuckyTemplates pomocí Measure Branching

Vytvářejte míry DAX v LuckyTemplates pomocí existujících mír nebo vzorců. Tomu říkám technika větvení opatření.

Najvýkonnejšie volanie funkcie v LuckyTemplates

Najvýkonnejšie volanie funkcie v LuckyTemplates

V tomto blogu preskúmajte množinu údajov LuckyTemplates, najvýkonnejšie volanie funkcií, ktoré vám prináša tisíce funkcií M a DAX na dosah ruky.

Techniky modelovania údajov na organizáciu opatrení DAX

Techniky modelovania údajov na organizáciu opatrení DAX

V dnešnom návode sa podelím o niekoľko techník modelovania údajov o tom, ako lepšie usporiadať vaše merania DAX pre efektívnejší pracovný tok.

LuckyTemplates Financial Dashboard: Kompletné tipy na prispôsobenie tabuľky

LuckyTemplates Financial Dashboard: Kompletné tipy na prispôsobenie tabuľky

LuckyTemplates je skvelý nástroj pre finančné výkazníctvo. Tu je návod, ako vytvoriť prispôsobené tabuľky pre váš finančný dashboard LuckyTemplates.

Osvedčené postupy toku jazyka Power Query

Osvedčené postupy toku jazyka Power Query

V tomto návode sa bude diskutovať o toku jazyka Power Query a o tom, ako môže pomôcť vytvoriť hladkú a efektívnu zostavu údajov.

LuckyTemplates vlastní ikony | Vizualizační technika PBI

LuckyTemplates vlastní ikony | Vizualizační technika PBI

Budu diskutovat o jedné z mých oblíbených technik kolem vlastních ikon LuckyTemplates, která používá vlastní ikony dynamickým způsobem ve vizuálech LuckyTemplates.

Vytváření tabulek LuckyTemplates pomocí funkce UNION & ROW

Vytváření tabulek LuckyTemplates pomocí funkce UNION & ROW

V tomto blogu vám ukážu, jak můžete vytvořit tabulky LuckyTemplates pomocí vzorce, který kombinuje funkci UNION a funkci ROW.