Аналіз тексту за допомогою Python: як визначити частини мови

У цьому блозі ми покажемо вам, як використовувати Python для визначення частин мови в текстових даних у LuckyTemplates. Ми розглянемо кроки використання Python для аналізу тексту та надамо приклади та поради, які допоможуть вам почати роботу над власними проектами аналізу тексту. Ви можете переглянути повне відео цього підручника внизу цього блогу.

Зміст

Вихідні дані
Аналіз тексту за допомогою Python
Виправлення коду для аналізу тексту в Python
Висновок

Вихідні дані

У цьому підручнику ми будемо використовувати готову хмару слів, що містить тексти, які ми будемо оцінювати. Це показано в лівій частині зображення нижче. Праворуч у нас є фільтри для визначення різних частин мови, наприклад, прикметників або дієслів.

Аналіз тексту за допомогою Python: як визначити частини мови

Ми можемо відфільтрувати слова, які є прислівниками, іменниками, різними типами іменників або дієслів, а також дієслівними основами. Це дуже корисно під час створення маркетингової кампанії та пошуку слів у відгуках клієнтів.

Почнемо з відкриття нашого редактора.

У наших вихідних даних у нас є стовпці для ідентифікаторів, віку, титулу та тексту відгуку. Ми зосередимося на стовпці «Текст рецензування» та розберемо його, щоб провести аналіз тексту. Існують також інші категорії, які можуть бути корисними для нашого аналізу.

Аналіз тексту за допомогою Python: як визначити частини мови

Аналіз тексту за допомогою Python

Давайте почнемо зі звичайних даних, які ми внесли. Перше, що ми зробимо, це відфільтруємо рядки, тому що у нас багато даних, і аналіз тексту вимагає часу.

Щоб відфільтрувати наші дані, візьміть перші 50 рядків, щоб зробити аналіз тексту трохи швидшим.

Аналіз тексту за допомогою Python: як визначити частини мови

Після фільтрації перейдіть до Transform and Run script. Ми закодуємо все тут, тому що коду небагато.

Аналіз тексту за допомогою Python: як визначити частини мови

Імпорт пакетів

Давайте створимо два пакети для нашого аналізу тексту Python за допомогою нашого редактора. Ми «імпортуємо pandas як pd» , нашу бібліотеку обробки даних, яку буде збережено як змінну pd. А потім « з текстового блоку » , ми будемо « імпортувати TextBlob» з великою літерою між словами.

Ми завжди можемо задокументувати те, що ми робимо, додавши рядок документа. Давайте напишемо #принесіть основні бібліотеки поверх наших пакунків.

Аналіз тексту за допомогою Python: як визначити частини мови

Перейменування змінної

У першому рядку нашого сценарію є цей рядок, наданий LuckyTemplates, який говорить, що # 'набір даних' містить вхідні дані для цього сценарію. Цей рядок говорить, що наші дані називаються набором даних.

Отже, давайте змінимо це, оскільки написання «набору даних» займає надто багато часу. Введіть #change змінну набору даних і df = набір даних у наступному рядку.

Аналіз тексту за допомогою Python: як визначити частини мови

Тепер коротше написати нашу змінну.

Виконання аналізу тексту

Давайте приступимо до аналізу тексту. Нагадуємо, що наші тексти рецензій знаходяться в колонці з окремими клітинками. Ця настройка не дуже корисна для нас, тому що ми хочемо, щоб усі тексти були разом, щоб ми могли виконати їх аналіз.

Однак ми не хочемо, щоб їх об’єднували без пробілу, тому давайте почнемо наш код із пробілу в подвійних лапках .

Тоді давайте додамо .join і ізолюємо наш текстовий стовпець огляду за допомогою нашої змінної df , яка містить набір даних. Введіть «Текст рецензування» , поміщений у квадратні дужки, що ізолює стовпець.

Цей код об’єднає все, але нам потрібно його зберегти, тому давайте створимо змінну під назвою words.

Аналіз тексту за допомогою Python: як визначити частини мови

Коли ми зібрали всі слова разом, ми можемо використовувати наш текстовий блок, щоб почати аналізувати слова.

Перше, що потрібно зробити, це створити наші частини мови за допомогою змінної blob , яка нам потрібна для передачі слів у текстовий blob. Ми збираємося використати цей текстовий блок і передати текст, який є нашими словами . Це вводиться як blob = TextBlob(слова).

Тепер, коли ми маємо цю краплю, ми візьмемо її та створимо нашу змінну parts_of_speech за допомогою blob.tags . Теги будуть абревіатурами для кожної з частин мови.

Далі ми збираємося зберегти це як фрейм даних за допомогою Pandas , які ми ввели. Давайте назвемо це нашими даними , які дорівнюють pd.DataFrame , і ми внесемо наші parts_of_speech .

Аналіз тексту за допомогою Python: як визначити частини мови

Давайте клацнемо OK , щоб запустити наш код. Після виконання нашого коду ми повинні отримати таблицю наших змінних. У нас є набір даних або наші вихідні дані. У нас також є наші дані та df .

Аналіз тексту за допомогою Python: як визначити частини мови

Якщо ви не отримали очікуваних результатів, ми покажемо вам різні способи уникнути деяких помилок, які ви можете отримати в коді.

Виправлення коду для аналізу тексту в Python

Іноді нам може знадобитися дуже чітко змінити формат тексту, який нас цікавить.

Ми можемо зробити це, викликавши нашу змінну df , виділяючи «Текст огляду » в дужках, а потім змінивши тип на рядки за допомогою .astype('str') . Потім просто повторно збережіть це в змінній df .

Аналіз тексту за допомогою Python: як визначити частини мови

Натисніть OK , щоб повторно запустити код. Ми повинні отримати ті ж результати, що й раніше.

Тепер ми хочемо відкрити наші дані , останню змінну, яку ми ввели, щоб побачити, як це виглядає.

Аналіз тексту за допомогою Python: як визначити частини мови

Треба розбити всі слова на частини мови. Ми ще не дали назв нашим колонкам, але ми можемо легко це зробити.

Аналіз тексту за допомогою Python: як визначити частини мови

У старій версії цього самого аналізу тексту я назвав перший стовпець Word , а другий – Abbreviation .

Аналіз тексту за допомогою Python: як визначити частини мови

У запиті «Частини мови» ми вводимо фактичні слова, які позначають ці абревіатури, і з’єднуємо їх разом.

Аналіз тексту за допомогою Python: як визначити частини мови

Тепер давайте закриємо та застосуємо .

Аналіз тексту за допомогою Python: як визначити частини мови

Кроки, які ми зробили, дозволили нам фільтрувати різні частини мови, які ми визначили за допомогою простого коду. Це дає нам цей візуал у LuckyTemplates, де ми можемо легко фільтрувати наш текст на основі категорії частин мови, до якої він відноситься.

Аналіз тексту за допомогою Python: як визначити частини мови

Висновок

Ви, як , можете зіткнутися з потребою витягти ідеї та значення з великої кількості неструктурованих текстових даних. Те, що ви дізналися, є корисним підходом до розуміння текстових даних через аналіз тексту.

Тепер ви можете легко розбити текст на менші одиниці, наприклад слова та речення, а потім проаналізувати ці одиниці на предмет шаблонів і зв’язків. Ви можете досягти всіх цих цілей, використовуючи аналіз тексту в Python і LuckyTemplates.

Все найкраще,

Змініть формати дати за допомогою редактора Power Query

У цьому посібнику ви дізнаєтеся, як перетворити текст у формат дати за допомогою редактора Power Query в LuckyTemplates.

Power Query: об’єднайте файли з кількох папок

Дізнайтеся, як об’єднати файли з кількох папок у мережі, робочому столі, OneDrive або SharePoint за допомогою Power Query.

Обчисліть місячне ковзне середнє з початку року (з початку року) у LuckyTemplates

Цей підручник пояснює, як обчислити місячне ковзне середнє на базі даних з початку року за допомогою функцій AVERAGEX, TOTALYTD та FILTER у LuckyTemplates.

Створення таблиці дат у LuckyTemplates

Дізнайтеся, чому важлива спеціальна таблиця дат у LuckyTemplates, і вивчіть найшвидший і найефективніший спосіб це зробити.

Мобільні звіти LuckyTemplates. Поради та методи

У цьому короткому посібнику розповідається про функцію мобільних звітів LuckyTemplates. Я збираюся показати вам, як ви можете ефективно створювати звіти для мобільних пристроїв.

Звіти про професійну аналітику послуг у LuckyTemplates

У цій презентації LuckyTemplates ми розглянемо звіти, що демонструють професійну аналітику послуг від фірми, яка має кілька контрактів і залучених клієнтів.

Оновлення Microsoft Power Platform | Microsoft Ignite 2021

Ознайомтеся з основними оновленнями для Power Apps і Power Automate, а також їх перевагами та наслідками для Microsoft Power Platform.

Загальні функції SQL: огляд

Відкрийте для себе деякі поширені функції SQL, які ми можемо використовувати, наприклад String, Date і деякі розширені функції для обробки та маніпулювання даними.

Створення шаблону LuckyTemplates: керівництво та поради

У цьому підручнику ви дізнаєтеся, як створити свій ідеальний шаблон LuckyTemplates, налаштований відповідно до ваших потреб і вподобань.

Параметри полів і малі кратні в LuckyTemplates

У цьому блозі ми продемонструємо, як шарувати параметри поля з малими кратними, щоб створити неймовірно корисну інформацію та візуальні ефекти.

Аналіз тексту за допомогою Python: як визначити частини мови

Leave a Comment

Змініть формати дати за допомогою редактора Power Query

Power Query: об’єднайте файли з кількох папок

Обчисліть місячне ковзне середнє з початку року (з початку року) у LuckyTemplates

Створення таблиці дат у LuckyTemplates

Мобільні звіти LuckyTemplates. Поради та методи

Звіти про професійну аналітику послуг у LuckyTemplates

Оновлення Microsoft Power Platform | Microsoft Ignite 2021

Загальні функції SQL: огляд

Створення шаблону LuckyTemplates: керівництво та поради

Параметри полів і малі кратні в LuckyTemplates