Аналіз тексту за допомогою Python: як визначити частини мови

У цьому блозі ми покажемо вам, як використовувати Python для визначення частин мови в текстових даних у LuckyTemplates. Ми розглянемо кроки використання Python для аналізу тексту та надамо приклади та поради, які допоможуть вам почати роботу над власними проектами аналізу тексту. Ви можете переглянути повне відео цього підручника внизу цього блогу.

Зміст

Вихідні дані

У цьому підручнику ми будемо використовувати готову хмару слів, що містить тексти, які ми будемо оцінювати. Це показано в лівій частині зображення нижче. Праворуч у нас є фільтри для визначення різних частин мови, наприклад, прикметників або дієслів. 

Аналіз тексту за допомогою Python: як визначити частини мови

Ми можемо відфільтрувати слова, які є прислівниками, іменниками, різними типами іменників або дієслів, а також дієслівними основами. Це дуже корисно під час створення маркетингової кампанії та пошуку слів у відгуках клієнтів. 

Почнемо з відкриття нашого редактора. 

У наших вихідних даних у нас є стовпці для ідентифікаторів, віку, титулу та тексту відгуку. Ми зосередимося на стовпці «Текст рецензування» та розберемо його, щоб провести аналіз тексту. Існують також інші категорії, які можуть бути корисними для нашого аналізу.

Аналіз тексту за допомогою Python: як визначити частини мови

Аналіз тексту за допомогою Python

Давайте почнемо зі звичайних даних, які ми внесли. Перше, що ми зробимо, це відфільтруємо рядки, тому що у нас багато даних, і аналіз тексту вимагає часу. 

Щоб відфільтрувати наші дані, візьміть перші 50 рядків, щоб зробити аналіз тексту трохи швидшим. 

Аналіз тексту за допомогою Python: як визначити частини мови

Після фільтрації перейдіть до Transform and Run script. Ми закодуємо все тут, тому що коду небагато. 

Аналіз тексту за допомогою Python: як визначити частини мови

Імпорт пакетів

Давайте створимо два пакети для нашого аналізу тексту Python за допомогою нашого редактора. Ми «імпортуємо pandas як pd» , нашу бібліотеку обробки даних, яку буде збережено як змінну pd. А потім « з текстового блоку » , ми будемо « імпортувати TextBlob» з великою літерою між словами. 

Ми завжди можемо задокументувати те, що ми робимо, додавши рядок документа. Давайте напишемо #принесіть основні бібліотеки поверх наших пакунків.

Аналіз тексту за допомогою Python: як визначити частини мови

Перейменування змінної

У першому рядку нашого сценарію є цей рядок, наданий LuckyTemplates, який говорить, що # 'набір даних' містить вхідні дані для цього сценарію. Цей рядок говорить, що наші дані називаються набором даних. 

Отже, давайте змінимо це, оскільки написання «набору даних» займає надто багато часу. Введіть #change змінну набору даних і df = набір даних у наступному рядку.

Аналіз тексту за допомогою Python: як визначити частини мови

Тепер коротше написати нашу змінну. 

Виконання аналізу тексту

Давайте приступимо до аналізу тексту. Нагадуємо, що наші тексти рецензій знаходяться в колонці з окремими клітинками. Ця настройка не дуже корисна для нас, тому що ми хочемо, щоб усі тексти були разом, щоб ми могли виконати їх аналіз. 

Однак ми не хочемо, щоб їх об’єднували без пробілу, тому давайте почнемо наш код із пробілу в подвійних лапках .  

Тоді давайте додамо .join і ізолюємо наш текстовий стовпець огляду за допомогою нашої змінної df , яка містить набір даних. Введіть «Текст рецензування» , поміщений у квадратні дужки, що ізолює стовпець. 

Цей код об’єднає все, але нам потрібно його зберегти, тому давайте створимо змінну під назвою words.

Аналіз тексту за допомогою Python: як визначити частини мови

Коли ми зібрали всі слова разом, ми можемо використовувати наш текстовий блок, щоб почати аналізувати слова. 

Перше, що потрібно зробити, це створити наші частини мови за допомогою змінної blob , яка нам потрібна для передачі слів у текстовий blob. Ми збираємося використати цей текстовий блок і передати текст, який є нашими словами . Це вводиться як blob = TextBlob(слова).

Тепер, коли ми маємо цю краплю, ми візьмемо її та створимо нашу змінну parts_of_speech за допомогою blob.tags . Теги будуть абревіатурами для кожної з частин мови. 

Далі ми збираємося зберегти це як фрейм даних за допомогою Pandas , які ми ввели. Давайте назвемо це нашими даними , які дорівнюють pd.DataFrame , і ми внесемо наші parts_of_speech

Аналіз тексту за допомогою Python: як визначити частини мови

Давайте клацнемо OK , щоб запустити наш код. Після виконання нашого коду ми повинні отримати таблицю наших змінних. У нас є набір даних або наші вихідні дані. У нас також є наші дані та df

Аналіз тексту за допомогою Python: як визначити частини мови

Якщо ви не отримали очікуваних результатів, ми покажемо вам різні способи уникнути деяких помилок, які ви можете отримати в коді.

Виправлення коду для аналізу тексту в Python

Іноді нам може знадобитися дуже чітко змінити формат тексту, який нас цікавить. 

Ми можемо зробити це, викликавши нашу змінну df , виділяючи «Текст огляду » в дужках, а потім змінивши тип на рядки за допомогою .astype('str') . Потім просто повторно збережіть це в змінній df

Аналіз тексту за допомогою Python: як визначити частини мови

Натисніть OK , щоб повторно запустити код. Ми повинні отримати ті ж результати, що й раніше.

Тепер ми хочемо відкрити наші дані , останню змінну, яку ми ввели, щоб побачити, як це виглядає. 

Аналіз тексту за допомогою Python: як визначити частини мови

Треба розбити всі слова на частини мови. Ми ще не дали назв нашим колонкам, але ми можемо легко це зробити. 

Аналіз тексту за допомогою Python: як визначити частини мови

У старій версії цього самого аналізу тексту я назвав перший стовпець Word , а другий – Abbreviation

Аналіз тексту за допомогою Python: як визначити частини мови

У запиті «Частини мови» ми вводимо фактичні слова, які позначають ці абревіатури, і з’єднуємо їх разом.

Аналіз тексту за допомогою Python: як визначити частини мови

Тепер давайте закриємо та застосуємо

Аналіз тексту за допомогою Python: як визначити частини мови

Кроки, які ми зробили, дозволили нам фільтрувати різні частини мови, які ми визначили за допомогою простого коду. Це дає нам цей візуал у LuckyTemplates, де ми можемо легко фільтрувати наш текст на основі категорії частин мови, до якої він відноситься. 

Аналіз тексту за допомогою Python: як визначити частини мови




Висновок

Ви, як , можете зіткнутися з потребою витягти ідеї та значення з великої кількості неструктурованих текстових даних. Те, що ви дізналися, є корисним підходом до розуміння текстових даних через аналіз тексту.

Тепер ви можете легко розбити текст на менші одиниці, наприклад слова та речення, а потім проаналізувати ці одиниці на предмет шаблонів і зв’язків. Ви можете досягти всіх цих цілей, використовуючи аналіз тексту в Python і LuckyTemplates. 

Все найкраще,


Як використовувати запит природною мовою (Q&A) у LuckyTemplates

Як використовувати запит природною мовою (Q&A) у LuckyTemplates

У цьому підручнику я покажу вам, що можна робити за допомогою запиту природної мови або функції запитань і відповідей на робочому столі в онлайн-службі LuckyTemplates.

Динамічно сортуйте візуалізації у звітах LuckyTemplates

Динамічно сортуйте візуалізації у звітах LuckyTemplates

Дізнайтеся, як динамічно сортувати візуалізації у звітах LuckyTemplates. Отримуйте якісну статистику, творчо підходячи до представлення даних.

Поле пошуку PowerApps: як додати та налаштувати

Поле пошуку PowerApps: як додати та налаштувати

Дізнайтеся, як створити поле пошуку PowerApps з нуля та налаштувати його відповідно до загальної теми вашої програми.

Приклад SELECTEDVALUE DAX – вибір розділювача врожаю

Приклад SELECTEDVALUE DAX – вибір розділювача врожаю

Збирайте або фіксуйте значення в мірі для повторного використання в іншій мірі для динамічних обчислень за допомогою SELECTEDVALUE DAX у LuckyTemplates.

Історія версій у списках SharePoint

Історія версій у списках SharePoint

Дізнайтеся, як історія версій у SharePoint може допомогти вам побачити еволюцію певних даних і скільки змін вони зазнали.

Вибір шістнадцяткових кодів кольорів для звітів LuckyTemplates

Вибір шістнадцяткових кодів кольорів для звітів LuckyTemplates

Ось інструмент для створення звітів і візуальних матеріалів, засіб вибору шістнадцяткових кодів кольорів, за допомогою якого можна легко отримати кольори для звітів LuckyTemplates.

Динамічний роздільник дат у LuckyTemplates із використанням таблиці Менделєєва

Динамічний роздільник дат у LuckyTemplates із використанням таблиці Менделєєва

Ви можете легко відобразити діапазон дат як роздільник у своєму звіті за допомогою таблиці періодів. Використовуйте M-код, щоб створити динамічний роздільник дат у LuckyTemplates.

Таблиці пропорцій і частот в Excel

Таблиці пропорцій і частот в Excel

Збирався зануритися в частотні таблиці в Excel, а також у таблиці пропорцій. Добре подивіться, що це таке і коли їх використовувати.

Як інсталювати DAX Studio та табличний редактор у LuckyTemplates

Як інсталювати DAX Studio та табличний редактор у LuckyTemplates

Дізнайтеся, як завантажити та інсталювати DAX Studio та Tabular Editor 3 і як налаштувати їх для використання в LuckyTemplates і Excel.

Візуалізація карти форми LuckyTemplates для просторового аналізу

Візуалізація карти форми LuckyTemplates для просторового аналізу

Цей блог містить візуалізацію Shape Map для просторового аналізу в LuckyTemplates. Я покажу вам, як ви можете ефективно використовувати цю візуалізацію з її функціями та елементами.