Аналіз тексту в Python | Вступ

У цьому блозі ми збираємося обговорити аналіз тексту в Python для створення сконструйованих даних із текстового вмісту. Це допоможе вам аналізувати великі обсяги даних і витрачати менше часу на роботу над певними завданнями. Ви також отримаєте знання про textblob , які стосуються завдань обробки природної мови.

Аналіз тексту – це процес аналізу текстів за допомогою кодів для автоматизованих процесів створення та групування текстових даних.

Перш ніж ми продовжимо, можливо, вам доведеться встановити бібліотеку, яку ми будемо використовувати в цьому посібнику.

Зміст

Реалізація аналізу тексту в Python

Почнемо з імпорту textblob . Не забувайте документувати те, що ви робите, використовуючи коментарі.

Аналіз тексту в Python |  Вступ

Запустивши код вище, ми тепер маємо доступ до бібліотеки текстових блоків . Наступним кроком, який ми збираємося зробити, є створення речення, яке ми будемо використовувати для наших прикладів. Ми збираємося зробити це, зберігаючи речення в змінній під назвою sentence .

Не забудьте взяти речення, яке ви хочете додати, у подвійні лапки.

Аналіз тексту в Python |  Вступ

Textblob — це чудова бібліотека, де ми можемо створити blob і використовувати деякі його функції для аналізу тексту в .

Аналіз тексту в Python |  Вступ

Створюючи blob, ми починаємо зі створення змінної та називаємо її blob . До цієї змінної нам потрібно додати TextBlob , який є бібліотекою, яку ми використовуємо.

У дужках ми використаємо змінну речення , яка містить речення, яке ми створили раніше. Зверніть увагу, що ви можете вручну ввести саме речення в дужках для цієї частини.

Щоб перевірити, що робить ця змінна blob , ви можете просто ініціалізувати її, ввівши назву змінної та натиснувши клавіші Shift + Enter. Результат має бути подібним до прикладу нижче.

Аналіз тексту в Python |  Вступ

Як ви можете бачити з результату, речення, яке ми зберегли в змінній пропозиції , тепер міститься в TextBlob .

Токенізація текстових даних у Python

Якщо ви хочете видалити деякі слова в реченні, ми можемо розділити кожне з цих слів на окремі частини в списку. З цим поданим реченням ми збираємося зробити їх лексифікованими або відокремити кожне слово та додати його до списку.

Для цього ми використаємо змінну blob і функцію tokenize . Потім ми збережемо його в змінній з назвою words .

Аналіз тексту в Python |  Вступ

Давайте ініціалізуємо змінну words так само, як ми робили під час ініціалізації змінної blob , щоб побачити, що міститься в списку маркерів .

Аналіз тексту в Python |  Вступ

Як бачите, кожне слово і навіть знаки пунктуації тепер розділені у списку. Ось як працює функція tokenize .

Тепер, коли у нас є список слів, ми можемо виконувати іншу функцію з нього. Давайте створимо ще один список слів, які ми не хочемо включати в наш список, як-от знаки пунктуації та артиклі. Щоб виконати цей крок, перегляньте знімок екрана н��жче.

Аналіз тексту в Python |  Вступ

Під час створення списку стоп-слів ми використовували дужки, щоб укласти список стоп-слів. Потім кожне стоп-слово береться в одинарні лапки та відокремлюється комою. Ми зберегли список у змінній stop_words .

Звідси ми виконаємо розуміння списку , щоб видалити слова, необхідні для аналізу тексту мовою . Це включає очищення речень, токенізацію та порівняння різних списків. Зараз ми порівняємо ці два списки та створимо новий список clean_tokens .

Аналіз тексту в Python |  Вступ

У наведеному вище коді ми використали заповнювач w для представлення елемента . Те, що ми намагаємося зробити в цій частині, це отримати елемент у змінній words, якщо елемент не існує в змінній stop_words . Якщо ми збираємося ініціалізувати clean_tokens , це буде результат.

Аналіз тексту в Python |  Вступ

У цьому процесі ми можемо очистити наші маркери , запустивши процес видалення непотрібних маркерів, таких як знаки пунктуації та артиклі. Через це в нашому списку залишилися лише основні слова.

Об’єднання токенів для створення речення в Python

Тепер, коли ми відокремили чисті лексеми , давайте спробуємо помістити їх у одне речення. Для цього ми повинні використовувати функцію .join . Перегляньте приклад нижче для довідки.

Аналіз тексту в Python |  Вступ

У наведеному вище прикладі ми створили змінну під назвою clean_sentence для зберігання чистих токенів, які буде об’єднано в речення. Ви також можете помітити, що ми додали пробіл у подвійних лапках і функцію .join . Всередині параметрів ми включили змінну clean_tokens .

Це буде результат, якщо ми ініціалізуємо змінну clean_sentence .

Аналіз тексту в Python |  Вступ

Помітно, що речення виглядає неправильно, тому що ми видалили артиклі та розділові знаки раніше.

Після створення clean_sentence давайте спробуємо створити новий текстовий блок , який містить clean_sentence , який ми щойно створили. Потім ми збережемо його в новій змінній clean_blob .

Аналіз тексту в Python |  Вступ

Розбирання текстового блоку для частин мови за допомогою функції .tags

З цієї краплі аналізу ми можемо використовувати частини цієї краплі, щоб перевірити наявність частин мови або внести ще більше змін. Давайте спробуємо перевірити частини мови кожного слова в нашому новому текстовому блоку .

Аналіз тексту в Python |  Вступ

Щоб перевірити частини мови в текстовому блоку, вам слід скористатися функцією .tags . Я зробив це, використовуючи нашу змінну clean_blob , а потім одразу додав функцію .tags .

Якщо під час ініціалізації функції .tags ви отримаєте повідомлення про помилку , просто прочитайте та виконайте кроки, щоб виправити помилку. В даному випадку це виглядає так.

Аналіз тексту в Python |  Вступ

Якщо прокрутити вниз до кінця цього повідомлення про помилку, ви побачите необхідні дані, необхідні для функції, яку ви намагаєтеся використати.

Аналіз тексту в Python |  Вступ

Коли ми знайдемо код, який потрібно ініціалізувати, щоб завантажити необхідні дані, просто скопіюйте код і відкрийте його за допомогою пошуку Windows .

Аналіз тексту в Python |  Вступ

Використовуючи Anaconda Prompt , ми спробуємо виправити помилку, яку ми отримали під час ініціалізації функції .tags . Тепер ми вставимо код, який ми скопіювали з повідомлення про помилку раніше, і запустимо його, натиснувши Enter .

Аналіз тексту в Python |  Вступ

Після завершення спробуйте знову запустити функцію .tags і перевірте, чи вона працює.

Аналіз тексту в Python |  Вступ

Після повторного запуску коду ми бачимо, що помилку виправлено, і ми отримали результат, який містить кожне слово з нового текстового блоку разом із тегами чи частинами мови.

Якщо ви не знаєте, що означають ці теги , ви можете просто перейти на веб-сайт textblob , щоб перевірити, що представляють ці теги. 

Використання функції ngrams для аналізу тексту в Python

Давайте перейдемо до іншого прикладу, який стосується отримання ngrams . Функція ngrams використовується для пошуку слів, які часто зустрічаються разом у реченні чи документі. Як приклад, давайте почнемо зі створення нового текстового блоку та збережемо його в змінній blob3 .

Аналіз тексту в Python |  Вступ

Після цього скористаємося функцією ngrams у змінній blob3 , щоб перевірити деякі комбінації слів.

Аналіз тексту в Python |  Вступ

За замовчуванням, якщо ви не вказали значення в параметрах, відображатимуться триграми або комбінації з трьох слів. Але якщо ми хочемо бачити комбінації з двох слів у реченні, ми можемо встановити 2 у параметрах, як у прикладі нижче.

Аналіз тексту в Python |  Вступ

Спробуймо цього разу з довшим реченням. У цьому прикладі я просто скопіював довший текст із огляду фільму. Ви можете використовувати будь-яке речення для цієї частини.

Аналіз тексту в Python |  Вступ

Як останній приклад, давайте спробуємо використати ngrams ще раз із більш інформативним реченням.

Аналіз тексту в Python |  Вступ

З усіма цими прикладами ми можемо створити більше тексту на основі результатів, які ми отримуємо за допомогою функції ngrams .




Висновок

Підсумовуючи, ви дізналися про різні функції, які можна використовувати для аналізу тексту в Python.

Це функція .tokenize для розділення слів у реченні, функція .join для об’єднання токенізованих слів, функція .tags для перевірки частин мови слів і функція ngrams для перегляду сполучення слів.

Крім того, ви дізналися, як виправляти помилки, подібні до того, що ми робили у функції .tags за допомогою Anaconda Prompt . Ви також навчилися імпортувати, створювати текстовий блок і використовувати цю бібліотеку для аналізу тексту в .

Все найкраще,

Гаеллім


Труба в R: підключення функцій за допомогою Dplyr

Труба в R: підключення функцій за допомогою Dplyr

У цьому підручнику ви дізнаєтесь, як об’єднати функції разом за допомогою оператора каналу dplyr мовою програмування R.

RANKX Deep Dive: функція LuckyTemplates DAX

RANKX Deep Dive: функція LuckyTemplates DAX

RANKX від LuckyTemplates дозволяє повернути рейтинг певного числа в кожному рядку таблиці, який є частиною списку чисел.

Вилучення тем і зображень LuckyTemplates із PBIX

Вилучення тем і зображень LuckyTemplates із PBIX

Дізнайтеся, як розібрати файл PBIX, щоб витягти теми та зображення LuckyTemplates із фону та використовувати їх для створення звіту!

Шпаргалка формул Excel: Посібник середнього рівня

Шпаргалка формул Excel: Посібник середнього рівня

Шпаргалка формул Excel: Посібник середнього рівня

Календарна таблиця LuckyTemplates: що це таке та як ним користуватися

Календарна таблиця LuckyTemplates: що це таке та як ним користуватися

Календарна таблиця LuckyTemplates: що це таке та як ним користуватися

Python у LuckyTemplates: як встановити та налаштувати

Python у LuckyTemplates: як встановити та налаштувати

Дізнайтеся, як інсталювати мову програмування Python у LuckyTemplates і як використовувати її інструменти для написання кодів і відображення візуальних елементів.

Розрахунок динамічної норми прибутку – легкий аналіз LuckyTemplates за допомогою DAX

Розрахунок динамічної норми прибутку – легкий аналіз LuckyTemplates за допомогою DAX

Дізнайтеся, як обчислювати динамічну маржу прибутку за допомогою LuckyTemplates і як ви можете отримати більше інформації, глибше досліджуючи результати.

Сортування стовпців таблиці дат у LuckyTemplates

Сортування стовпців таблиці дат у LuckyTemplates

Дізнайтеся, як правильно сортувати поля зі стовпців розширеної таблиці дат. Це хороша стратегія для складних полів.

Знайдіть свої найкращі продукти для кожного регіону в LuckyTemplates за допомогою DAX

Знайдіть свої найкращі продукти для кожного регіону в LuckyTemplates за допомогою DAX

У цій статті я поясню, як знайти найпопулярніші продукти для регіону за допомогою обчислень DAX у LuckyTemplates, включаючи функції TOPN і CALCULATE.

Вимір сміття: що це таке і чому це щось інше, але не сміття

Вимір сміття: що це таке і чому це щось інше, але не сміття

Дізнайтеся, як використовувати вимірювання сміття для позначок низької потужності, які ви хочете ефективно включити у свою модель даних.