Додавання, видалення та перейменування стовпців у R за допомогою Dplyr

dplyr — це популярний пакет R для маніпулювання даними, що полегшує користувачам роботу з кадрами даних. Поширеним завданням під час роботи з даними є перейменування стовпців, яке dplyr ефективно справляється за допомогою функції rename().

Функція rename() у dplyr особливо корисна при роботі з наборами даних, які мають стовпці з незрозумілими або неоднозначними назвами. Забезпечуючи простий та інтуїтивно зрозумілий синтаксис для перейменування стовпців, dplyr полегшує користувачам розуміння та підтримку свого коду.

Крім того, цю функцію можна легко поєднати з іншими операціями dplyr, такими як фільтрація та підсумовування, щоб створити безперебійний робочий процес обробки даних у R.

Ці функції також доступні в , тому вони не є унікальними для програми R. Однак R краще справляється з ними.

У наступній статті ми детально розглянемо функцію dplyr rename() та її різні програми, показуючи, наскільки ефективною вона може бути в управлінні кадрами даних.

Ми також навчимося додавати та видаляти стовпці в R за допомогою dyplr.

Вивчивши ці методи, користувачі можуть підвищити практичність своїх зусиль з маніпулювання даними, проводити більш надійний і безпомилковий аналіз і весело провести час!

Давайте займемося наукою про дані, настав час поговорити, або, краще сказати, запровадити базовий R!

Зміст

Розуміння Dplyr Rename

Пакет dplyr у R — це популярний пакет tidyverse для обробки даних, який пропонує набір корисних функцій для перетворення та організації наборів даних. Серед цих функцій функція rename() особливо зручна, коли йдеться про зміну назв стовпців у фреймі даних.

Щоб скористатися функцією rename(), просто введіть нову назву стовпця, а потім стару, наприклад: new_name = old_name. Наприклад, давайте розглянемо зразок фрейму даних, де ми хочемо змінити назву стовпця «old1» на «new1». Синтаксис виглядатиме так:

library(dplyr)
df %>% rename(new1 = old1)

Крім того, функція rename_with() дозволяє перейменовувати стовпці за допомогою вказаної функції перетворення. Наприклад, ви можете використовувати функцію toupper, щоб перетворити всі назви стовпців у верхній регістр:

df %>% rename_with(toupper)

Якщо вам потрібно перейменувати кілька стовпців одночасно, dplyr пропонує два методи. Перший включає в себе використання функції rename(), надаючи кілька нових і старих імен стовпців як аргументи:

df %>% rename(new1 = old1, new2 = old2)

Другий метод передбачає використання функції rename_with(), де ви визначаєте масиви старих і нових імен стовпців:

new <- c('new1',="" 'new2')="" old=""><- c('old1',="" 'old2')="" df="" %="">% rename_with(~ new, all_of(old))

Обидва методи, як показано в наведених вище прикладах, дадуть однаковий результат.

Встановлення та завантаження Dplyr

Щоб почати використовувати пакет dplyr для перейменування стовпців, ви повинні спочатку встановити та завантажити пакет у своєму середовищі R. Встановлення dplyr є простим процесом, який можна виконати за допомогою такої команди:

install.packages("dplyr")

Після завершення встановлення ви можете завантажити пакет dplyr у свій сценарій R за допомогою функції бібліотеки:

library("dplyr")

Установивши та завантаживши пакет dplyr, тепер ви можете використовувати його потужні функції обробки даних, включаючи функцію rename() для перейменування стовпців у вашому кадрі даних.

Ось приклад використання функції rename() із добре відомим набором даних райдужної оболонки ока. Припустімо, ви хочете перейменувати стовпець «Sepal.Length» на «sepal_length». Ви можете досягти цього за допомогою наступного коду:

iris_renamed <- iris="" %="">%
  rename(sepal_length = Sepal.Length)

У цьому фрагменті коду оператор %>% використовується для передачі набору даних райдужної оболонки у функцію rename(). Нова назва стовпця «sepal_length» призначається старій назві стовпця «Sepal.Length». Отриманий кадр даних із перейменованим стовпцем потім призначається іменам змінних iris_renamed.

Функція rename() також може обробляти перейменування кількох стовпців одночасно. Наприклад, якщо ви хочете перейменувати стовпці «Sepal.Length» і «Sepal.Width» на «sepal_length» і «sepal_width» відповідно, ви можете використати такий код:

iris_renamed <- iris="" %="">%
  rename(
    sepal_length = Sepal.Length,
    sepal_width = Sepal.Width
  )

Цей фрагмент коду демонструє, як легко можна перейменувати декілька стовпців у кадрі даних за допомогою функції dplyr rename().

Використання функції перейменування Dplyr

Пакет dplyr у R є потужним інструментом для маніпулювання даними під час роботи з кадрами даних. Однією з багатьох корисних функцій, які він надає, є функція перейменування, яка дозволяє легко перейменовувати стовпці у вашому кадрі даних.

Базовий синтаксис

Основний синтаксис для використання функції перейменування в dplyr такий:


library(dplyr)
your_dataframe %>% rename(new_column_name = old_column_name)

Ця команда перейменує вказаний старий стовпець на бажану нову назву стовпця, не змінюючи жодних інших стовпців у фреймі даних.

Перейменування кількох стовпців

Ви також можете перейменувати декілька стовпців одночасно за допомогою тієї самої функції перейменування. Для цього просто розділіть кожен стовпець, перейменувавши пару комою:


your_dataframe %>%
   rename(new_column1 = old_column1,
          new_column2 = old_column2,
          new_column3 = old_column3)

Використовуючи цей підхід, ви можете перейменувати скільки завгодно стовпців в одному операторі.

Крім того, ви можете використовувати rename_with()функцію для застосування трансформації до назв стовпців. Ця функція приймає фрейм даних і функцію, яка буде застосована до імен стовпців для створення нових імен. Наприклад:


your_dataframe %>%
  rename_with(.cols = c("old_column1", "old_column2"), .fn = toupper)

Це призведе до перетворення вказаних імен стовпців у верхній регістр.

З’єднання з іншими функціями Dplyr

Однією з сильних сторін dplyr є його здатність об’єднувати кілька дій разом за допомогою %>%оператора. Це дозволяє виконувати серію маніпуляцій з даними в стислій і легкій для читання формі. Використовуючи функцію перейменування, ви можете зв’язати її з іншими функціями dplyr, такими як filter(), mutate()та summarize():


your_dataframe %>%
  filter(some_condition) %>%
  rename(new_column_name = old_column_name) %>%
  mutate(new_column = some_expression) %>%
  summarize(some_aggregation)

Цей приклад демонструє низку маніпуляцій з даними, де спочатку виконується фільтрація даних, потім перейменовується стовпець, створюється новий стовпець за допомогою mutate і, нарешті, підсумовуються дані за допомогою функції агрегування.

Використовуючи потужність функції перейменування dplyr і можливості ланцюжка, користувачі R можуть виконувати ефективні та читабельні маніпуляції з даними на своїх кадрах даних.

Типові випадки використання Dplyr Rename

Dplyr — це потужний пакет на R, який надає набір функцій для виконання завдань маніпулювання даними. Одним із поширених завдань є перейменування стовпців у фреймі даних. У цьому розділі ми обговоримо деякі типові випадки використання функції перейменування в dplyr.

1. Просте перейменування стовпців:

За допомогою цієї функції можна легко перейменувати один стовпець rename(). Синтаксис такий rename(dataframe, new_name = old_name). Ось приклад:

library(dplyr)
dataframe <- dataframe="" %="">% rename(new_column_name = old_column_name)

2. Перейменування кількох стовпців:

Ви також можете перейменувати кілька стовпців під час одного виклику функції, забезпечивши додаткове відображення стовпців усередині rename()функції. Ось приклад:

dataframe <- dataframe="" %="">%
  rename(new_col_name1 = old_col_name1,
         new_col_name2 = old_col_name2)

3. Перейменування стовпців за допомогою рядкових функцій:

Ви можете перейменувати стовпці за допомогою рядкових функцій, наприклад tolower()або toupper(), за допомогою rename_with()функції. Відповідно до Stack Overflow ця функція замінює тепер замінені функції rename_ifі . Ось приклад:rename_atrename_all

dataframe <- dataframe="" %="">%
  rename_with(tolower)  # Converts column names to lowercase

4. Перейменування стовпців на основі умови:

За допомогою rename_with()ви можете застосовувати власні функції перейменування та навіть використовувати умови. У наступному прикладі показано перейменування стовпців залежно від того, чи містять вони певний рядок:

rename_function <- function(x)="" {="" if="" (grepl("length",="" x))="" {="" return(paste0(x,="" "_length"))="" }="" else="" {="" return(paste0(x,="" "_default"))="" }="" }="" dataframe=""><- dataframe="" %="">% rename_with(rename_function)

Обробка помилок і крайових випадків

Під час використання функції перейменування dplyr для зміни імен стовпців у кадрі даних ви можете зіткнутися з деякими помилками або граничними випадками через повторювані імена стовпців, пробіли в назвах стовпців або неправильний синтаксис. Цей розділ містить вказівки щодо вирішення цих проблем.

Маючи справу з повторюваними назвами стовпців, dplyr не може перейменувати стовпці з однаковою назвою виводу. Однак обхідним шляхом для відновлення імен стовпців є використання rename_allфункції з пакета dplyr разом із paste0:

d %>% rename_all(~paste0(., 1:2))

Цей код додасть число від 1 до 2 до назви кожного стовпця, гарантуючи відсутність дублікатів. Додаткову інформацію можна знайти в цьому обговоренні Stack Overflow .

Якщо в іменах стовпців є пробіли, ви можете використати зворотні галочки, щоб укласти назви стовпців таким чином:

df %>% rename(foo = `test col`)

Нарешті, якщо ви зіткнулися з проблемами, пов’язаними з тим, що dplyr не приймає функцію paste0()як old_name у rename(), можливим рішенням є створення нових імен стовпців поза функцією rename(), а потім використання їх як вхідних даних. Відповідне обговорення подібної проблеми можна знайти в цьому питанні Stack Overflow .

Усунувши ці помилки та граничні випадки, ви зможете краще працювати зі складними сценаріями перейменування в dplyr.

У цьому останньому розділі нашої статті про перейменування dplyr ми обговорили його важливість у задачах маніпулювання даними. Функція rename() дозволяє користувачам ефективно змінювати назви стовпців, створюючи чіткіші та лаконічніші кадри даних. Це стає особливо корисним під час роботи з великими наборами даних або під час етапів попередньої обробки даних.

Використовуючи пакет dplyr, перейменування стовпців у R є простим, це не важка наука про дані, перегляньте нижче:

  rename(new_column_name = old_column_name)

Цей простий синтаксис дозволяє замінювати старі назви стовпців новими, покращуючи читабельність і забезпечуючи послідовність даних. Крім того, функція rename_with() може бути використана для зміни імен стовпців за допомогою певної функції. Це забезпечує більший контроль і налаштування ваших маніпуляцій даними.

Використовуючи потужність dplyr і функцію перейменування, ви можете впевнено маніпулювати своїми даними та покращити загальні можливості обробки даних. Не забувайте завжди використовувати надійні джерела під час вивчення нових методів програмування R, наприклад

Завдяки dplyr rename у вашому наборі інструментів ви добре споряджені для вирішення різноманітних проблем маніпулювання даними та продовжуєте вдосконалювати свій досвід програмування на R.

Подальші приклади з реального світу - додавання, видалення та перейменування стовпців

Операції зі стовпцями дозволяють обчислювати, додавати, видаляти та перейменовувати стовпці в R за допомогою dplyr . Відкрийте новий сценарій R у RStudio. Якщо ви не знаєте як, клацніть посилання, щоб дізнатися, як і .

Для цієї демонстрації використовується пакет набору даних Lahman . Тут містяться бейсбольні рекорди за понад сто років тому. Це хороший набір даних для практики. Ви можете завантажити його, виконавши швидкий пошук у Google.

Крім того, у пакеті Lahman є набір даних, позначений як Teams з великою літерою T. Найкращий спосіб іменування в R – використання малих літер. Отже, це потрібно спочатку перетворити на teams , як показано на зображенні нижче.

Додавання, видалення та перейменування стовпців у R за допомогою Dplyr

Основні функції для операцій зі стовпцями

1. Додайте нові стовпці в R

Перша функція — mutate () . Це створює новий стовпець на основі наявних стовпців.

Якщо ви хочете обчислити новий стовпець, ви можете скористатися функцією mutate після аргументу:

df є замінною назвою для будь-якого типу кадру даних. Тож під час фактичного використання замініть df на ім’я кадру даних, який потрібно змінити. Потім ви розміщуєте нові змінні, які потрібно назвати разом із формулою для отримання нового стовпця.

Як приклад, функція mutate буде використана для визначення відсотка виграшу для кожного стовпця. У наборі даних Lahman є стовпець «Виграш» і «Програш». Щоб отримати відсоток, розділіть виграш на суму виграшу та програшу. Але перш ніж ви зможете це зробити, вам потрібно принести пакет dplyr.

Ось що станеться, якщо запустити функцію mutate без dplyr:

Ви отримаєте повідомлення про помилку «не вдалося знайти зміну функції».

Отже, ось як ввести dplyr у R. Вам потрібно лише запустити бібліотеку (tidyverse) .

Ви побачите, що dplyr є однією з багатьох функцій у пакеті tidyverse . Іншим варіантом є запуск бібліотеки (dplyr) .

Тепер, якщо ви наведете курсор на код із функцією mutate і запустите його, ви побачите стовпець Wpct із відсотками виграшу.

Додавання, видалення та перейменування стовпців у R за допомогою Dplyr

У цьому випадку результат функції mutate був лише запущений; він не присвоїв даним.

Якщо ви хочете призначити результат функції mutate групам даних , вам потрібно використовувати оператор присвоєння ( <-> ). Після завершення запустіть його. Потім в іншому рядку запустіть голову (команди) . Це призначить результат набору даних команд .

Додавання, видалення та перейменування стовпців у R за допомогою Dplyr

Якщо ви хочете перевірити, які стовпці доступні в наборі даних, скористайтеся функцією імен ( ) . Це призведе до списку всіх імен стовпців у даних.

Додавання, видалення та перейменування стовпців у R за допомогою Dplyr

Ви також можете використовувати існуючі функції як частину функції mutate . Наприклад, ви можете взяти журнал певного набору даних за допомогою функції журналу ( ) .

Додавання, видалення та перейменування стовпців у R за допомогою Dplyr

2. Виберіть стовпці в R

Іншою функцією в dplyr є select () . Він або скидає, або вибирає задані стовпці. Його основний алгоритм такий:

Додавання, видалення та перейменування стовпців у R за допомогою Dplyr

Вам потрібно ввести назву кадру даних, а потім стовпці, які ви хочете вибрати.

Наприклад, якщо ви хочете зберегти стовпці yearID, перемог і поразок у наборі даних, вам потрібно лише виконати:

Додавання, видалення та перейменування стовпців у R за допомогою Dplyr

Тоді ви отримаєте бажаний результат:

Додавання, видалення та перейменування стовпців у R за допомогою Dplyr

Однак, якщо ви не використовуєте функцію голови ( ) , результат відображатиме нижні рядки стовпців. Отже, якщо ви маєте справу з кількома рядками даних, вам потрібно постійно прокручувати вгору, щоб дістатися до верхньої частини стовпця.

Найкраще використовувати функцію голови разом із функцією вибору. Таким чином, коли ви запускаєте код, у результаті спочатку відображатимуться верхні рядки стовпця.

Додавання, видалення та перейменування стовпців у R за допомогою Dplyr

Тепер, якщо ви хочете видалити стовпці з набору даних, вам потрібно лише поставити знак мінус ( ) перед назвою стовпця.

Додавання, видалення та перейменування стовпців у R за допомогою Dplyr

Щоб перевірити, чи справді стовпець видалено, ви можете порівняти новий набір даних із старим. Ось як це зробити:

Спочатку призначте об’єкту код R із функцією select . У цьому прикладі його було призначено teams_short . Щоб підрахувати кількість стовпців, використовуйте функцію ncol () . Запустіть функцію ncol для teams_short і teams .

Додавання, видалення та перейменування стовпців у R за допомогою Dplyr

Потім ви побачите, що один стовпець було видалено з набору даних.

Додавання, видалення та перейменування стовпців у R за допомогою Dplyr

3. Перейменуйте стовпці в R

Останньою функцією стовпця в dplyr є rename () . І, як випливає з назви, він може перейменовувати вибрані стовпці в R.

Ось його основний алгоритм:

Додавання, видалення та перейменування стовпців у R за допомогою Dplyr

І ви помітите, що це трохи суперечить інтуїції; нова назва йде першою, а стара – після неї. Тому не переплутайте їх.

Як приклад, поточні стовпці yearID і divID буде перейменовано на year_id і division_id відповідно. Перед запуском коду обов’язково призначте це новому об’єкту, щоб не порушити вихідний набір даних.

Додавання, видалення та перейменування стовпців у R за допомогою Dplyr

Щоб перевірити, чи успішно змінено назви вибраних стовпців, скористайтеся функцією імен ( ) .

Додавання, видалення та перейменування стовпців у R за допомогою Dplyr

Ви побачите, що стовпці справді перейменовано.

Додавання, видалення та перейменування стовпців у R за допомогою Dplyr

Ви коли-небудь замислювалися, наскільки потужним є R при використанні з LuckyTemplates, ознайомтеся з цією чудовою технікою, вона заощадить вам купу часу.

Заключне слово

У цьому посібнику розглянуто три основні функції dplyr , які можна використовувати для виконання операцій зі стовпцями. Зокрема, ви дізналися, як додавати, видаляти та перейменовувати стовпці в R.

Є ще інші функції, які вам ще належить вивчити. Але важливо знати та бути знайомими з mutate ( ) , select ( ) і rename ( ) , оскільки вони є найпоширенішими.

Ці методи редагування стовпців також можна виконати в Power Query. Але добре знати, як це зробити в dplyr. Це, безумовно, допоможе вам, коли ви переходите до аналізу наборів статистичних даних.

поширені запитання

Яка різниця між R і Python?

По-перше, і R, і Python є мовами програмування, але python є більш загальною мовою, а R є статистичною мовою програмування. Python є більш поширеною, зрозумілою та універсальною мовою.

Що таке str?

str просто відображає структури r об'єктів

Що таке Petal.Length у R?

Petal.length — це формат, який використовується в R для перерахунку зв’язків, які ми тестуємо.

Що таке DataFrame у R?

Кадр даних R — це таблична структура даних, яка зазвичай використовується для зберігання значень будь-якого типу даних.

Що означає dbl?

Dbl означає «подвійний клас». Це тип даних, який використовується для зберігання числових значень, що містять десяткові крапки.


Фінансова інформаційна панель LuckyTemplates: повні поради щодо налаштування таблиці

Фінансова інформаційна панель LuckyTemplates: повні поради щодо налаштування таблиці

LuckyTemplates — чудовий інструмент для фінансової звітності. Ось підручник про те, як створювати персоналізовані таблиці для вашої фінансової інформаційної панелі LuckyTemplates.

Рекомендації щодо потоку мови Power Query

Рекомендації щодо потоку мови Power Query

У цьому підручнику обговорюватиметься технологія Power Query Language Flow і те, як вона може допомогти створити гладкий і ефективний звіт із даними.

Спеціальні значки LuckyTemplates | Техніка візуалізації PBI

Спеціальні значки LuckyTemplates | Техніка візуалізації PBI

Я обговорю одну з моїх улюблених технік, пов’язаних із користувальницькими піктограмами LuckyTemplates, яка динамічно використовує власні піктограми у візуальних елементах LuckyTemplates.

Створення таблиць LuckyTemplates за допомогою функції UNION & ROW

Створення таблиць LuckyTemplates за допомогою функції UNION & ROW

У цьому блозі я покажу вам, як можна створювати таблиці LuckyTemplates за допомогою формули, яка поєднує функції UNION і ROW.

Локальний шлюз даних у Power Automate

Локальний шлюз даних у Power Automate

Дізнайтеся, як локальний шлюз даних дозволяє Power Automate отримувати доступ до настільних програм, коли користувач знаходиться поза комп’ютером.

Відкрийте для себе унікальні ідеї за допомогою функції TOPN LuckyTemplates

Відкрийте для себе унікальні ідеї за допомогою функції TOPN LuckyTemplates

У цьому блозі представлено функцію LuckyTemplates TOPN DAX, яка дає вам змогу отримувати унікальну статистику з ваших даних, допомагаючи вам приймати кращі маркетингові рішення.

Моделювання даних у LuckyTemplates за допомогою допоміжних таблиць

Моделювання даних у LuckyTemplates за допомогою допоміжних таблиць

Дізнайтеся про деякі фантастичні аналітичні прийоми, які ми можемо використовувати для моделювання даних у LuckyTemplates за допомогою таблиць підтримки DAX.

Розширений DAX для LuckyTemplates: впровадження логіки ранжування в унікальній статистиці

Розширений DAX для LuckyTemplates: впровадження логіки ранжування в унікальній статистиці

Тут ми зануримося в LuckyTemplates Advanced DAX і запровадимо логіку ранжирування, щоб отримати дуже унікальну інформацію. У цьому прикладі я також демонструю розгалуження міри.

Функція параметра LuckyTemplates «Що, якщо».

Функція параметра LuckyTemplates «Що, якщо».

У цьому блозі представлено нову функцію в LuckyTemplates — параметр аналізу «Що, якщо». Ви побачите, як це робить усе швидким і легким для аналізу сценарію.

Використовуйте розгалуження міри LuckyTemplates, щоб перевірити, чи зростає ваша маржа зі зростанням доходу

Використовуйте розгалуження міри LuckyTemplates, щоб перевірити, чи зростає ваша маржа зі зростанням доходу

Дізнайтеся, як визначити, чи добре зростає ваш дохід, перевіривши, чи зросла ваша маржа за допомогою розгалуження міри LuckyTemplates.