Hodnotenie a optimalizácia výkonu kódu v R

Optimalizácia R kódu môže výrazne zlepšiť výkon R skriptov a programov, vďaka čomu budú bežať efektívnejšie. Toto je obzvlášť dôležité pre veľké a zložité súbory údajov, ako aj pre aplikácie, ktoré je potrebné spúšťať v reálnom čase alebo pravidelne.

V tomto návode vyhodnotíme a optimalizujeme výkon R kódu pomocou rôznych , ako sú tidyverse a data.table. Ako príklad uvidíme, ako dlho trvá RStudio načítať veľký súbor CSV pomocou funkcie read.csv ( ) , balíka tidyverse a balíka data.table.

Obsah

Optimalizácia výkonu v R

Otvorte RStudio. V skripte R priraďte príponu súboru premennej.

Na určenie, ako dlho trvá vykonanie funkcie alebo operácie, musíte použiť funkciu system.file ( ) . Keďže chceme vyhodnotiť, ako dlho trvá otvorenie súboru, napíšte do argumentu read.csv (df) .

Hodnotenie a optimalizácia výkonu kódu v R

Keď spustíte kód, konzola vám ukáže čas potrebný na otvorenie súboru. Uplynutý stĺpec ukazuje, ako dlho trvalo CPU, kým vykonal R kód. Výsledky ukazujú, že to trvalo RStudio 31,93 sekundy, čo je značné množstvo času. Tento čas načítania je nepraktický, ak vždy pracujete s veľkými množinami údajov.

Hodnotenie a optimalizácia výkonu kódu v R

Jedným zo spôsobov, ako môžete optimalizovať výkon vášho R kódu, je použitie balíka tidyverse . Tým sa skráti čas z 30 na 5 sekúnd.

Upozorňujeme, že na prečítanie súboru musíte použiť funkciu read_csv ( ) .

Hodnotenie a optimalizácia výkonu kódu v R

Balík tidyverse zlepšuje čas načítania v R pomocou balíka čítačky , ktorý poskytuje súbor rýchlych a efektívnych funkcií na čítanie a zápis údajov. Balík Readr poskytuje funkcie ako read_csv ( ) a read_table ( ) , ktoré dokážu rýchlo a efektívne čítať veľké množiny údajov.

Ďalšou optimalizačnou metódou v R je použitie balíka data.table . Toto je zadarmo na stiahnutie na internete.

Balík data.table v jazyku R je výkonný a efektívny nástroj na prácu s veľkými a zložitými množinami údajov. Poskytuje vylepšenú verziu objektu data.frame, čo je základná dátová štruktúra v R. Hlavnou výhodou data.table je vysoký výkon a nízke využitie pamäte pri práci s veľkými množinami údajov.

Všimnite si, že pri používaní tohto balíka musíte namiesto read.csv ( ) napísať funkciu fread ( ) . Keď to spustíte spolu s kódom, môžete vidieť, že čas načítania sa skráti na 2,25 sekundy.

Hodnotenie a optimalizácia výkonu kódu v R

Porovnanie R balíkov pomocou Microbenchmarku

Ak chcete porovnať výkon medzi jednotlivými metódami, môžete použiť funkciu microbenchmark ( ) .

Funkcia microbenchmark ( ) v R je nástroj na meranie výkonnosti R kódu. Poskytuje jednoduché a ľahko použiteľné rozhranie na porovnávanie času vykonávania výrazov R.

Skvelá vec na tejto funkcii je, že môžete nastaviť, koľkokrát sa má proces opakovať. To poskytuje presnejšie výsledky. Môžete tiež zistiť, či sú výsledky konzistentné.

Hodnotenie a optimalizácia výkonu kódu v R

Ak máte problémy s čítaním súboru CSV v LuckyTemplates, RStudio to môže urobiť za vás. V R sú ďalšie možnosti, ktoré môžete použiť na optimalizáciu výkonu kódu. Ale data.table sa veľmi odporúča kvôli svojej jednoduchosti.

Záver

Optimalizácia R kódu je dôležitým krokom na zabezpečenie efektívneho fungovania vašich R skriptov. Existuje niekoľko techník a nástrojov, ktoré možno použiť na optimalizáciu R kódu, ako je použitie balíka tidyverse na manipuláciu s údajmi, použitie balíka data.table pre veľké súbory údajov a použitie balíka microbenchmark na meranie výkonu R kódu.

Je tiež dôležité mať na pamäti osvedčené postupy kódovania, ako je používanie vektorizovaných operácií namiesto slučiek, používanie vstavaných funkcií namiesto písania vlastných a pamätanie na využitie pamäte vášho kódu.

Všetko najlepšie,

George Mount


Vytvoření tabulky data v LuckyTemplates

Vytvoření tabulky data v LuckyTemplates

Zjistěte, proč je důležité mít vyhrazenou tabulku s daty v LuckyTemplates, a naučte se nejrychlejší a nejefektivnější způsob, jak toho dosáhnout.

LuckyTemplates Mobile Reporting Tipy a techniky

LuckyTemplates Mobile Reporting Tipy a techniky

Tento stručný návod zdůrazňuje funkci mobilního hlášení LuckyTemplates. Ukážu vám, jak můžete efektivně vytvářet přehledy pro mobily.

Profesionální servisní analytické zprávy v LuckyTemplates

Profesionální servisní analytické zprávy v LuckyTemplates

V této ukázce LuckyTemplates si projdeme sestavy ukazující profesionální analýzy služeb od firmy, která má více smluv a zákaznických vztahů.

Aktualizácie Microsoft Power Platform | Microsoft Ignite 2021

Aktualizácie Microsoft Power Platform | Microsoft Ignite 2021

Pozrite si kľúčové aktualizácie pre Power Apps a Power Automate a ich výhody a dôsledky pre platformu Microsoft Power Platform.

Bežné funkcie SQL: Prehľad

Bežné funkcie SQL: Prehľad

Objavte niektoré bežné funkcie SQL, ktoré môžeme použiť, ako napríklad reťazec, dátum a niektoré pokročilé funkcie na spracovanie alebo manipuláciu s údajmi.

Vytvoření šablony LuckyTemplates: Průvodce a tipy

Vytvoření šablony LuckyTemplates: Průvodce a tipy

V tomto tutoriálu se naučíte, jak vytvořit dokonalou šablonu LuckyTemplates, která je nakonfigurována podle vašich potřeb a preferencí.

Parametry pole a malé násobky v LuckyTemplates

Parametry pole a malé násobky v LuckyTemplates

V tomto blogu si ukážeme, jak vrstvit parametry pole s malými násobky, abychom vytvořili neuvěřitelně užitečné přehledy a vizuály.

LuckyTemplates Rank a vlastní seskupení

LuckyTemplates Rank a vlastní seskupení

V tomto blogu se dozvíte, jak používat funkce hodnocení LuckyTemplates a vlastní seskupování k segmentaci ukázkových dat a jejich seřazení podle kritérií.

Zobrazení kumulativního součtu pouze do určitého data v LuckyTemplates

Zobrazení kumulativního součtu pouze do určitého data v LuckyTemplates

V tomto tutoriálu se budu zabývat konkrétní technikou, jak zobrazit kumulativní součet pouze do určitého data ve vašich vizuálech v LuckyTemplates.

Bullet Charts: Pokročilé vlastní vizuální prvky pro LuckyTemplates

Bullet Charts: Pokročilé vlastní vizuální prvky pro LuckyTemplates

Naučte se vytvářet a přizpůsobovat Bullet grafy v LuckyTemplates, které se používají hlavně pro měření výkonu oproti cílovým nebo předchozím rokům.