Lineární regrese v Pythonu

V analýze dat jsou klíčovými ovlivňovateli proměnné, které mají významný dopad na závislou proměnnou. Jinými slovy, jsou to faktory, které nejvíce přispívají k výsledku zájmu. V Pythonu se lineární regrese používá k identifikaci klíčových ovlivňovatelů v datové sadě a k měření síly a směru vztahu mezi různými proměnnými. Na celé video tohoto tutoriálu se můžete podívat na konci tohoto blogu .

Identifikace klíčových ovlivňovatelů může být užitečná pro pochopení základních vztahů v datové sadě a pro předpovědi budoucích výsledků.

knihovny poskytují řadu nástrojů a funkcí pro provádění regresní analýzy a identifikaci klíčových ovlivňovatelů v datové sadě.

Obsah

Použití modelu lineární regrese
Použití různých modelů pro vizuální klíčové vlivy
Testování přesnosti lineární regresní analýzy
Závěr

Použití modelu lineární regrese

V tomto článku ukážu, jak můžete použít lineární regresní model k napodobení některých klíčových vlivů LuckyTemplates. Naším cílem je použít všechny naše proměnné, abychom byli schopni popsat, co se mění v jiné proměnné.

Klíčovými faktory ovlivňujícími LuckyTemplates je lineární regresní model. Často to používáme, i když přesně nevíme, co je pod kapotou. V tomto tutoriálu to používám k identifikaci faktorů, které přispívají k poplatkům za pojištění.

Lineární regrese v Pythonu

Podívejme se na datovou sadu poplatků za pojištění. Chci, aby to bylo vysvětleno statusem kuřáka, pohlavím, regionem, dětmi, BMI a věkem.

Lineární regrese v Pythonu

V současnosti klíčoví influenceři vykazují nejvlivnější proměnnou. Když kuřák ano, průměrný poplatek je o 23 615 USD vyšší ve srovnání se všemi ostatními hodnotami kuřáka.

Je to skvělý vizuál, ale nedává nám žádné další proměnné, které by mohly ovlivnit náboje.

Lineární regrese v Pythonu

Pojďme se do toho hlouběji ponořit změnou rozevíracího seznamu z Zvýšit na Snížit .

Tentokrát je to naopak. Pokud nejste kuřák, průměrný poplatek je o 23 615 USD nižší ve srovnání se všemi ostatními hodnotami kuřáka.

Lineární regrese v Pythonu

Jak můžete vidět, jedná se o lineární regresní model, který jsem vytvořil pomocí některých kódů Pythonu a vložil do LuckyTemplates s minimálním .

Co se týče kódování, máme nad tím úplnou kontrolu a uvidíte, jak jsem to postavil jako alternativu nebo doplněk k vizuálu klíčových influencerů.

Lineární regrese v Pythonu

Přesuňme se k sešitu Jupiter. Pro lepší pochopení mi dovolte vysvětlit tyto části po částech.

Lineární regrese v Pythonu

Použité knihovny Pythonu

V první části jsem načetl všechny knihovny, které chci použít. Pokud se v knihovnách nevyznáte, jedná se o kolekce kódů a funkcí, které pro nás vývojáři vytvořili.

Importoval jsem pandy jako pd , což je knihovna pro manipulaci s daty, a numpy jako np, abychom mohli provádět lineární výpočty a podmínky.

Použité modely

Pojďme se bavit o modelech, které jsem použil. Přinesl jsem sklearn.linear_model , což je a použil lineární regresní model. Pro případ, že bychom to potřebovali, jsem také přinesl sklearn.preprocessing import StandardScaler , který nám umožní škálovat naše data.

Další model, který používám, se nazývá xgboost import XGBRegressor . Je to regresní model s rozhodovacím stromem a dalšími užitečnými aspekty.

Kromě toho jsem také použil train_set_split , protože chci mít možnost rozdělit data mezi trénovací sadu a učební sadu. Ve strojovém učení potřebujeme sadu trénovacích dat, aby se algoritmus naučil dříve, než provede jakékoli předpovědi.

Také jsem přinesl mean_squared_error pro určení modelu a knihovny matplotlib.pyplot pro případ, že bychom chtěli udělat nějaké vizuály.

Možná je nepoužijeme všechny, ale mohlo by to být užitečné, takže jsem je všechny vložil.

Lineární regrese v Pythonu

Použitá datová sada

Dále se pojďme rychle podívat na datovou sadu. Použil jsem funkci df = pd.read_csv k přenesení datové sady pojištění a poté jsem data převedl na fiktivní proměnné pomocí df1 = pd.get_dummies (df, drop_first = True) .

Lineární regrese v Pythonu

Chcete-li to provést, vytvořte novou buňku stisknutím kláves Esc + B na naší klávesnici a poté zadejte df.head pro vyhodnocení dat.

Jako naši závislou proměnnou máme věk, pohlaví, BMI, děti, kuřáka, region a poplatky, které chceme predikovat. To jsou data, která přicházejí nepřipravená na strojové učení.

Ve strojovém učení nebudeme moci používat kategorické proměnné, jako je žena, muž, jihozápad a severozápad. První věc, kterou musíme udělat, pokud se jedná o typický regresní model, je převést kategorické proměnné na numerický vstup.

Lineární regrese v Pythonu

K tomu jsem použil funkci pd.get_dummies a poté ji také změnil na číselný sloupec změnou df.head na df1.head . Klikneme na tlačítko Spustit a ukážeme si, jak to vypadá.

Lineární regrese v Pythonu

Nyní můžeme vidět tuto novou kolekci sloupců, jako je sex_male , smoker_yes , region_northwest a tak dále. Algoritmus automaticky ví, že pokud je 1, znamená to ano a 0 znamená ne.

Je patrné, že zde nejsou žádné sex_female a region_northeast , protože nechceme model příliš komplikovat. Ty jsme zrušili pomocí funkce drop_first = True .

Další věc, kterou jsem udělal, je přinést funkci lineární regrese a uložit ji do proměnného modelu.

Vytvořil jsem také proměnné X a Y k predikci našich proměnných Y a poté jsem uvedl všechny ostatní sloupce pro naše prediktory pomocí stejné datové sady, kterou jsme použili dříve.

Lineární regrese v Pythonu

Pro proměnnou X jsme použili df1.drop ('náboje', osa=1) ke snížení nábojů. Na druhou stranu potřebujeme poplatky pro proměnnou Y, proto vložíme df1['charges'] .

S funkcemi níže jsem vytvořil tréninkové a testovací sady pro X i Y pomocí funkce train_test_split a předal je do proměnných X a Y.

Navíc jsem použil model.fit k přizpůsobení tréninkových dat našemu modelu. To znamená, že model lineární regrese se bude učit trénovací data.

Lineární regrese v Pythonu

Tentokrát se podívejme na naše prediktory. Vidíme to prostřednictvím koeficientů, protože popisují, jak každá z těchto vlastností nebo proměnných ovlivňuje náboje.

Je také patrné, že počet koeficientů pro smoker_yes je velmi blízký, pokud jej porovnáte s počtem, který máme pro klíčové influencery a v našem modelu.

K vytvoření tabulky, kde máme vlastnosti a koeficienty, jsem použil pd.DataFrame , abych vnesl koeficienty do tabulky a vytvořil vizuál.

Lineární regrese v Pythonu

Použití různých modelů pro vizuální klíčové vlivy

Je také vhodné použít různé modely k získání klíčových ovlivňovatelů zavedením XGB.Regressor .

Když reprezentujeme model, je to jen jednoduchá lineární regrese; ale když jsme přinesli XGB.Regressor, existuje mnoho parametrů, které můžeme použít k optimalizaci modelu.

Lineární regrese v Pythonu

Tyto funkce jsem také replikoval, když jsem vytvořil datový rámec níže. Tyto koeficienty jsou velmi odlišné ve srovnání s tím, co jsme viděli v lineární regresi.

Lineární regrese v Pythonu

S touto tabulkou jsou čísla přesná. Pokud jste například kuřák, vaše poplatky se zvýší o 23 787 USD. Pokud máte jedno dítě, zvýší se o 472 dolarů a tak dále.

Lineární regrese v Pythonu

Tyto ovlivňovače jsou také důležité, protože odrážejí to, co máme v tabulce lineární regrese. Je to trochu jiné, ale velmi blízké, protože tito influenceři se sčítají do jednoho. To je jen jiný způsob pohledu na influencery.

Lineární regrese v Pythonu

Testování přesnosti lineární regresní analýzy

Poté chceme vidět přesnost našeho modelu, a proto jsme použili y_pred = model.predict (X_test) . Přišlo s předpovědí, že to bylo pryč o 5885,7.

Toto je pouze testovací sada dat a zda je předpověď dobrá nebo špatná, musíme ji ještě vyhodnotit. To teď neuděláme, protože se zaměřujeme pouze na naše klíčové influencery.

Lineární regrese v Pythonu

Když se vrátím k LuckyTemplates, ukážu vám, jak jsem to dal velmi snadno. Toto je samostatná tabulka, kde můžete vidět funkce a influencery.

Lineární regrese v Pythonu

Udělal jsem to tak, že jsem přešel na Transform data .

Lineární regrese v Pythonu

Poté jsem duplikoval svou datovou sadu a byl schopen vytvořit tuto tabulku. Můžeme také přejít do Aplikovaných kroků , abychom viděli kód a prohlédli si proměnné, které jsme použili.

Lineární regrese v Pythonu

Otevřeme soubor dvojitým kliknutím na něj.

Lineární regrese v Pythonu

Přivezli jsme naše knihovny. Převedli jsme to na strojové učení, předzpracování datové sady, která byla jen nuly a jedničky.

Také jsme přinesli regresní model, vytvořili naše X a Y tak, aby odpovídaly datům, a pak jsme uložili tabulku jako výstup. Model je dostatečně dobrý, takže jsem nepoužil sadu tréninkových testů.

Další věc, kterou jsem udělal, je přepnout datovou sadu na df , protože je jednodušší psát. Dataset je proměnná pro původní data.

S touto tabulkou jsem ji uložil jako výstup, proto máme tyto koeficienty.

Lineární regrese v Pythonu

Chcete-li to přenést jako vizuál, klikněte na Zavřít a použít .

Lineární regrese v Pythonu

Nyní máme . Také jsem použil podmíněné formátování k zobrazení pozitiv a negativ.

Lineární regrese v Pythonu

Závěr

Závěrem lze říci, že pochopení klíčových ovlivňovačů a implementace lineární regrese v Pythonu může být mocným nástrojem pro analýzu a predikci dat.

Identifikací klíčových faktorů, které ovlivňují závislou proměnnou, a použitím lineární regrese k modelování jejich vztahů můžeme lépe porozumět a předvídat budoucí výsledky .

S využitím výkonných knihoven Pythonu je snadné implementovat lineární regresi a extrahovat smysluplné poznatky z dat.

Vše nejlepší,

Zanechat komentář

Extrahovanie motívov a obrázkov LuckyTemplates z PBIX

Naučte se, jak rozebrat soubor PBIX a extrahovat motivy a obrázky LuckyTemplates z pozadí pro váš report!

Prehľad a vytvorenie domovskej stránky SharePointu

Naučte sa, ako vytvoriť domovskú stránku SharePointu, ktorá sa predvolene načítava, keď používatelia zadajú adresu vašej webovej lokality.

Vytvoření tabulky data v LuckyTemplates

Zjistěte, proč je důležité mít vyhrazenou tabulku s daty v LuckyTemplates, a naučte se nejrychlejší a nejefektivnější způsob, jak toho dosáhnout.

LuckyTemplates Mobile Reporting Tipy a techniky

Tento stručný návod zdůrazňuje funkci mobilního hlášení LuckyTemplates. Ukážu vám, jak můžete efektivně vytvářet přehledy pro mobily.

Profesionální servisní analytické zprávy v LuckyTemplates

V této ukázce LuckyTemplates si projdeme sestavy ukazující profesionální analýzy služeb od firmy, která má více smluv a zákaznických vztahů.

Bežné funkcie SQL: Prehľad

Objavte niektoré bežné funkcie SQL, ktoré môžeme použiť, ako napríklad reťazec, dátum a niektoré pokročilé funkcie na spracovanie alebo manipuláciu s údajmi.

Aktualizácie Microsoft Power Platform | Microsoft Ignite 2021

Pozrite si kľúčové aktualizácie pre Power Apps a Power Automate a ich výhody a dôsledky pre platformu Microsoft Power Platform.

Parametry pole a malé násobky v LuckyTemplates

V tomto blogu si ukážeme, jak vrstvit parametry pole s malými násobky, abychom vytvořili neuvěřitelně užitečné přehledy a vizuály.

Vytvoření šablony LuckyTemplates: Průvodce a tipy

V tomto tutoriálu se naučíte, jak vytvořit dokonalou šablonu LuckyTemplates, která je nakonfigurována podle vašich potřeb a preferencí.

LuckyTemplates Rank a vlastní seskupení

V tomto blogu se dozvíte, jak používat funkce hodnocení LuckyTemplates a vlastní seskupování k segmentaci ukázkových dat a jejich seřazení podle kritérií.