Lineární regrese v Pythonu

V analýze dat jsou klíčovými ovlivňovateli proměnné, které mají významný dopad na závislou proměnnou. Jinými slovy, jsou to faktory, které nejvíce přispívají k výsledku zájmu. V Pythonu se lineární regrese používá k identifikaci klíčových ovlivňovatelů v datové sadě a k měření síly a směru vztahu mezi různými proměnnými. Na celé video tohoto tutoriálu se můžete podívat na konci tohoto blogu .

Identifikace klíčových ovlivňovatelů může být užitečná pro pochopení základních vztahů v datové sadě a pro předpovědi budoucích výsledků.

knihovny poskytují řadu nástrojů a funkcí pro provádění regresní analýzy a identifikaci klíčových ovlivňovatelů v datové sadě.

Obsah

Použití modelu lineární regrese

V tomto článku ukážu, jak můžete použít lineární regresní model k napodobení některých klíčových vlivů LuckyTemplates. Naším cílem je použít všechny naše proměnné, abychom byli schopni popsat, co se mění v jiné proměnné.

Klíčovými faktory ovlivňujícími LuckyTemplates je lineární regresní model. Často to používáme, i když přesně nevíme, co je pod kapotou. V tomto tutoriálu to používám k identifikaci faktorů, které přispívají k poplatkům za pojištění.

Lineární regrese v Pythonu

Podívejme se na datovou sadu poplatků za pojištění. Chci, aby to bylo vysvětleno statusem kuřáka, pohlavím, regionem, dětmi, BMI a věkem.

Lineární regrese v Pythonu

V současnosti klíčoví influenceři vykazují nejvlivnější proměnnou. Když kuřák ano, průměrný poplatek je o 23 615 USD vyšší ve srovnání se všemi ostatními hodnotami kuřáka.

Je to skvělý vizuál, ale nedává nám žádné další proměnné, které by mohly ovlivnit náboje.

Lineární regrese v Pythonu

Pojďme se do toho hlouběji ponořit změnou rozevíracího seznamu z Zvýšit na Snížit .

Tentokrát je to naopak. Pokud nejste kuřák, průměrný poplatek je o 23 615 USD nižší ve srovnání se všemi ostatními hodnotami kuřáka.

Lineární regrese v Pythonu

Jak můžete vidět, jedná se o lineární regresní model, který jsem vytvořil pomocí některých kódů Pythonu a vložil do LuckyTemplates s minimálním .

Co se týče kódování, máme nad tím úplnou kontrolu a uvidíte, jak jsem to postavil jako alternativu nebo doplněk k vizuálu klíčových influencerů.

Lineární regrese v Pythonu

Přesuňme se k sešitu Jupiter. Pro lepší pochopení mi dovolte vysvětlit tyto části po částech.

Lineární regrese v Pythonu

Použité knihovny Pythonu

V první části jsem načetl všechny knihovny, které chci použít. Pokud se v knihovnách nevyznáte, jedná se o kolekce kódů a funkcí, které pro nás vývojáři vytvořili.

Importoval jsem pandy jako pd , což je knihovna pro manipulaci s daty, a numpy jako np, abychom mohli provádět lineární výpočty a podmínky.

Použité modely

Pojďme se bavit o modelech, které jsem použil. Přinesl jsem sklearn.linear_model , což je a použil lineární regresní model. Pro případ, že bychom to potřebovali, jsem také přinesl sklearn.preprocessing import StandardScaler , který nám umožní škálovat naše data.

Další model, který používám, se nazývá xgboost import XGBRegressor . Je to regresní model s rozhodovacím stromem a dalšími užitečnými aspekty.

Kromě toho jsem také použil train_set_split , protože chci mít možnost rozdělit data mezi trénovací sadu a učební sadu. Ve strojovém učení potřebujeme sadu trénovacích dat, aby se algoritmus naučil dříve, než provede jakékoli předpovědi.

Také jsem přinesl mean_squared_error pro určení modelu a knihovny matplotlib.pyplot pro případ, že bychom chtěli udělat nějaké vizuály.

Možná je nepoužijeme všechny, ale mohlo by to být užitečné, takže jsem je všechny vložil.

Lineární regrese v Pythonu

Použitá datová sada

Dále se pojďme rychle podívat na datovou sadu. Použil jsem funkci df = pd.read_csv k přenesení datové sady pojištění a poté jsem data převedl na fiktivní proměnné pomocí df1 = pd.get_dummies (df, drop_first = True) .

Lineární regrese v Pythonu

Chcete-li to provést, vytvořte novou buňku stisknutím kláves Esc + B na naší klávesnici a poté zadejte df.head pro vyhodnocení dat.

Jako naši závislou proměnnou máme věk, pohlaví, BMI, děti, kuřáka, region a poplatky, které chceme predikovat. To jsou data, která přicházejí nepřipravená na strojové učení.

Ve strojovém učení nebudeme moci používat kategorické proměnné, jako je žena, muž, jihozápad a severozápad. První věc, kterou musíme udělat, pokud se jedná o typický regresní model, je převést kategorické proměnné na numerický vstup. 

Lineární regrese v Pythonu

K tomu jsem použil funkci pd.get_dummies a poté ji také změnil na číselný sloupec změnou df.head na df1.head . Klikneme na tlačítko Spustit a ukážeme si, jak to vypadá.

Lineární regrese v Pythonu

Nyní můžeme vidět tuto novou kolekci sloupců, jako je sex_male , smoker_yes , region_northwest a tak dále. Algoritmus automaticky ví, že pokud je 1, znamená to ano a 0 znamená ne.

Je patrné, že zde nejsou žádné sex_female a region_northeast , protože nechceme model příliš komplikovat. Ty jsme zrušili pomocí funkce drop_first = True .

Další věc, kterou jsem udělal, je přinést funkci lineární regrese a uložit ji do proměnného modelu. 

Vytvořil jsem také proměnné X a Y k predikci našich proměnných Y a poté jsem uvedl všechny ostatní sloupce pro naše prediktory pomocí stejné datové sady, kterou jsme použili dříve.

Lineární regrese v Pythonu

Pro proměnnou X jsme použili df1.drop ('náboje', osa=1) ke snížení nábojů. Na druhou stranu potřebujeme poplatky pro proměnnou Y, proto vložíme df1['charges'] .

S funkcemi níže jsem vytvořil tréninkové a testovací sady pro X i Y pomocí funkce train_test_split a předal je do proměnných X a Y.

Navíc jsem použil model.fit k přizpůsobení tréninkových dat našemu modelu. To znamená, že model lineární regrese se bude učit trénovací data. 

Lineární regrese v Pythonu

Tentokrát se podívejme na naše prediktory. Vidíme to prostřednictvím koeficientů, protože popisují, jak každá z těchto vlastností nebo proměnných ovlivňuje náboje.

Je také patrné, že počet koeficientů pro smoker_yes je velmi blízký, pokud jej porovnáte s počtem, který máme pro klíčové influencery a v našem modelu. 

K vytvoření tabulky, kde máme vlastnosti a koeficienty, jsem použil pd.DataFrame , abych vnesl koeficienty do tabulky a vytvořil vizuál.

Lineární regrese v Pythonu

Lineární regrese v Pythonu

Použití různých modelů pro vizuální klíčové vlivy

Je také vhodné použít různé modely k získání klíčových ovlivňovatelů zavedením XGB.Regressor

Když reprezentujeme model, je to jen jednoduchá lineární regrese; ale když jsme přinesli XGB.Regressor, existuje mnoho parametrů, které můžeme použít k optimalizaci modelu.

Lineární regrese v Pythonu

Tyto funkce jsem také replikoval, když jsem vytvořil datový rámec níže. Tyto koeficienty jsou velmi odlišné ve srovnání s tím, co jsme viděli v lineární regresi.

Lineární regrese v Pythonu

S touto tabulkou jsou čísla přesná. Pokud jste například kuřák, vaše poplatky se zvýší o 23 787 USD. Pokud máte jedno dítě, zvýší se o 472 dolarů a tak dále.

Lineární regrese v Pythonu

Tyto ovlivňovače jsou také důležité, protože odrážejí to, co máme v tabulce lineární regrese. Je to trochu jiné, ale velmi blízké, protože tito influenceři se sčítají do jednoho. To je jen jiný způsob pohledu na influencery.

Lineární regrese v Pythonu

Testování přesnosti lineární regresní analýzy

Poté chceme vidět přesnost našeho modelu, a proto jsme použili y_pred = model.predict (X_test) . Přišlo s předpovědí, že to bylo pryč o 5885,7. 

Toto je pouze testovací sada dat a zda je předpověď dobrá nebo špatná, musíme ji ještě vyhodnotit. To teď neuděláme, protože se zaměřujeme pouze na naše klíčové influencery. 

Lineární regrese v Pythonu

Když se vrátím k LuckyTemplates, ukážu vám, jak jsem to dal velmi snadno. Toto je samostatná tabulka, kde můžete vidět funkce a influencery. 

Lineární regrese v Pythonu

Udělal jsem to tak, že jsem přešel na Transform data .

Lineární regrese v Pythonu

Poté jsem duplikoval svou datovou sadu a byl schopen vytvořit tuto tabulku. Můžeme také přejít do Aplikovaných kroků , abychom viděli kód a prohlédli si proměnné, které jsme použili.

Lineární regrese v Pythonu

Otevřeme soubor dvojitým kliknutím na něj. 

Lineární regrese v Pythonu

Přivezli jsme naše knihovny. Převedli jsme to na strojové učení, předzpracování datové sady, která byla jen nuly a jedničky. 

Také jsme přinesli regresní model, vytvořili naše X a Y tak, aby odpovídaly datům, a pak jsme uložili tabulku jako výstup. Model je dostatečně dobrý, takže jsem nepoužil sadu tréninkových testů.

Další věc, kterou jsem udělal, je přepnout datovou sadu na df , protože je jednodušší psát. Dataset je proměnná pro původní data.

S touto tabulkou jsem ji uložil jako výstup, proto máme tyto koeficienty.

Lineární regrese v Pythonu

Chcete-li to přenést jako vizuál, klikněte na Zavřít a použít .

Lineární regrese v Pythonu

Nyní máme . Také jsem použil podmíněné formátování k zobrazení pozitiv a negativ.

Lineární regrese v Pythonu




Závěr

Závěrem lze říci, že pochopení klíčových ovlivňovačů a implementace lineární regrese v Pythonu může být mocným nástrojem pro analýzu a predikci dat.

Identifikací klíčových faktorů, které ovlivňují závislou proměnnou, a použitím lineární regrese k modelování jejich vztahů můžeme lépe porozumět a předvídat budoucí výsledky .

S využitím výkonných knihoven Pythonu je snadné implementovat lineární regresi a extrahovat smysluplné poznatky z dat.

Vše nejlepší,


Tabulky proporcí a četností v Excelu

Tabulky proporcí a četností v Excelu

Chtěli jsme se ponořit do tabulek četností v Excelu a také do tabulek proporcí. Podívejte se, co to je a kdy je použít.

Ako nainštalovať DAX Studio & Tabular Editor v LuckyTemplates

Ako nainštalovať DAX Studio & Tabular Editor v LuckyTemplates

Zistite, ako stiahnuť a nainštalovať DAX Studio a Tabular Editor 3 a ako ich nakonfigurovať na použitie v LuckyTemplates a v Exceli.

LuckyTemplates Vizualizácia tvarovej mapy pre priestorovú analýzu

LuckyTemplates Vizualizácia tvarovej mapy pre priestorovú analýzu

Tento blog obsahuje vizualizáciu Shape Map pre priestorovú analýzu v LuckyTemplates. Ukážem vám, ako môžete efektívne využiť túto vizualizáciu s jej funkciami a prvkami.

LuckyTemplates Finančné výkazníctvo: Prideľovanie výsledkov šablónam v každom jednom riadku

LuckyTemplates Finančné výkazníctvo: Prideľovanie výsledkov šablónam v každom jednom riadku

V tomto návode predstavujem jedinečný nápad týkajúci sa finančného výkazníctva, ktorý spočíva v prideľovaní výsledkov na vopred určené šablóny tabuliek v rámci LuckyTemplates.

DAX měří v LuckyTemplates pomocí Measure Branching

DAX měří v LuckyTemplates pomocí Measure Branching

Vytvářejte míry DAX v LuckyTemplates pomocí existujících mír nebo vzorců. Tomu říkám technika větvení opatření.

Najvýkonnejšie volanie funkcie v LuckyTemplates

Najvýkonnejšie volanie funkcie v LuckyTemplates

V tomto blogu preskúmajte množinu údajov LuckyTemplates, najvýkonnejšie volanie funkcií, ktoré vám prináša tisíce funkcií M a DAX na dosah ruky.

Techniky modelovania údajov na organizáciu opatrení DAX

Techniky modelovania údajov na organizáciu opatrení DAX

V dnešnom návode sa podelím o niekoľko techník modelovania údajov o tom, ako lepšie usporiadať vaše merania DAX pre efektívnejší pracovný tok.

LuckyTemplates Financial Dashboard: Kompletné tipy na prispôsobenie tabuľky

LuckyTemplates Financial Dashboard: Kompletné tipy na prispôsobenie tabuľky

LuckyTemplates je skvelý nástroj pre finančné výkazníctvo. Tu je návod, ako vytvoriť prispôsobené tabuľky pre váš finančný dashboard LuckyTemplates.

Osvedčené postupy toku jazyka Power Query

Osvedčené postupy toku jazyka Power Query

V tomto návode sa bude diskutovať o toku jazyka Power Query a o tom, ako môže pomôcť vytvoriť hladkú a efektívnu zostavu údajov.

LuckyTemplates vlastní ikony | Vizualizační technika PBI

LuckyTemplates vlastní ikony | Vizualizační technika PBI

Budu diskutovat o jedné z mých oblíbených technik kolem vlastních ikon LuckyTemplates, která používá vlastní ikony dynamickým způsobem ve vizuálech LuckyTemplates.