Päivämäärätaulukon luominen LuckyTemplatesissa
Ota selvää, miksi LuckyTemplatesissa on tärkeää pitää oma päivämäärätaulukko ja opi nopein ja tehokkain tapa tehdä se.
Outlier-tunnistus on tärkeä tehtävä koneoppimisen alalla. Sitä käytetään tunnistamaan epätavalliset havainnot tai tietopisteet, jotka poikkeavat tietojoukon yleisestä trendistä. Eräs tehokas algoritmi poikkeamien havaitsemiseen on Isolation Forest -algoritmi.
Tämän päivän blogissa käsittelemme Isolation Forest -algoritmin perusteita ja näytämme, kuinka sen avulla voidaan havaita poikkeamat tietojoukossa käyttämällä . Voit katsoa tämän opetusohjelman koko videon tämän blogin alaosasta .
Sisällysluettelo
Metsän eristysalgoritmi vs. laatikkokuvausmenetelmä
Alla on kaksi visuaalista kuvaa poikkeamien havaitsemiseksi. Huomaa merkittävät erot visuaalisessa esityksessä käytettäessä -merkkiä verrattuna eristysmetsän ML-malliin outlier-tunnistukseen.
Isolation Forest ML -mallissa IS Anomaly Detection -algoritmin havaitsemien poikkeavien prosenttiosuus on 32,56 %. Samaa algoritmia käytettäessä loput 67,44 % tiedoista osuu normaalille alueelle, joka on melko herkkä. Tavoitteenamme on hienosäätää tätä herkkyyttä käyttämällä .
Perinteinen outlier-tunnistusmenetelmä
Perinteinen tapa löytää outlier on käyttää box plot - menetelmää . Tässä menetelmässä käytämme IQR:ää löytääksemme, mikä jää datan odotetun alueen ulkopuolelle.
Tässä esimerkissä tämä yksittäinen piste viiksen yläpuolella on poikkeava pisteemme.
Jos muunnamme tämän visuaalisen kaavion ympyräkaavioksi, saamme tämän yksittäisen poikkeaman, joka vastaa 2,33 % kokonaistiedoista.
Tässä blogissa opimme käyttämään Isolation Forest ML -menetelmää, hienosäätämään sitä vastaamaan perinteistä menetelmää ja lisäämään tai vähentämään sen herkkyyttä.
Tietojoukko eristysmetsäalgoritmia varten
Avaa tietojoukkomme LuckyTemplatesissa. Napsauta sitten Muunna tiedot.
Tämän opetusohjelman tietojoukkomme tulee näkyviin. Se sisältää päivämäärän , käyttäjien lukumäärän , indeksin ja eristysmetsän poikkeavuuden , jonka tulos on 1 normaalille alueelle ja -1 poikkeaville arvoille .
Meillä on myös sarake Traditional Outlierille ja ehdollinen sarake nimeltä IS Anomalia Detection , joka kuvastaa eristysmetsän poikkeavaa arvoa.
Toinen kyselymme näyttää tietokehyksemme, josta opimme yhdistämään kaiken.
Python-koodit
Ominaisuudet - ruudussa näemme kaksi käynnissä olevaa komentosarjaamme. Luomme Isolation Forest -tulosteen yhdellä näistä skripteistä ja luomme perinteisen poikkeaman toisella.
Isolation Forest Algorithm Python Code
Napsauta Suorita Python-skripti nähdäksesi koodin.
Tässä Python-koodissa tuomme pd:nä ja käytä jotain nimeltä Isolation Forest.
Eristysmetsä on puupohjainen malli, joka tekee päätökset puurakenteen perusteella ja päättää sitten onko se poikkeava vai ei . Kutsumme sitä ensemble-malliksi , koska se käyttää kahta eri menetelmää tietyn poikkeaman löytämiseksi.
Korvaamme myös tietojoukkomuuttujan , joka pitää tietojoukkomme oletuksena, nimellä df .
Tietojoukkomme vuoksi emme tarvitse kahta alla korostettua koodiriviä, joten voimme vain poistaa kyseiset rivit.
Se, mitä teemme, on mallinnus.
Tallenna malli IsolationForest- nimellä ja anna mallin oppia tiedot käyttäjien kanssa. Luo sitten uusi sarake nimeltä Anomalia Detection , joka palaa kaikkiin oppimiinsa tietoihin ja ennustaa, minkä pitäisi olla poikkeava vai ei.
Tämän toiminnon oletusarvoksi kontaminaatiolle on asetettu 0,5 . Siksi se on tällä hetkellä erittäin herkkä ja etsii paljon poikkeavuuksia. Tästä syystä aikaisemmassa ympyräkaaviossamme meillä on erittäin korkea vaihteluväli, 32,56 %.
Jotta se olisi vähemmän herkkä, voimme lisätä kontaminaatio = .1 IsolationForest - funktioon .
Lopuksi nollaa indeksi ja napsauta OK.
Tuloksena näkyy yhteenvetotaulukko. Siirry Applied Steps -ruutuun ja napsauta df.
Lähdöstä löydämme poikkeamat Anomalia Detection -sarakkeen alta.
Haluamme myös nähdä, kuinka se toimii perinteisen poikkeaman rinnalla.
Perinteinen outlier Python-koodi
Suoritamme toisen Python-skriptin, joka tässä esimerkissä on Suorita Python-skripti1.
Tämä koodi lisää outlier-funktion käyttämällä ensimmäistä ja kolmatta kvartiilia. Kun vähennämme q1:stä q3 , saamme kvartiilialueen (IQR) .
Seuraavat kaksi riviä asettavat ehdot poikkeaville arvoille. Ensimmäinen rivi sanoo, että mitä tahansa alle 1,5 * iqr:tä pidetään negatiivisena tai alhaisempana poikkeavuutena. Näin löydämme myös poikkeamat perinteisellä tavalla.
Tiedämme myös, että meillä on yksi poikkeama tiedoissamme korkein kohta. Tämän vuoksi toisella rivillä todetaan, että arvopisteitä, jotka ovat suurempia kuin q3 + 1,5 * iqr, pidetään myös poikkeavina arvoina.
Palauta tietojoukko ja käytä funktiota outliers(df, 'Users') . Napsauta sitten OK.
Näkyviin tulee aikaisemman kaltainen yhteenvetotaulukko.
Jos siirrymme Applied Steps -ruutuun ja napsautamme Muutettu tyyppi1 , saamme Traditional Outlier- ja Anomalia Detection -sarakkeet vierekkäin, jolloin jälkimmäinen käyttää 1 ja -1 merkitsemään poikkeavia ja ei.
Kuitenkin, kun käytämme päivämääriä Pythonin kanssa, ne voivat näyttää sekaisilta.
Voimme luoda lisäsarakkeen käyttämällä Lisää sarake -kohdan hakemistoa .
Lisää sitten hakemisto edelliseen sarakkeeseen Yhdistä -toiminnolla, jotta voimme säilyttää kaikki tiedot alkuperäisessä sarakkeessa/tietojoukossa.
Kun meillä on kaikki yhdessä, voimme ajaa koodimme ja päivittää visuaaliamme. Muista, että muutimme poikkeaman kontaminaatiota 0,5:stä 0,1:een, joten meidän pitäisi nähdä tämän kaavion osan pienenevän melkoisesti.
Palaa visualisointiin ja napsauta Käytä muutoksia.
Huomaa, kuinka poikkeamien havaitseminen meni 32,56 prosentista 11,63 prosenttiin tiedoistamme.
Kuten tuloksistamme näemme, tämä on hyvä tapa optimoida poikkeamien havaitseminen.
Muista myös, että kun ihmiset käyttävät perinteistä menetelmää, he voivat käyttää arvoja, jotka ovat pienempiä kuin 1,5, mutta 1,5 x IQR on kuitenkin perinteinen tapa.
Johtopäätös
Käyttämällä Isolation Forest -algoritmia voimme helposti tunnistaa ja sulkea pois epätavalliset havainnot tietojoukostamme, mikä parantaa analyysimme tarkkuutta. Tämä opetusohjelma on tarjonnut vaiheittaisen oppaan Isolation Forest -algoritmin käyttämisestä poikkeavien havaitsemiseen Pythonilla, mikä auttaa sinua pääsemään alkuun sen toteuttamisessa omissa projekteissasi.
Teimme erittäin helpon koodin poikkeavuuksien löytämiseksi. Voit edelleen optimoida tätä algoritmia muokkaamalla kontaminaatiota ja monia muita muuttujia, jotka voit oppia koodisivun kautta.
Kaikki parhaat,
Ota selvää, miksi LuckyTemplatesissa on tärkeää pitää oma päivämäärätaulukko ja opi nopein ja tehokkain tapa tehdä se.
Tämä lyhyt opetusohjelma korostaa LuckyTemplates-mobiiliraportointiominaisuutta. Näytän sinulle, kuinka voit kehittää raportteja tehokkaasti mobiililaitteille.
Tässä LuckyTemplates Showcase -esittelyssä käymme läpi raportteja, jotka näyttävät ammattitaitoisen palveluanalytiikan yritykseltä, jolla on useita sopimuksia ja asiakkaiden sitoumuksia.
Käy läpi tärkeimmät Power Appsin ja Power Automaten päivitykset sekä niiden edut ja vaikutukset Microsoft Power Platformiin.
Tutustu joihinkin yleisiin SQL-toimintoihin, joita voimme käyttää, kuten merkkijono, päivämäärä ja joitain lisätoimintoja tietojen käsittelyyn tai käsittelyyn.
Tässä opetusohjelmassa opit luomaan täydellisen LuckyTemplates-mallin, joka on määritetty tarpeidesi ja mieltymystesi mukaan.
Tässä blogissa esittelemme, kuinka kerrostat kenttäparametreja pienillä kerroilla uskomattoman hyödyllisten näkemysten ja visuaalien luomiseksi.
Tässä blogissa opit käyttämään LuckyTemplates-sijoitus- ja mukautettuja ryhmittelyominaisuuksia näytetietojen segmentoimiseen ja luokitteluun kriteerien mukaan.
Tässä opetusohjelmassa käsittelen tiettyä tekniikkaa, jolla voit näyttää kumulatiivisen kokonaissumman LuckyTemplates-visuaaleissasi vain tiettyyn päivämäärään asti.
Opi luomaan ja mukauttamaan Bullet-kaavioita LuckyTemplatesissa, joita käytetään pääasiassa suorituskyvyn mittaamiseen suhteessa tavoitteeseen tai edellisiin vuosiin.