Päivämäärätaulukon luominen LuckyTemplatesissa
Ota selvää, miksi LuckyTemplatesissa on tärkeää pitää oma päivämäärätaulukko ja opi nopein ja tehokkain tapa tehdä se.
Pandas on laajalti käytetty Python-kirjasto tietojen käsittelyyn ja analysointiin. Yksi olennainen toiminto, jonka pandat voivat tarjota, on kyky muokata tietojoukon rakennetta. Tarkemmin sanottuna indeksien pudottaminen DataFrame-kehykseen on ratkaiseva toimenpide, kun työskentelet tietojoukkojen kanssa. Sen avulla voit poistaa tiedoista ei-toivotut rivit tai sarakkeet.
Voit pudottaa indeksin pandoille käyttämällä .drop()- ja .reset_index()-menetelmiä. .drop()-menetelmän avulla voit poistaa tiettyjä rivejä tai sarakkeita. Toisaalta .reset_index()-menetelmän avulla voit poistaa indeksin ja palauttaa sen oletusarvoiseen RangeIndexiin.
Tässä artikkelissa keskustelemme näiden menetelmien käytöstä indeksien pudottamiseksi pandan DataFrame-kehyksissä. Käymme läpi useita esimerkkejä osoittaaksemme, kuinka tietojoukon rakennetta voidaan tehokkaasti muokata erilaisten analyyttisten tarpeiden mukaan. Näiden esimerkkien avulla saat syvemmän käsityksen siitä, kuinka pandakirjastoa voidaan käyttää tietojen käsittelyyn.
Mennään asiaan!
Sisällysluettelo
Panda-pudotusindeksin ymmärtäminen
Ennen kuin sukeltaamme indeksin pudotukseen pandoilla, on erittäin tärkeää, että ymmärrät, mikä panda DataFrame on. Lisäksi sinun tulee tuntea myös pandas DataFrame -kehyksen indeksien ja sarakkeiden käsite.
Tässä osiossa käsittelemme pandan DataFramen, indeksin ja sarakkeiden perusasiat. Katsomme sitten esimerkkiä indeksin pudotuksesta pandoilla.
1. Mikä on Pandas Dataframe?
Pandas on avoimen lähdekoodin Python-kirjasto, joka tarjoaa tehokkaita tiedonkäsittely- ja analysointityökaluja. Yksi sen tärkeimmistä tietorakenteista on DataFrame .
Pandas DataFrame on kaksiulotteinen tietorakenne, jossa on nimetyt akselit (rivit ja sarakkeet). Voit ajatella DataFramea SQL-taulukon tai Excel-laskentataulukon Pythonic-objektiesityksenä.
Seuraava on tyypillinen pandan DataFrame:
2. Mitä ovat indeksit ja sarakkeet?
Pandas DataFrame -kehyksessä indeksi toimii tietopisteiden "osoitteena". Se tarjoaa tavan käyttää ja järjestää tietoja DataFramessa. Se voi olla joko pandan määrittämä oletuskokonaislukusarja tai käyttäjän määrittämä mukautettu indeksi.
Sarakkeet ovat muuttujia, jotka isännöivät erityyppisiä tietoja DataFrame-kehyksessä. Jokainen sarake on pohjimmiltaan datasarja. Se voi sisältää erilaisia tietotyyppejä, kuten kokonaislukuja, kellukkeita tai merkkijonoja. Sarakkeen nimiö, jota yleisesti kutsutaan sarakkeen nimeksi, tunnistaa tämän tietosarjan.
Pandas DataFrame -kehyksessä tietojen käsittelyyn kuuluu usein työskentely rivitunnisteiden (indeksien) tai saraketunnisteiden kanssa.
Joitakin yleisiä toimintoja, joita voit suorittaa moniindeksiisellä DataFrame-kehyksellä, ovat rivien tai sarakkeiden valitseminen, uudelleennimeäminen ja pudottaminen niiden otsikoiden perusteella.
3. Indeksisarakkeen pudottaminen pandoilla
Pandoissa voit käyttää DataFrame-metodia reset_index() indeksin pudottamiseksi ja nollaamiseksi.
Oletetaan, että meillä on seuraava DataFrame:
Pudottaaksemme indeksisarakkeen voimme käyttää seuraavaa koodia:
df.reset_index(drop=True)
Kun olet suorittanut tämän koodin, saat alla olevan esimerkin:
Tulosteessa voit nähdä, että indeksi pudotetaan ja korvataan alkuperäisillä indeksiarvoilla.
Voit myös käyttää pudotusmenetelmää pandoissa tiettyjen tunnisteiden poistamiseen riveistä tai sarakkeista.
Tämän menetelmän syntaksi on:
DataFrame.drop(labels=None, *, axis=0, index=None, columns=None, level=None, inplace=False, errors='raise')
Seuraavat ovat pudotusmenetelmän tärkeimmät parametrit :
tarrat : Poistettavat tarrat. Se voi olla joko rivejä tai sarakkeita riippuen akseliparametrista .
akseli : määrittää, pudotetaanko riveistä ( 0 tai 'indeksi' ) vai sarakkeista ( 1 tai 'sarakkeet' ).
index : Vaihtoehto akseli=0 määrittämiselle . Mahdollistaa poistettavien rivien tunnisteiden ilmoittamisen.
sarakkeet : Vaihtoehto akseli=1 määrittämiselle . Mahdollistaa poistettavien sarakkeiden otsikoiden ilmoittamisen.
inplace : Jos asetuksena on True , toiminto suoritetaan paikallaan, mikä tarkoittaa, että alkuperäistä DataFrame-kehystä muutetaan. Jos False (oletus), palautetaan uusi DataFrame, josta on poistettu määritetyt tunnisteet.
virheet : ohjaa puuttuvien tarrojen käsittelyä. Jos 'raise' (oletus), tulee virheilmoitus, kun tarroja ei löydy. Jos "pakottaa" , puuttuvat tunnisteet ohitetaan hiljaa.
Oletetaan, että meillä on seuraava DataFrame:
Haluamme pudottaa rivin, jossa on indeksi 1. Voit tehdä tämän pudotusmenetelmällä kirjoittamalla seuraavan koodin alkaen pandoista tuonti:
import pandas as pd
# Drop row with index 1
df.drop(1, axis=0)
Pudotuksen akseli =0- argumentti kertoo tulkille, että suoritamme rivikohtaista toimintoa. Toinen argumentti 1 on riviindeksi. Se käskee tulkkia pudottamaan rivin indeksillä 1.
Yllä olevan toiminnon jälkeen saamme seuraavan DataFramen:
Oletetaan nyt, että haluaisimme pudottaa DataFramesta sarakkeen, jonka sarakeotsikkona on Ikä. Tämän saavuttamiseksi voimme kirjoittaa seuraavan koodin:
# Drop column 'Age'
df.drop('Age', axis=1)
Argumentti akseli=1 kertoo tulkille, että suoritamme sarakekohtaisen toiminnon. Argumentti "Ikä" käskee tulkin pudottamaan sarakkeen nimeltä "Ikä".
Kun olet suorittanut yllä olevan koodin, saat seuraavan DataFramen:
Kuinka pudottaa useita rivejä ja sarakkeita
Yllä oleva esimerkki havainnollistaa yhden rivin tai sarakkeen pudottamista. Entä jos haluat pudottaa useita rivejä tai sarakkeita?
Tämän saavuttamiseksi käytämme samaa koodia pienin muutoksin. Yhden arvon käyttämisen sijaan voimme tarjota pudotusfunktiolle argumentteja useiden rivien ja sarakkeiden poistamiseksi kerralla.
Oletetaan, että haluan pudottaa kaksi ensimmäistä riviä DataFrame-kehyksestämme. Tämän saavuttamiseksi voimme käyttää seuraavaa koodia:
# Dropping first 2 rows by index
df = df.drop([0, 1], axis=0)
Tässä koodissa käskemme tulkkia pudottamaan rivit 0 ja 1. Tämän koodin tulos on annettu alla:
Voit nähdä, että rivit 0 ja 1 eivät enää ole DataFramessa.
Pudotetaan myös Osasto- ja Palkka-sarakkeet. Voimme tehdä tämän käyttämällä seuraavaa koodia:
# Dropping columns by name
df = df.drop(['Salary', 'Department'], axis=1)
Tässä skriptissä pyydämme tulkkia pudottamaan sarakkeet Palkka ja Osasto sarakeotsikoina. Tämän koodin tulos on annettu alla:
Tämä on viimeinen DataFrame. Poistimme yhteensä kaksi riviä ja kaksi saraketta DataFrame-kehyksestä pudotusmenetelmällä.
Saat lisätietoja pandan MultiIndexistä katsomalla seuraavaa videota:
Rivien ja sarakkeiden pudottaminen Inplace-toiminnolla
Edellisessä esimerkissä voit nähdä, että teemme ensin muutoksia DataFrame-kehykseen ja tallennamme sen sitten uutena DataFrame-kehyksenä. Tämä ei kuitenkaan ole tehokas tapa pudottaa rivejä ja sarakkeita.
Toinen vaihtoehto rivien ja sarakkeiden pudotukselle on asettaa pudotusfunktion inplace- argumentiksi True .
Asettamalla inplace -parametrin arvoksi True , voit muokata DataFrame-kehystä pysyvästi ilman, että sitä tarvitsee määrittää uudelleen.
Tämä on hyödyllistä käsiteltäessä suuria DataFrame-kehyksiä, koska se voi säästää muistia välttämällä uuden DataFrame-kehyksen luomisen.
Seuraavassa on esimerkki rivien ja sarakkeiden pudotuksesta :
# Dropping rows by index inplace
df.drop(labels=[0, 1], axis=0, inplace=True)
# Dropping columns by name inplace
df.drop(['Salary', 'Department'], axis=1, inplace=True)
Yllä olevan koodin tulos on annettu alla:
Täällä voit nähdä, että emme luo uutta DataFrame-kehystä, vaan teemme muutoksia alkuperäiseen.
Kuinka työskennellä indeksien kanssa Pandasissa
Tässä osiossa käsittelemme indeksien käyttöä pandas DataFrame -kehyksessä. Käsittelemme seuraavat kaksi alajaksoa:
Aseta ja nollaa indeksi
ID- ja indeksisarake
1. Indeksin asettaminen ja nollaaminen
Yksi tärkeä näkökohta pandojen kanssa työskentelyssä on indeksisarakkeiden asettamisen ja nollauksen ymmärtäminen. Hakemisto on kunkin rivin avaintunniste, ja joissain tapauksissa saatat haluta muuttaa sitä.
Uuden indeksin asettaminen
Voit asettaa uuden indeksin menetelmällä set_index() . Kohteen set_index syntaksi on annettu alla:
df.set_index('column_name', inplace=True)
Argumentti inplace=True tarkoittaa tässä, että teemme muutoksia olemassa olevaan DataFrame-kehykseen.
Tämän osoittamiseksi käytämme seuraavaa DataFrame-kehystä:
Oletetaan, että haluaisimme tehdä Nimi-sarakkeesta DataFrame-hakemistomme. Tämän saavuttamiseksi voimme käyttää seuraavaa koodia:
df.set_index('Name', inplace=True)
Tämä Python-skripti tekee Namesta DataFrame-hakemistomme. Tämän koodin tulos on annettu alla:
Indeksiarvojen nollaaminen
Voit palauttaa indeksin oletusmuotoon (eli RangeIndex arvosta 0 DataFrame-kehyksen pituuteen miinus 1) käyttämällä reset_index ()- menetelmää.
Reset_index(): n syntaksi on annettu alla:
df.reset_index(drop=True, inplace=True)
Asettamalla drop=True nykyinen indeksisarake poistetaan, kun taas inplace=True varmistaa, että muutokset otetaan käyttöön suoraan DataFrameen luomatta uutta.
Kun käytämme tätä koodia edelliseen DataFrame-kehykseen, saamme seuraavan tulosteen:
Voit nähdä, että Nimi, joka oli aiemmin hakemistomme, on palautettu oletusarvoihin.
2. Lisätoiminnot hakemistosarakkeen kanssa
Kun tuot DataFramen esimerkiksi CSV-tiedostosta, voit käyttää index_col- parametria määrittääksesi sarakkeen, jota käytetään indeksinä.
Index_col: n syntaksi on annettu alla:
df = pd.read_csv('data.csv', index_col='column_name')
Lisäksi, jos haluat viedä DataFramen ilman indeksisaraketta, voit asettaa indeksiparametrin arvoon False .
Tämän menetelmän syntaksi on annettu alla:
df.to_csv('output.csv', index=False)
Nyt kun ymmärrät indeksin pudotusmenetelmän, katsotaanpa, kuinka voit käsitellä virheitä käytettäessä pudotustoimintoa seuraavassa osiossa.
Kuinka käsitellä virheitä, kun käytetään pudotustoimintoa Pandasissa
Tässä osiossa tutkimme, kuinka käsitellä virheitä ja erikoistapauksia, kun pandan pudotustoimintoa käytetään indeksisarakkeiden poistamiseen DataFramesta.
Keskustelemme erityisesti seuraavista:
Käsittely KeyError
Työskentely päällekkäisten rivien kanssa
1. Avainvirheen käsittely
Kun käytät pudotustoimintoa pandoissa, saatat kohdata KeyError-ilmoituksen, jos määritettyä indeksiä tai saraketta ei löydy DataFrame-kehyksestä.
Voit estää tämän virheen esiintymisen käyttämällä errors- parametria. Virheparametrilla on kaksi vaihtoehtoa: nosta ja ohita. Oletusarvoisesti se on asetettu arvoon 'raise', mikä tarkoittaa, että KeyError nostetaan, jos määritettyä indeksiä tai saraketta ei löydy.
Voit kuitenkin asettaa sen tilaan "ohita", jos haluat estää virheen ja jatkaa koodin suorittamista.
Oletetaan, että meillä on seuraava DataFrame. Yritetään pudottaa rivi, jota ei ole DataFramessa, ja katsotaan mitä tapahtuu:
# Attempt to drop a non-existent index, will raise KeyError
# df.drop(5, inplace=True)
Python-skripti antaa seuraavan virheen:
Tällaisten virheiden käsittelemiseksi varmista, että viittaat tietojoukossa oleviin riveihin.
2. Kuinka käsitellä päällekkäisiä rivejä
Tietoja puhdistettaessa tärkeä tehtävä on etsiä kopioita ja poistaa ne.
Päällekkäisten rivien käsitteleminen DataFrame-kehyksessä voi lisätä monimutkaisuutta pudotustoimintoa käytettäessä .
Jos haluat pudottaa rivejä päällekkäisten indeksiarvojen perusteella, voit käyttää monistettua funktiota ja valita sitten vain kopioimattomat rivit loogisen indeksoinnin avulla.
Oletetaan, että meillä on seuraava DataFrame:
Voit nähdä, että tietojoukossamme on päällekkäisiä indeksejä. Kaksoiskappaleiden poistamiseksi tunnistamme ensin päällekkäiset arvot seuraavalla koodilla:
# Find duplicated index values
duplicated_rows = df.index.duplicated(keep='first')
Tämän jälkeen valitsemme vain kopioimattomat rivit ja tallennamme ne edelliseen DataFrameen seuraavalla koodilla:
# Select only non-duplicated rows
df = df[~duplicated_rows]
Lopullinen tulos on alla:
Lopullisessa tulosteessa ei ole enää päällekkäisiä rivejä.
Lopulliset ajatukset
Kun jatkat datatieteen ja analytiikan matkaasi, tiedon käsittelyn ja hallinnan ymmärtäminen on taito, joka osoittautuu tärkeimmäksi.
Toiminnan hallitseminen, kuten indeksien pudottaminen pandoille, on keskeinen osa tätä. Indeksin nollaaminen tai pudottaminen on askel kohti tietojen puhdistamista, muuntamista ja arvokkaita oivalluksia.
Kun opettelet pudottamaan indeksejä, voit muokata DataFrame-kehystäsi tehokkaammin. Pystyt myös luomaan selkeämpiä tietojoukkoja, joita on helpompi lukea ja analysoida. Lisäksi indeksien nollaaminen voi olla ratkaisevan tärkeää yhdistettäessä tai ketjutettaessa useita DataFrame-kehyksiä, joissa saattaa syntyä hakemistoristiriitoja.
Mahdollisuus pudottaa indeksejä antaa sinulle paremman hallinnan ja joustavuuden tietojoukoissasi!
Ota selvää, miksi LuckyTemplatesissa on tärkeää pitää oma päivämäärätaulukko ja opi nopein ja tehokkain tapa tehdä se.
Tämä lyhyt opetusohjelma korostaa LuckyTemplates-mobiiliraportointiominaisuutta. Näytän sinulle, kuinka voit kehittää raportteja tehokkaasti mobiililaitteille.
Tässä LuckyTemplates Showcase -esittelyssä käymme läpi raportteja, jotka näyttävät ammattitaitoisen palveluanalytiikan yritykseltä, jolla on useita sopimuksia ja asiakkaiden sitoumuksia.
Käy läpi tärkeimmät Power Appsin ja Power Automaten päivitykset sekä niiden edut ja vaikutukset Microsoft Power Platformiin.
Tutustu joihinkin yleisiin SQL-toimintoihin, joita voimme käyttää, kuten merkkijono, päivämäärä ja joitain lisätoimintoja tietojen käsittelyyn tai käsittelyyn.
Tässä opetusohjelmassa opit luomaan täydellisen LuckyTemplates-mallin, joka on määritetty tarpeidesi ja mieltymystesi mukaan.
Tässä blogissa esittelemme, kuinka kerrostat kenttäparametreja pienillä kerroilla uskomattoman hyödyllisten näkemysten ja visuaalien luomiseksi.
Tässä blogissa opit käyttämään LuckyTemplates-sijoitus- ja mukautettuja ryhmittelyominaisuuksia näytetietojen segmentoimiseen ja luokitteluun kriteerien mukaan.
Tässä opetusohjelmassa käsittelen tiettyä tekniikkaa, jolla voit näyttää kumulatiivisen kokonaissumman LuckyTemplates-visuaaleissasi vain tiettyyn päivämäärään asti.
Opi luomaan ja mukauttamaan Bullet-kaavioita LuckyTemplatesissa, joita käytetään pääasiassa suorituskyvyn mittaamiseen suhteessa tavoitteeseen tai edellisiin vuosiin.