Pandas Drop Index -sarake: selitetty esimerkein

Pandas on laajalti käytetty Python-kirjasto tietojen käsittelyyn ja analysointiin. Yksi olennainen toiminto, jonka pandat voivat tarjota, on kyky muokata tietojoukon rakennetta. Tarkemmin sanottuna indeksien pudottaminen DataFrame-kehykseen on ratkaiseva toimenpide, kun työskentelet tietojoukkojen kanssa. Sen avulla voit poistaa tiedoista ei-toivotut rivit tai sarakkeet.

Voit pudottaa indeksin pandoille käyttämällä .drop()- ja .reset_index()-menetelmiä. .drop()-menetelmän avulla voit poistaa tiettyjä rivejä tai sarakkeita. Toisaalta .reset_index()-menetelmän avulla voit poistaa indeksin ja palauttaa sen oletusarvoiseen RangeIndexiin.

Tässä artikkelissa keskustelemme näiden menetelmien käytöstä indeksien pudottamiseksi pandan DataFrame-kehyksissä. Käymme läpi useita esimerkkejä osoittaaksemme, kuinka tietojoukon rakennetta voidaan tehokkaasti muokata erilaisten analyyttisten tarpeiden mukaan. Näiden esimerkkien avulla saat syvemmän käsityksen siitä, kuinka pandakirjastoa voidaan käyttää tietojen käsittelyyn.

Mennään asiaan!

Sisällysluettelo

Panda-pudotusindeksin ymmärtäminen
Kuinka työskennellä indeksien kanssa Pandasissa
- 1. Indeksin asettaminen ja nollaaminen
  - Uuden indeksin asettaminen
  - Indeksiarvojen nollaaminen
- 2. Lisätoiminnot hakemistosarakkeen kanssa
Kuinka käsitellä virheitä, kun käytetään pudotustoimintoa Pandasissa
- 1. Avainvirheen käsittely
- 2. Kuinka käsitellä päällekkäisiä rivejä
Lopulliset ajatukset

Panda-pudotusindeksin ymmärtäminen

Ennen kuin sukeltaamme indeksin pudotukseen pandoilla, on erittäin tärkeää, että ymmärrät, mikä panda DataFrame on. Lisäksi sinun tulee tuntea myös pandas DataFrame -kehyksen indeksien ja sarakkeiden käsite.

Pandas Drop Index -sarake: selitetty esimerkein

Tässä osiossa käsittelemme pandan DataFramen, indeksin ja sarakkeiden perusasiat. Katsomme sitten esimerkkiä indeksin pudotuksesta pandoilla.

1. Mikä on Pandas Dataframe?

Pandas on avoimen lähdekoodin Python-kirjasto, joka tarjoaa tehokkaita tiedonkäsittely- ja analysointityökaluja. Yksi sen tärkeimmistä tietorakenteista on DataFrame .

Pandas DataFrame on kaksiulotteinen tietorakenne, jossa on nimetyt akselit (rivit ja sarakkeet). Voit ajatella DataFramea SQL-taulukon tai Excel-laskentataulukon Pythonic-objektiesityksenä.

Seuraava on tyypillinen pandan DataFrame:

Pandas Drop Index -sarake: selitetty esimerkein

2. Mitä ovat indeksit ja sarakkeet?

Pandas DataFrame -kehyksessä indeksi toimii tietopisteiden "osoitteena". Se tarjoaa tavan käyttää ja järjestää tietoja DataFramessa. Se voi olla joko pandan määrittämä oletuskokonaislukusarja tai käyttäjän määrittämä mukautettu indeksi.

Sarakkeet ovat muuttujia, jotka isännöivät erityyppisiä tietoja DataFrame-kehyksessä. Jokainen sarake on pohjimmiltaan datasarja. Se voi sisältää erilaisia tietotyyppejä, kuten kokonaislukuja, kellukkeita tai merkkijonoja. Sarakkeen nimiö, jota yleisesti kutsutaan sarakkeen nimeksi, tunnistaa tämän tietosarjan.

Pandas DataFrame -kehyksessä tietojen käsittelyyn kuuluu usein työskentely rivitunnisteiden (indeksien) tai saraketunnisteiden kanssa.

Joitakin yleisiä toimintoja, joita voit suorittaa moniindeksiisellä DataFrame-kehyksellä, ovat rivien tai sarakkeiden valitseminen, uudelleennimeäminen ja pudottaminen niiden otsikoiden perusteella.

3. Indeksisarakkeen pudottaminen pandoilla

Pandoissa voit käyttää DataFrame-metodia reset_index() indeksin pudottamiseksi ja nollaamiseksi.

Oletetaan, että meillä on seuraava DataFrame:

Pandas Drop Index -sarake: selitetty esimerkein

Pudottaaksemme indeksisarakkeen voimme käyttää seuraavaa koodia:

df.reset_index(drop=True)

Kun olet suorittanut tämän koodin, saat alla olevan esimerkin:

Pandas Drop Index -sarake: selitetty esimerkein

Tulosteessa voit nähdä, että indeksi pudotetaan ja korvataan alkuperäisillä indeksiarvoilla.

Voit myös käyttää pudotusmenetelmää pandoissa tiettyjen tunnisteiden poistamiseen riveistä tai sarakkeista.

Tämän menetelmän syntaksi on:

DataFrame.drop(labels=None, *, axis=0, index=None, columns=None, level=None, inplace=False, errors='raise')

Seuraavat ovat pudotusmenetelmän tärkeimmät parametrit :

tarrat : Poistettavat tarrat. Se voi olla joko rivejä tai sarakkeita riippuen akseliparametrista .
akseli : määrittää, pudotetaanko riveistä ( 0 tai 'indeksi' ) vai sarakkeista ( 1 tai 'sarakkeet' ).
index : Vaihtoehto akseli=0 määrittämiselle . Mahdollistaa poistettavien rivien tunnisteiden ilmoittamisen.
sarakkeet : Vaihtoehto akseli=1 määrittämiselle . Mahdollistaa poistettavien sarakkeiden otsikoiden ilmoittamisen.
inplace : Jos asetuksena on True , toiminto suoritetaan paikallaan, mikä tarkoittaa, että alkuperäistä DataFrame-kehystä muutetaan. Jos False (oletus), palautetaan uusi DataFrame, josta on poistettu määritetyt tunnisteet.
virheet : ohjaa puuttuvien tarrojen käsittelyä. Jos 'raise' (oletus), tulee virheilmoitus, kun tarroja ei löydy. Jos "pakottaa" , puuttuvat tunnisteet ohitetaan hiljaa.

Oletetaan, että meillä on seuraava DataFrame:

Pandas Drop Index -sarake: selitetty esimerkein

Haluamme pudottaa rivin, jossa on indeksi 1. Voit tehdä tämän pudotusmenetelmällä kirjoittamalla seuraavan koodin alkaen pandoista tuonti:

import pandas as pd

# Drop row with index 1
df.drop(1, axis=0)

Pudotuksen akseli =0- argumentti kertoo tulkille, että suoritamme rivikohtaista toimintoa. Toinen argumentti 1 on riviindeksi. Se käskee tulkkia pudottamaan rivin indeksillä 1.

Yllä olevan toiminnon jälkeen saamme seuraavan DataFramen:

Pandas Drop Index -sarake: selitetty esimerkein

Oletetaan nyt, että haluaisimme pudottaa DataFramesta sarakkeen, jonka sarakeotsikkona on Ikä. Tämän saavuttamiseksi voimme kirjoittaa seuraavan koodin:

# Drop column 'Age'
df.drop('Age', axis=1)

Argumentti akseli=1 kertoo tulkille, että suoritamme sarakekohtaisen toiminnon. Argumentti "Ikä" käskee tulkin pudottamaan sarakkeen nimeltä "Ikä".

Kun olet suorittanut yllä olevan koodin, saat seuraavan DataFramen:

Pandas Drop Index -sarake: selitetty esimerkein

Kuinka pudottaa useita rivejä ja sarakkeita

Yllä oleva esimerkki havainnollistaa yhden rivin tai sarakkeen pudottamista. Entä jos haluat pudottaa useita rivejä tai sarakkeita?

Tämän saavuttamiseksi käytämme samaa koodia pienin muutoksin. Yhden arvon käyttämisen sijaan voimme tarjota pudotusfunktiolle argumentteja useiden rivien ja sarakkeiden poistamiseksi kerralla.

Oletetaan, että haluan pudottaa kaksi ensimmäistä riviä DataFrame-kehyksestämme. Tämän saavuttamiseksi voimme käyttää seuraavaa koodia:

# Dropping first 2 rows by index
df = df.drop([0, 1], axis=0)

Tässä koodissa käskemme tulkkia pudottamaan rivit 0 ja 1. Tämän koodin tulos on annettu alla:

Pandas Drop Index -sarake: selitetty esimerkein

Voit nähdä, että rivit 0 ja 1 eivät enää ole DataFramessa.

Pudotetaan myös Osasto- ja Palkka-sarakkeet. Voimme tehdä tämän käyttämällä seuraavaa koodia:

# Dropping columns by name
df = df.drop(['Salary', 'Department'], axis=1)

Tässä skriptissä pyydämme tulkkia pudottamaan sarakkeet Palkka ja Osasto sarakeotsikoina. Tämän koodin tulos on annettu alla:

Pandas Drop Index -sarake: selitetty esimerkein

Tämä on viimeinen DataFrame. Poistimme yhteensä kaksi riviä ja kaksi saraketta DataFrame-kehyksestä pudotusmenetelmällä.

Saat lisätietoja pandan MultiIndexistä katsomalla seuraavaa videota:

Rivien ja sarakkeiden pudottaminen Inplace-toiminnolla

Edellisessä esimerkissä voit nähdä, että teemme ensin muutoksia DataFrame-kehykseen ja tallennamme sen sitten uutena DataFrame-kehyksenä. Tämä ei kuitenkaan ole tehokas tapa pudottaa rivejä ja sarakkeita.

Toinen vaihtoehto rivien ja sarakkeiden pudotukselle on asettaa pudotusfunktion inplace- argumentiksi True .

Asettamalla inplace -parametrin arvoksi True , voit muokata DataFrame-kehystä pysyvästi ilman, että sitä tarvitsee määrittää uudelleen.

Tämä on hyödyllistä käsiteltäessä suuria DataFrame-kehyksiä, koska se voi säästää muistia välttämällä uuden DataFrame-kehyksen luomisen.

Seuraavassa on esimerkki rivien ja sarakkeiden pudotuksesta :

# Dropping rows by index inplace
df.drop(labels=[0, 1], axis=0, inplace=True)

# Dropping columns by name inplace
df.drop(['Salary', 'Department'], axis=1, inplace=True)

Yllä olevan koodin tulos on annettu alla:

Pandas Drop Index -sarake: selitetty esimerkein

Täällä voit nähdä, että emme luo uutta DataFrame-kehystä, vaan teemme muutoksia alkuperäiseen.

Kuinka työskennellä indeksien kanssa Pandasissa

Tässä osiossa käsittelemme indeksien käyttöä pandas DataFrame -kehyksessä. Käsittelemme seuraavat kaksi alajaksoa:

Aseta ja nollaa indeksi
ID- ja indeksisarake

1. Indeksin asettaminen ja nollaaminen

Yksi tärkeä näkökohta pandojen kanssa työskentelyssä on indeksisarakkeiden asettamisen ja nollauksen ymmärtäminen. Hakemisto on kunkin rivin avaintunniste, ja joissain tapauksissa saatat haluta muuttaa sitä.

Uuden indeksin asettaminen

Voit asettaa uuden indeksin menetelmällä set_index() . Kohteen set_index syntaksi on annettu alla:

df.set_index('column_name', inplace=True)

Argumentti inplace=True tarkoittaa tässä, että teemme muutoksia olemassa olevaan DataFrame-kehykseen.

Tämän osoittamiseksi käytämme seuraavaa DataFrame-kehystä:

Pandas Drop Index -sarake: selitetty esimerkein

Oletetaan, että haluaisimme tehdä Nimi-sarakkeesta DataFrame-hakemistomme. Tämän saavuttamiseksi voimme käyttää seuraavaa koodia:

df.set_index('Name', inplace=True)

Tämä Python-skripti tekee Namesta DataFrame-hakemistomme. Tämän koodin tulos on annettu alla:

Pandas Drop Index -sarake: selitetty esimerkein

Indeksiarvojen nollaaminen

Voit palauttaa indeksin oletusmuotoon (eli RangeIndex arvosta 0 DataFrame-kehyksen pituuteen miinus 1) käyttämällä reset_index ()- menetelmää.

Reset_index(): n syntaksi on annettu alla:

df.reset_index(drop=True, inplace=True)

Asettamalla drop=True nykyinen indeksisarake poistetaan, kun taas inplace=True varmistaa, että muutokset otetaan käyttöön suoraan DataFrameen luomatta uutta.

Kun käytämme tätä koodia edelliseen DataFrame-kehykseen, saamme seuraavan tulosteen:

Pandas Drop Index -sarake: selitetty esimerkein

Voit nähdä, että Nimi, joka oli aiemmin hakemistomme, on palautettu oletusarvoihin.

2. Lisätoiminnot hakemistosarakkeen kanssa

Kun tuot DataFramen esimerkiksi CSV-tiedostosta, voit käyttää index_col- parametria määrittääksesi sarakkeen, jota käytetään indeksinä.

Index_col: n syntaksi on annettu alla:

df = pd.read_csv('data.csv', index_col='column_name')

Lisäksi, jos haluat viedä DataFramen ilman indeksisaraketta, voit asettaa indeksiparametrin arvoon False .

Tämän menetelmän syntaksi on annettu alla:

df.to_csv('output.csv', index=False)

Nyt kun ymmärrät indeksin pudotusmenetelmän, katsotaanpa, kuinka voit käsitellä virheitä käytettäessä pudotustoimintoa seuraavassa osiossa.

Kuinka käsitellä virheitä, kun käytetään pudotustoimintoa Pandasissa

Tässä osiossa tutkimme, kuinka käsitellä virheitä ja erikoistapauksia, kun pandan pudotustoimintoa käytetään indeksisarakkeiden poistamiseen DataFramesta.

Keskustelemme erityisesti seuraavista:

Käsittely KeyError
Työskentely päällekkäisten rivien kanssa

1. Avainvirheen käsittely

Kun käytät pudotustoimintoa pandoissa, saatat kohdata KeyError-ilmoituksen, jos määritettyä indeksiä tai saraketta ei löydy DataFrame-kehyksestä.

Voit estää tämän virheen esiintymisen käyttämällä errors- parametria. Virheparametrilla on kaksi vaihtoehtoa: nosta ja ohita. Oletusarvoisesti se on asetettu arvoon 'raise', mikä tarkoittaa, että KeyError nostetaan, jos määritettyä indeksiä tai saraketta ei löydy.

Voit kuitenkin asettaa sen tilaan "ohita", jos haluat estää virheen ja jatkaa koodin suorittamista.

Oletetaan, että meillä on seuraava DataFrame. Yritetään pudottaa rivi, jota ei ole DataFramessa, ja katsotaan mitä tapahtuu:

# Attempt to drop a non-existent index, will raise KeyError
# df.drop(5, inplace=True)

Python-skripti antaa seuraavan virheen:

Tällaisten virheiden käsittelemiseksi varmista, että viittaat tietojoukossa oleviin riveihin.

2. Kuinka käsitellä päällekkäisiä rivejä

Tietoja puhdistettaessa tärkeä tehtävä on etsiä kopioita ja poistaa ne.

Päällekkäisten rivien käsitteleminen DataFrame-kehyksessä voi lisätä monimutkaisuutta pudotustoimintoa käytettäessä .

Jos haluat pudottaa rivejä päällekkäisten indeksiarvojen perusteella, voit käyttää monistettua funktiota ja valita sitten vain kopioimattomat rivit loogisen indeksoinnin avulla.

Oletetaan, että meillä on seuraava DataFrame:

Pandas Drop Index -sarake: selitetty esimerkein

Voit nähdä, että tietojoukossamme on päällekkäisiä indeksejä. Kaksoiskappaleiden poistamiseksi tunnistamme ensin päällekkäiset arvot seuraavalla koodilla:

# Find duplicated index values
duplicated_rows = df.index.duplicated(keep='first')

Tämän jälkeen valitsemme vain kopioimattomat rivit ja tallennamme ne edelliseen DataFrameen seuraavalla koodilla:

# Select only non-duplicated rows
df = df[~duplicated_rows]

Lopullinen tulos on alla:

Lopullisessa tulosteessa ei ole enää päällekkäisiä rivejä.

Lopulliset ajatukset

Kun jatkat datatieteen ja analytiikan matkaasi, tiedon käsittelyn ja hallinnan ymmärtäminen on taito, joka osoittautuu tärkeimmäksi.

Toiminnan hallitseminen, kuten indeksien pudottaminen pandoille, on keskeinen osa tätä. Indeksin nollaaminen tai pudottaminen on askel kohti tietojen puhdistamista, muuntamista ja arvokkaita oivalluksia.

Kun opettelet pudottamaan indeksejä, voit muokata DataFrame-kehystäsi tehokkaammin. Pystyt myös luomaan selkeämpiä tietojoukkoja, joita on helpompi lukea ja analysoida. Lisäksi indeksien nollaaminen voi olla ratkaisevan tärkeää yhdistettäessä tai ketjutettaessa useita DataFrame-kehyksiä, joissa saattaa syntyä hakemistoristiriitoja.

Mahdollisuus pudottaa indeksejä antaa sinulle paremman hallinnan ja joustavuuden tietojoukoissasi!

Jätä kommentti

LuckyTemplates Financial Dashboard -esimerkkejä: Tarkennetaan

LuckyTemplates-taloudellinen hallintapaneeli tarjoaa kehittyneet työkalut taloudellisten tietojen analysointiin ja visualisointiin.

SharePoint Automate -ominaisuus | Esittely

Opi käyttämään SharePointin automatisointiominaisuutta työnkulkujen luomiseen ja SharePoint-käyttäjien, kirjastojen ja luetteloiden mikrohallinnassa.

Päivämäärätaulukon luominen LuckyTemplatesissa

Ota selvää, miksi LuckyTemplatesissa on tärkeää pitää oma päivämäärätaulukko ja opi nopein ja tehokkain tapa tehdä se.

LuckyTemplates mobiiliraportointivinkkejä ja -tekniikoita

Tämä lyhyt opetusohjelma korostaa LuckyTemplates-mobiiliraportointiominaisuutta. Näytän sinulle, kuinka voit kehittää raportteja tehokkaasti mobiililaitteille.

Ammattimainen palveluanalyysiraportit LuckyTemplatesissa

Tässä LuckyTemplates Showcase -esittelyssä käymme läpi raportteja, jotka näyttävät ammattitaitoisen palveluanalytiikan yritykseltä, jolla on useita sopimuksia ja asiakkaiden sitoumuksia.

Yleiset SQL-funktiot: Yleiskatsaus

Tutustu joihinkin yleisiin SQL-toimintoihin, joita voimme käyttää, kuten merkkijono, päivämäärä ja joitain lisätoimintoja tietojen käsittelyyn tai käsittelyyn.

Microsoft Power Platform -päivitykset | Microsoft Ignite 2021

Käy läpi tärkeimmät Power Appsin ja Power Automaten päivitykset sekä niiden edut ja vaikutukset Microsoft Power Platformiin.

Kenttäparametrit ja pienet kertoimet LuckyTemplatesissa

Tässä blogissa esittelemme, kuinka kerrostat kenttäparametreja pienillä kerroilla uskomattoman hyödyllisten näkemysten ja visuaalien luomiseksi.

LuckyTemplates-mallin luominen: opas ja vinkkejä

Tässä opetusohjelmassa opit luomaan täydellisen LuckyTemplates-mallin, joka on määritetty tarpeidesi ja mieltymystesi mukaan.

LuckyTemplates-sijoitus ja mukautettu ryhmittely

Tässä blogissa opit käyttämään LuckyTemplates-sijoitus- ja mukautettuja ryhmittelyominaisuuksia näytetietojen segmentoimiseen ja luokitteluun kriteerien mukaan.