Šis ir tipisks datu analīzes jautājums, ko mēs laiku pa laikam saņemam:
Man ir izklājlapa ar vairāk nekā 100 000 rindu Excel izklājlapu, kurā ir daudz klientu informācijas, kas man ir jānotīra no dublikātiem. Es domāju, ka saraksta manuāla tīrīšana prasīs dažas dienas. Kolēģis man teica, ka, visticamāk, man būs nepieciešams Excel makro, lai to paveiktu. Mūsu IT puisis, kurš pārzina makro izstrādi, ir atvaļinājumā, tāpēc man tas jāatrisina pašam. Vai ir kāds veids, kā atrisināt šo problēmu, nezinot, kā programmēt?
Jā, ir veids, kā to atrisināt programmā Excel, un tam nav nepieciešamas prasmes ar Visual Basic programmēšanu. Dosimies uz priekšu un ātri atrisināsim šo problēmu.
Dzēsiet Excel dublētās rindas
Lūk, kā atbrīvoties no nevajadzīgiem ierakstiem izklājlapā.
- Vispirms izveidojiet darbgrāmatas kopiju, lai jums būtu dublējums, ja kaut kas noiet greizi.
- Pēc tam atveriet savu Excel izklājlapu.
- Augšējā lentē noklikšķiniet uz cilnes Dati .
- Tagad turpiniet un atlasiet datu diapazonu, kuru vēlaties tīrīt. Noteikti atlasiet arī tabulas galvenes, ja tās ir pieejamas.
- Sadaļā Datu rīki nospiediet pogu Noņemt dublikātus .
- Tagad pārbaudiet attiecīgo sleju, kas palīdzēs noteikt, vai kāds ieraksts jūsu sarakstā ir dublēts. Mūsu gadījumā, izmantojot mūsu demonstrācijas pārdošanas mērķu datu kopu, mēs izmantosim pirmās 3 kolonnas, lai identificētu dublētās rindas.
- Nospiediet OK .
- Tiks parādīts ziņojums, kurā norādīts noņemto ierakstu skaits un tabulā saglabātie ieraksti.
- Noklikšķiniet uz Labi un pārbaudiet modificētās datu kopas pareizību.
- Ja esat apmierināts ar rezultātu, turpiniet un saglabājiet failu. Pretējā gadījumā varat atsaukt izmaiņas ( Rediģēt >> Atsaukt ).
Papildu padomi:
- Līdzīga iespēja ir pieejama programmā Excel PowerQuery, kas ļauj pārveidot nozīmīgas lielākas datu kopas.
- Ja pārzināt Python valodu, varat viegli izmest dublētās rindas no datu kopas, izmantojot Pandas bibliotēku.
Izbaudiet savu datu analīzi 😉