Unlimited Plugins, WordPress themes, videos & courses! Unlimited asset downloads! From $16.50/m
Advertisement
  1. Code
  2. Python

Memperkenalkan Pandas

by
Read Time:6 minsLanguages:

Indonesian (Bahasa Indonesia) translation by Yosef Andreas (you can also view the original English article)

Dalam tutorial ini saya akan memberikan pengenalan mendasar tentang pandas. Oh, yang saya maksudkan bukan hewan panda, namun sebuah librari Python!

Seperti yang disebutkan dalam website pandas:

pandas adalah sebuah librari berlisensi BSD dan open source yang menyediakan struktur data dan analisis data yang mudah digunakan dan berkinerja tinggi untuk bahasa pemrograman Python.

Dengan demikian, pandas adalah librari analisis data yang memiliki struktur data yang kita perlukan untuk membersihkan data mentah ke dalam sebuah bentuk yang cocok untuk analisis (yaitu tabel). Penting untuk dicatat di sini bahwa karena pandas melakukan tugas penting seperti menyelaraskan data untuk perbandingan dan penggabungan set data, penanganan data yang hilang, dll, itu telah menjadi sebuah librari de facto untuk pemrosesan data tingkat tinggi dalam Python (yaitu statistik). Nah, pandas mulanya didesain untuk menangani data finansial, dikarenakan altenatif umum adalah menggunakan spreadsheet (misalnya Microsoft Excel).

Struktur data dasar pandas dinamakan DataFrame, yaitu sebuah koleksi kolom berurutan dengan nama dan jenis, dengan demikian merupakan sebuah tabel yang tampak seperti database dimana sebuah baris tunggal mewakili sebuah contoh tunggal dan kolom mewakili atribut tertentu. Harus dicatat di sini bahwa elemen dalam berbagai kolom mungkin berapa jenis yang berbeda.

Jadi, garis bawahnya adalah bahwa librari pandas menyediakan kita dengan struktur data function yang diperlukan untuk analisis data.

Menginstal Pandas

Mari lihat bagaimana kita dapat menginstal pandas pada mesin kita dan menggunakannya untuk analisis data Cara termudah untuk menginstal pandas dan menghindari permasalahan dependency adalah dengan menggunakan Anaconda dimana pandas merupakan bagiannya. Seperti yang disebutkan dalam halaman download Anaconda:

Anaconda merupakan distribusi Python yang benar-benar gratis (termasuk untuk penggunaan komersial dan redistribusi). Itu berisi lebih dari 400 paket Python paling populer untuk sains, matematika, tehnik, dan analisis data

Distribusi Anaconda merupakan cross-platform, yang berarti bahwa itu dapat diinstal pada mesin OS X, Windows, dan Linux. Saya akan menggunakan installer OS X karena saya berkerja menggunakan mesin OS X El Capitan, namun tentu saja kamu dapat memilih installer yang cocok dengan sistem operasimu. Saya akan melanjutkan dengan installer grafikal (hati-hati, ukurannya 339 MB).

Anaconda Mac OS X graphical installerAnaconda Mac OS X graphical installerAnaconda Mac OS X graphical installer
Installer Grafikal Anaconda Untuk Mac OS X

Setelah mendownload installer, cukup ikuti tahap instalasi dan kamu sudah siap!

Semua yang perlu kita lakukan sekarang untuk menggunakan pandas adalah mengimpor paket sebagai berikut:

Struktur Data Pandas

Saya telah menyebutkan salah satu struktur data pandas di atas, DataFrame. Saya akan menjelaskan struktur data ini di dalam section ini sebagai tambahan untuk struktur data pandas lainnya, Series. Ada struktur data lainnya bernama Panel, namun saya tidak akan menjelaskan itu di dalam tutorial ini karena itu tidak sering digunakan, seperti yang disebutkan di dalam dokumentasi. DataFrame adalah struktur data 2D, Series adalah struktur data 1D, dan Panel adalah struktur data 3D dan lebih tinggi.

DataFrame

DataFrame adalah struktur data tabular yang disusun pada kolom dan baris berurut. Untuk membuatnya lebih jelas, mari lihat contoh pembuatan sebuah DataFrame (tabel) dari kamus sebuah daftar. Contoh berikut menunjukkan sebuah kamus berisi dua kunci, Name dan Age, dan daftar nilainya.

Jika kamu menjalankan script di atas, kamu harusnya mendapatkan sebuah input mirip dengan di bawah ini:

pandas DataFramepandas DataFramepandas DataFrame

Perhatikan bahwa constructor DataFrame mengurutkan kolom secara alfabetis. Jika kamu ingin mengubah urutan kolom, kamu dapat mengetikkan hal berikut di bawah data_frame di atas:

Untuk melihat hasilnya, cukup ketik: print data_frame_2.

Katakan kamu tidak ingin menggunakan label default 0,1,2..., dan ingin menggunakan a, b, c,... sebagai gantinya. Dalam kasus itu, kamu dapat menggunakan index di dalam script di atas sebagai berikut:

Itu sangat bagus, bukan? Dengan menggunakan DataFrame, kita dapat melihat data kita tertata dalam sebuah bentuk tabular.

Series

Series adalah struktur data pandas kedua yang akan saya bicarakan. Series adalah object satu dimensi (1D) yang serupa dengan kolom di dalam tabel. Jika kita ingin membuat sebuah Series untuk daftar nama, kita dapat melakukan di bawah ini:

Output script ini akan berupa sebagai berikut:

Series outputSeries outputSeries output

Perhatikan bahwa kita menggunakan index untuk melabeli data. Jika tidak, label default akan mulai dari 0,1,2...

Function Pandas

Dalam section ini, saya akan menunjukkan contoh beberapa function yang dapat kita gunakan dengan DataFrame dan Series.

Head dan Tail

Function head() dan tail() mengijinkan kita untuk melihat sebuah sampel data, khususnya ketika kita memiliki jumlah entri yang besar. Jumlah default dari elemen yang ditampilkan adalah 5, namun kamu dapat mengkustomasi angkanya sesukamu.

Mari katakan kita memiliki sebuah Series yang disusun dari 20,000 item (angka) secara acak:

Dengan menggunakan method head() dan tail() untuk mengamati lima item pertama dan lima item terakhir, kita dapat melakukan di bawah ini:

Output script ini harusnya serupa dengan di bawah (perhatikan bahwa kamu mungkin memiliki nilai yang berbeda karena kita membentuk nilai acak):

pandas head and tail functionspandas head and tail functionspandas head and tail functions

Add

Mari ambil contoh function add(), dimana kita akan berusaha untuk menambahkan dua data frames sebagai berikut:

Output dari script di atas adalah:

pandas add functionpandas add functionpandas add function

Kamu dapat juga melakukan proses penambahan ini dengan cukup menggunakan operator +: data_frame_3 = data_frame_1 + data_frame_2.

Describe

Sebuah function pandas yang sangat bagus adalah describe(), yang membuat berbagai ringkasan statistik data kita. Sebagai contoh dalam section terakhir, mari lakukan berikut ini:

Output dari operasi ini akan berupa:

pandas describe functionpandas describe functionpandas describe function

Sumber Lebih Lanjut

Ini hanyalah sebuah goresan pada permukaan pandas dalam Python. Untuk lebih detail, kamu dapat memeriksa dokumentasi pandas, dan kamu juga dapat memeriksa beberapa buku seperti Mempelajari Pandas dan Menguasai Pandas.

Kesimpulan

Ilmuwan terkadang perlu melakukan beberapa operasi statistik dan menampilkan beberapa grafik rapi yang menuntut mereka untuk menggunakan sebuah bahasa pemrograman. Namun, pada saat yang sama, mereka tidak ingin menghabiskan terlalu banyak waktu atau dihadapkan dengan kurva pembelajaran yang serius dalam melakukan tugas semacam itu.

Seperti yang kita lihat dalam tutorial ini, pandas mengijinkan kita untuk menyajikan ulang data dalam bentuk tabular dan melakukan beberapa operasi pada tabel tersebut dalam cara yang sangat sederhana. Dengan mengkombinasikan pandas dengan librari Python lainnya, ilmuwan bahkan dapat melakukan lebih banyak tugas lanjutan seperti menggambar grafik khusus untuk data mereka.

Dengan demikian, pandas merupakan sebuah librari dan titik awal yang berguna untuk ilmuwan, ahli ekonomi, ahli statistik, dan siapapun yang ingin melakukan beberapa tugas analisis data.

Advertisement
Did you find this post useful?
Advertisement
Looking for something to help kick start your next project?
Envato Market has a range of items for sale to help get you started.