Menggabungkan beberapa file dataset menjadi satu DataFrame merupakan salah satu tantangan sdalam proses persiapan analisis data. Untuk memenuhi kebutuhan stakeholder, data analis akan membutuhkan dan mengumpulkan data terkait yang mungkin saja bersumber dari beberapa dataset. Lalu bagaimana jika data analis perlu menggabungkan beberapa dataset tersebut menjadi sebuah dataframe? Ada beberapa cara yang bisa dilakukan, baik itu menggunakan microsoft excel, R, SQL dan Python.
READ THIS ARTICLE IN ENGLIS, HERE
Dalam artikel ini, saya akan membahas cara menggabungkan file dataset menjadi satu dataframe dengan menggunakan fungsi Concat dari library pandas dalam bahasa pemograman Pyhton.
1. Sumber Dataset
Sebelumnya, saya sedang melakukan data analisis data harian saham dalam index S&P 500 periode 2010 – 2023. Saya mendapatkan dataset tersebut dari Kaggle, berikut link nya S&P 500 daily . Dataset saham S&P 500 terdiri dari data saham-saham harian baik itu data harga close, open, low, high dan volume setiap harinya.
BACA JUGA : TWITTER DATA SCRAPING WITH R
2. Import library yang dibutuhkan
Untuk menggabungkan beberapa file dataset menjadi satu dataframe, kita membutuhkan pandas library untuk menjalankan fungsi concat.
import pandas as pd
import numpy as np
3. Import Dataset
Selanjutnya, import semua dataset yang akan digabungkan dan beri nama setiap dataframe yang baru sesuai dengan nama dataset tersebut.
close = pd.read_excel(r'C:\Users\XX\Documents\SSARAS\Data Analysis\SnP500 All assets (close).xlsx')
open = pd.read_excel(r'C:\Users\XX\Documents\SSARAS\Data Analysis\SnP500 All assets (open).xlsx')
low = pd.read_excel(r'C:\Users\XX\Documents\SSARAS\Data Analysis\SnP500 All assets (low).xlsx')
high = pd.read_excel(r'C:\Users\XX\Documents\SSARAS\Data Analysis\SnP500 All assets (high).xlsx')
volume = pd.read_excel(r'C:\Users\XX\Documents\SSARAS\Data Analysis\SnP500 All assets (volume).xlsx')
Jangan lupa menggunakan ” r’ “sebelum memasukan link lokasi file agar tanda ” \ ” bisa terbaca. berikut langkah untuk mendapatkan link lokasi file dataset yang sudah di download dan tersimpan di komputer :
- Buka folder yang berisi file dataset.
- Klik file dataset.
- Pada menu bar (Home) klik copy path.
- Paste link tersebut pada python code.
- Hilangkan tanda petik ” diawal dan diakhir link path file tersebut.
Masukan kode dibawah untuk melihat setiap dataset yang sudah diimport
print(close)
print(open)
print(low)
print(high)
print(volume)
4. Menggabungkan beberapa dataset menjadi satu DataFrame
Langkah selanjutnya adalah penggabungan dataset. Dalam proses ini saya juga akan mengelompokan setiap data pada dataframe dengan index sesuai jenis data tersebut.
Berikut kode python untuk menggabungkan file dataset menjadi satu dataframe (snpdata dataframe) :
snpdata = pd.concat([close, open, low, high, volume], keys=['close', 'open', 'low', 'high', 'volume'])
print(snpdata)
Mari kita lihat hasil dari proses penggabungan tersebut :
5. Export dataframe baru menjadi file excel
Untuk meng-export dataframe baru menjadi file excel, kita bisa menggunakan code :
snpdata.to_excel('snpdata.xlsx')
Note 1 : Dataframe ini memerlukan index untuk menunjukan kategori dari setiap data, sehingga saya tidak menambahkan kode , index=false dalam kode export tersebut. Jika kode , index=false maka file excel yang dihasilkan tidak akan memunculkan index kategori dari hasil penggabungan.
Note 2 : Jangan lupa ubah format data date menjadi format date jika hasil di export excel file bukan dalam bentuk tanggal.
6. Kesimpulan
Menggabungkan beberapa file dataset menjadi satu DataFrame dengan concat dalam Python membantu proses analisis data menjadi lebih mudah dan efisien. Namun perlu di ingat, proses persiapan data harus disesuaikan dengan kebutuhan dan tujuan dari analisis data itu sendiri.
Semoga artikel ini bisa membantu proses analisis data yang sedang kamu kerjakan. Ada beberapa jenis penggabungan dataset yang lain yang akan saya bahas selanjutnya. Jadi jangan lupa untuk subscribe newsletter di website ini ya, saya akan kirimkan notifikasi ke email kalian untuk setiap postingan terbaru di website ini. Kalau ada ide atau pertanyaan lain yang kira-kira ingin dibahas, please tulis di kolom komentar ya. Thank You