Menggabungkan dataset menjadi satu DataFrame dengan Concat Python

Menggabungkan dataset menjadi satu DataFrame

Menggabungkan dataset menjadi satu DataFrame dengan Concat Python

Menggabungkan beberapa file dataset menjadi satu DataFrame merupakan salah satu tantangan sdalam proses persiapan analisis data. Untuk memenuhi kebutuhan stakeholder, data analis akan membutuhkan dan mengumpulkan data terkait yang mungkin saja bersumber dari beberapa dataset. Lalu bagaimana jika data analis perlu menggabungkan beberapa dataset tersebut menjadi sebuah dataframe? Ada beberapa cara yang bisa dilakukan, baik itu menggunakan microsoft excel, R, SQL dan Python.

READ THIS ARTICLE IN ENGLIS, HERE

Dalam artikel ini, saya akan membahas cara menggabungkan file dataset menjadi satu dataframe dengan menggunakan fungsi Concat dari library pandas dalam bahasa pemograman Pyhton.

1. Sumber Dataset

Sebelumnya, saya sedang melakukan data analisis data harian saham dalam index S&P 500 periode 2010 – 2023. Saya mendapatkan dataset tersebut dari Kaggle, berikut link nya S&P 500 daily . Dataset saham S&P 500 terdiri dari data saham-saham harian baik itu data harga close, open, low, high dan volume setiap harinya.

Contoh tampilan salah satu dataset

BACA JUGA : TWITTER DATA SCRAPING WITH R

2. Import library yang dibutuhkan

Untuk menggabungkan beberapa file dataset menjadi satu dataframe, kita membutuhkan pandas library untuk menjalankan fungsi concat.

import pandas as pd
import numpy as np

3. Import Dataset

Selanjutnya, import semua dataset yang akan digabungkan dan beri nama setiap dataframe yang baru sesuai dengan nama dataset tersebut.

close = pd.read_excel(r'C:\Users\XX\Documents\SSARAS\Data Analysis\SnP500 All assets (close).xlsx')
open = pd.read_excel(r'C:\Users\XX\Documents\SSARAS\Data Analysis\SnP500 All assets (open).xlsx')
low = pd.read_excel(r'C:\Users\XX\Documents\SSARAS\Data Analysis\SnP500 All assets (low).xlsx')
high = pd.read_excel(r'C:\Users\XX\Documents\SSARAS\Data Analysis\SnP500 All assets (high).xlsx')
volume = pd.read_excel(r'C:\Users\XX\Documents\SSARAS\Data Analysis\SnP500 All assets (volume).xlsx')

Jangan lupa menggunakan ” r’ “sebelum memasukan link lokasi file agar tanda ” \ ” bisa terbaca. berikut langkah untuk mendapatkan link lokasi file dataset yang sudah di download dan tersimpan di komputer :

  1. Buka folder yang berisi file dataset.
  2. Klik file dataset.
  3. Pada menu bar (Home) klik copy path.
  4. Paste link tersebut pada python code.
  5. Hilangkan tanda petik ” diawal dan diakhir link path file tersebut.

Masukan kode dibawah untuk melihat setiap dataset yang sudah diimport

print(close)
print(open)
print(low)
print(high)
print(volume)

4. Menggabungkan beberapa dataset menjadi satu DataFrame

Langkah selanjutnya adalah penggabungan dataset. Dalam proses ini saya juga akan mengelompokan setiap data pada dataframe dengan index sesuai jenis data tersebut.

Menggabungkan dataset menjadi satu DataFrame

Berikut kode python untuk menggabungkan file dataset menjadi satu dataframe (snpdata dataframe) :

snpdata = pd.concat([close, open, low, high, volume], keys=['close', 'open', 'low', 'high', 'volume'])
print(snpdata)

Mari kita lihat hasil dari proses penggabungan tersebut :

Menggabungkan dataset menjadi satu DataFrame

5. Export dataframe baru menjadi file excel

Untuk meng-export dataframe baru menjadi file excel, kita bisa menggunakan code :

snpdata.to_excel('snpdata.xlsx')

Note 1 : Dataframe ini memerlukan index untuk menunjukan kategori dari setiap data, sehingga saya tidak menambahkan kode , index=false dalam kode export tersebut. Jika kode , index=false maka file excel yang dihasilkan tidak akan memunculkan index kategori dari hasil penggabungan.

Hasil penggabungan dataset (excel file)

Note 2 : Jangan lupa ubah format data date menjadi format date jika hasil di export excel file bukan dalam bentuk tanggal.

6. Kesimpulan

Menggabungkan beberapa file dataset menjadi satu DataFrame dengan concat dalam Python membantu proses analisis data menjadi lebih mudah dan efisien. Namun perlu di ingat, proses persiapan data harus disesuaikan dengan kebutuhan dan tujuan dari analisis data itu sendiri.

Semoga artikel ini bisa membantu proses analisis data yang sedang kamu kerjakan. Ada beberapa jenis penggabungan dataset yang lain yang akan saya bahas selanjutnya. Jadi jangan lupa untuk subscribe newsletter di website ini ya, saya akan kirimkan notifikasi ke email kalian untuk setiap postingan terbaru di website ini. Kalau ada ide atau pertanyaan lain yang kira-kira ingin dibahas, please tulis di kolom komentar ya. Thank You

Let's connect

Leave a Reply

Your email address will not be published. Required fields are marked *

Back To Top
Translate ยป