Perbedaan Error dengan Residual

24 04 2008

Seringkali ditemui di lapangan, bahwa para pengguna statistika kurang paham mengenai beda antara istilah residual dengan error. Kasus ini sering ditemui dalam konsep regresi. Walaupun kedua istilah ini di dalam bahasa Indonesia memiliki terjemahan yang sama, yaitu galat, namun demikian, keduanya sebenarnya memiliki perbedaan.

Secara matematis:

Residual adalah selisih antara nilai duga (predicted value) dengan nilai pengamatan sebenarnya apabila data yang digunakan adalah data sampel.

Error adalah selisih antara nilai duga (predicted value) dengan nilai pengamatan yang sebenarnya apabila data yang digunakan adalah data populasi.

Persamaan keduanya : merupakan selisih antara nilai duga (predicted value) dengan pengamatan sebenarnya.

Perbedaan keduanya: residual dari data sampel, error dari data populasi.

🙂

*Predicted value adalah nilai duga yang dihasilkan dari model regresi yang diperoleh. Misal model regresi yang diperoleh: y = 2+3x. Apabila kita memasukkan nilai x = 1, maka predicted value dalam kasus ini  adalah y = 2+3*1 = 5.





Dummy Trap

30 03 2008

Mungkin istilah ini agak asing di telinga para pengguna metode statistika yang belum pernah mempelajari Analisis Regresi dengan variabel dummy (RVD). Yup, dummy trap berarti “jebakan” yang mungkin akan menjerat para pengguna RVD. Jebakannya berupa munculnya kasus multikolinieritas dalam model RVD.

Dummy trap terjadi apabila banyaknya variabel dummy yang digunakan sama banyak dengan banyaknya kategori dalam setiap variabel yang akan di jadikan variabel dummy.

Contoh: terdapat variabel jenis kelamin yang akan dijadikan variabel dummy. Kita tahu bahwa variabel jenis kelamin memiliki 2 kategori, yaitu Pria dan Wanita. Apabila analis menggunakan 2 buah variabel dummy, misal DP (dummy untuk Pria) dan DW (dummy untuk wanita), maka kasus multikolinieritas akan muncul. Hal ini disebabkan karena untuk setiap baris data yang berbentuk baris-kolom (matriks), baris ke-i pada kolom DP yang bernilai 1 berkenaan dengan nilai 0 pada baris ke-i kolom DW. Maksudnya, untuk setiap baris ke-i kolom DP yang bernilai 1, kolom DW selalu bernilai 0. Demikian juga untuk setiap baris ke-k kolom DP yang bernilai 0, kolom DW baris ke-k selalu bernilai 1. Hal inilah yang menyebabkan terjadinya korelasi.

Kalo diantara pembaca ada yang pernah belajar aljabar matriks, apabila nilai suatu kolom berhubungan dengan kolom yang lain, maka nilai determinan matriks tersebut bernilai nol. Nah, kita tahu di dalam aljabar perhitungan regresi linier, untuk mendapatkan koefisien regresi, perhitungan dilakukan menggunakan sistem matriks. Kalo determinan matriks tidak ditemukan, maka invers dari suatu matriks tidak dapat ditemukan juga, sehingga nilai koefisien regresi linier menjadi tak hingga.

Untuk menghindari terjerat dummy trap, maka seharusnya banyaknya variabel dummy yang boleh dibentuk sesuai rumus:

banyak_var_dummy = banyaknya_kategori_variabel – 1

Dengan demikian, banyak variabel yang bisa dibentuk dari kasus di atas adalah: 2-1 = 1 buah variabel dummy agar tidak terjerat dummy trap.

🙂





Autokorelasi

19 03 2008

Autokorelasi dalam konsep regresi linier berarti komponen error berkorelasi berdasarkan urutan waktu (pada data timeseries) atau urutan ruang (pada data cross-sectional).

Contoh data timeseries (terdapat urutan waktu) misalnya pengaruh biaya iklan terhadap penjualan dari bulan januari hingga bulan desember. Sedangkan data cross-sectional adalah data yang tidak ada urutan waktu, misal pengaruh konsentrasi zat X terhadap kecepatan reaksi suatu senyawa kimia.

Untuk mendeteksi ada atau tidaknya autokorelasi, dapat dilakukan dengan menggunakan statistik uji Durbin-Watson. Apabila nilai D-W berada di sekitar angka 2, berarti model regresi kita aman dari kondisi heteroskedastisitas.

Daftar Pustaka:

Gujarati, D. 1991. Ekonometrika Dasar. Penerbit Erlangga. Jakarta.

Kutner, M.H., C.J. Nachtsheim dan J. Neter. 2004. Applied Linear Regression Models.         Fourth Ed. The McGraw-Hill Company, Inc. New York.





Multikolinieritas

19 03 2008

Multikolinieritas adalah suatu kondisi dimana terjadi korelasi yang kuat diantara variabel-variabel bebas (X) yang diikutsertakan dalam pembentukan model regresi linier. Jelas bahwa multikolinieritas adalah suatu kondisi yang menyalahi asumsi regresi linier. Tentu saja, multikolinieritas TIDAK MUNGKIN TERJADI apabila variabel bebas (X) yang diikutsertakan hanya satu.

Ciri-ciri yang sering ditemui apabila model regresi linier kita mengalami multikolinieritas adalah:

  1. Terjadi perubahan yang berarti pada koefisien model regresi (misal nilainya menjadi lebih besar atau kecil) apabila dilakukan penambahan atau pengeluaran sebuah variabel bebas dari model regresi.

  2. Diperoleh nilai R-square yang besar, sedangkan koefisien regresi tidak signifikan pada uji parsial.

  3. Tanda (+ atau -) pada koefisien model regresi berlawanan dengan yang disebutkan dalam teori (atau logika). Misal, pada teori (atau logika) seharusnya b1 bertanda (+), namun yang diperoleh justru bertanda (-).

  4. Nilai standard error untuk koefisien regresi menjadi lebih besar dari yang sebenarnya (overestimated)

Untuk mendeteksi apakah model regresi kita mengalami multikolinieritas, dapat diperiksa menggunakan VIF. VIF merupakan singkatan dari Variance Inflation Factor. Nilai VIF > 10 berarti telah terjadi multikolinieritas yang serius di dalam model regresi kita.

Daftar Pustaka:

Gujarati, D. 1991. Ekonometrika Dasar. Penerbit Erlangga. Jakarta.

Kutner, M.H., C.J. Nachtsheim dan J. Neter. 2004. Applied Linear Regression Models.         Fourth Ed. The McGraw-Hill Company, Inc. New York.

 





Heteroskedastisitas

19 03 2008

Salah satu asumsi regresi linier yang harus dipenuhi adalah homogenitas ragam dari error (homoskedastisitas; homoscedasticity). Homoskedastisitas berarti bahwa ragam dari error bersifat konstan.

Salah satu statistik uji yang dapat digunakan untuk menguji apakah ragam dari error bersifat homoskedastik atau tidak adalah Breusch-Pagan Test. Menurut Kutner, dkk (2004), uji ini mengasumsikan bahwa komponen error adalah independen dan tersebar normal. Selain itu, ragam dari error berhubungan dengan level dari variabel bebas X yang dirumuskan sebagai berikut:

ln sigma_sq = b0 + b1X1 + b2X2 + …

Untuk menghitung Breusch-Pagan Test, langkah yang harus dilakukan adalah melakukan regresi e_sq (sbg var terikat Y) terhadap variabel X (sebagai variabel independen, bebas). Kemudian mengambil nilai Jumlah Kuadrat Regresi (JKR) serta Jumlah Kuadrat Galatnya (JKG) untuk dimasukkan ke dalam rumus:

BP = (0.5*SSR) / ((JKG/n)^2)

BP mengikuti sebaran chi-square, dengan derajat bebas db = banyaknya var bebas yang diikutsertakan (tidak termasuk intersep).

Keterangan:

BP = nilai statistik uji Breusch-Pagan Test

ln = logaritma natural

sigma_sq = nilai ragam error

e_sq = error kuadrat. Pada proses perhitungan, e_sq adalah nilai residual kuadrat dari model regresi Y = b0 + b1X1 + b2X2 + …

Daftar Pustaka:

Hothorn, T., A. Zeileis, G. Millo dan D. Mitchell. 2007. Breusch-Pagan Test help page. R         Software.

Kutner, M.H., C.J. Nachtsheim dan J. Neter. 2004. Applied Linear Regression Models.         Fourth Ed. The McGraw-Hill Company, Inc. New York.





Asumsi Kenormalan Pada Error Model Regresi Linier

23 10 2007

Seperti yang telah diketahui bersama, model regresi mengasumsikan bahwa error menyebar mengikuti sebaran (distribusi) normal, dengan rata-rata nol dan simpangan baku tertentu. Pertanyaannya, bagaimanakah cara menguji asumsi kenormalan dari error model regresi. Baca entri selengkapnya »





Ternyata, Intersep Tak Selalu Bermakna

22 10 2007

Contoh Persamaan Regresi:
Y = 2 + 10X ……..(1)
Y = variabel respon; X = variabel prediktor/bebas
Angka 2 pada persamaan (1) biasanya disebut sebagai intersep, sedangkan angka 10 biasanya disebut sebagai slope. Baca entri selengkapnya »





Analisis Regresi Dengan Variabel Dummy

17 08 2007

Regresi Linier tidak hanya terbatas digunakan untuk memodelkan hubungan dimana variabel bebas (X) bertipe data interval atau rasio saja. Regresi linier juga memungkinkan bila digunakan untuk melakukan analisis data bila variabel bebasnya (X) bertipe data nominal. Teknik semacam ini dikenal dengan nama regresi variabel dummy. Baca entri selengkapnya »





Korelasi

2 08 2007

Untuk mengetahui seberapa erat hubungan antara 2 buah (atau lebih) variabel, digunakan metode korelasi, Baca entri selengkapnya »





Regresi linier

2 08 2007

Regresi linier digunakan untuk membentuk model hubungan antara variabel bebas dengan variabel respon. Baca entri selengkapnya »