- Pentingnya homoskedastisitas
- Homoskedastisitas versus heteroskedastisitas
- Tes homoskedastisitas
- Variabel standar
- Tes non-grafis dari homoskedastisitas
- Referensi
The homoscedasticity dalam model statistik prediksi terjadi jika semua kelompok data satu atau lebih pengamatan, varians (atau independen) pola dengan sehubungan dengan variabel penjelas tetap konstan.
Sebuah model regresi bisa homoscedastic atau tidak, dalam hal ini kita berbicara tentang heteroskedastisitas.
Gambar 1. Lima kumpulan data dan kesesuaian regresi dari kumpulan tersebut. Varians sehubungan dengan nilai prediksi adalah sama di setiap kelompok. (upav-biblioteca.org)
Model regresi statistik dari beberapa variabel independen disebut homoscedastic, hanya jika varians kesalahan variabel yang diprediksi (atau deviasi standar variabel dependen) tetap seragam untuk kelompok nilai yang berbeda dari variabel penjelas atau variabel independen.
Dalam lima kelompok data pada Gambar 1, varians di setiap kelompok telah dihitung, sehubungan dengan nilai yang diperkirakan oleh regresi, ternyata sama di setiap kelompok. Selanjutnya diasumsikan bahwa data mengikuti distribusi normal.
Pada tingkat grafis, hal ini berarti bahwa titik-titik tersebut sama-sama tersebar atau tersebar di sekitar nilai yang diprediksi oleh kesesuaian regresi, dan bahwa model regresi memiliki kesalahan dan validitas yang sama untuk rentang variabel penjelas.
Pentingnya homoskedastisitas
Untuk menggambarkan pentingnya homoskedastisitas dalam statistik prediktif, perlu kontras dengan fenomena yang berlawanan, heteroskedastisitas.
Homoskedastisitas versus heteroskedastisitas
Dalam kasus gambar 1, di mana terdapat homoskedastisitas, memang benar bahwa:
Var ((y1-Y1); X1) ≈ Var ((y2-Y2); X2) ≈ …… Var ((y4-Y4); X4)
Dimana Var ((yi-Yi); Xi) mewakili varians, pasangan (xi, yi) mewakili data dari grup i, sedangkan Yi adalah nilai yang diprediksi oleh regresi untuk nilai rata-rata Xi grup. Varians dari n data dari kelompok i dihitung sebagai berikut:
Var ((yi-Yi); Xi) = ∑j (yij - Yi) ^ 2 / n
Sebaliknya, ketika terjadi heteroskedastisitas, model regresi mungkin tidak valid untuk seluruh wilayah di mana model tersebut dihitung. Gambar 2 menunjukkan contoh situasi ini.
Gambar 2. Kelompok data yang menunjukkan heteroskedastisitas. (Elaborasi sendiri)
Gambar 2 mewakili tiga kelompok data dan kesesuaian himpunan menggunakan regresi linier. Perlu dicatat bahwa data pada kelompok kedua dan ketiga lebih tersebar dibandingkan pada kelompok pertama. Grafik pada gambar 2 juga menunjukkan nilai rata-rata setiap kelompok dan bilah kesalahannya ± σ, dengan simpangan baku σ dari setiap kelompok data. Harus diingat bahwa simpangan baku σ adalah akar kuadrat dari varians.
Jelas bahwa dalam kasus heteroskedastisitas, kesalahan estimasi regresi berubah dalam kisaran nilai variabel penjelas atau independen, dan dalam interval di mana kesalahan ini sangat besar, prediksi regresi tidak dapat diandalkan atau tak dapat diterapkan.
Dalam model regresi kesalahan atau residu (dan -Y) harus didistribusikan dengan varian yang sama (σ ^ 2) di seluruh interval nilai variabel independen. Oleh karena itu model regresi yang baik (linier maupun nonlinier) harus lulus uji homoskedastisitas.
Tes homoskedastisitas
Poin-poin yang ditunjukkan pada gambar 3 sesuai dengan data penelitian yang mencari hubungan antara harga (dalam dolar) rumah sebagai fungsi dari ukuran atau luas dalam meter persegi.
Model pertama yang akan diuji adalah model regresi linier. Pertama-tama, diketahui bahwa koefisien determinasi R ^ 2 dari fit tersebut cukup tinggi (91%), sehingga dapat dikatakan kecocokan tersebut memuaskan.
Namun, dua wilayah dapat dengan jelas dibedakan dari grafik penyesuaian. Salah satunya, yang di sebelah kanan diapit oval, memenuhi homoskedastisitas, sedangkan daerah di sebelah kiri tidak ada yang homoskedastisitas.
Ini berarti bahwa prediksi model regresi cukup memadai dan dapat diandalkan dalam kisaran dari 1800 m ^ 2 hingga 4800 m ^ 2 tetapi sangat tidak memadai di luar wilayah ini. Dalam zona heteroskedastis, tidak hanya kesalahannya sangat besar, tetapi juga data tampaknya mengikuti tren yang berbeda dari yang diusulkan oleh model regresi linier.
Gambar 3. Harga rumah vs luas dan model prediksi dengan regresi linier, menunjukkan zona homoskedastisitas dan heteroskedastisitas. (Elaborasi sendiri)
Grafik sebaran data adalah uji homoskedastisitas yang paling sederhana dan paling visual, namun, pada kesempatan di mana tidak terbukti seperti pada contoh yang ditunjukkan pada gambar 3, perlu menggunakan grafik dengan variabel tambahan.
Variabel standar
Untuk memisahkan area di mana homoskedastisitas terpenuhi dan yang tidak terpenuhi, variabel standar ZRes dan ZPred diperkenalkan:
ZRes = Abs (y - Y) / σ
ZPred = Y / σ
Perlu dicatat bahwa variabel-variabel ini bergantung pada model regresi yang diterapkan, karena Y adalah nilai prediksi regresi. Di bawah ini adalah plot pencar ZRes vs ZPred untuk contoh yang sama:
Gambar 4. Perlu dicatat bahwa pada zona homoskedastisitas ZRes tetap seragam dan kecil di wilayah prediksi (Penjelasan sendiri).
Pada grafik pada Gambar 4 dengan variabel standar, area di mana kesalahan residual kecil dan seragam dipisahkan dengan jelas dari area yang tidak. Pada zona pertama homoskedastisitas terpenuhi, sedangkan pada kawasan dimana residual error sangat bervariasi dan besar heteroskedastisitas terpenuhi.
Penyesuaian regresi diterapkan pada kelompok data yang sama pada gambar 3, dalam hal ini penyesuaiannya non linier, karena model yang digunakan melibatkan fungsi potensial. Hasilnya ditunjukkan pada gambar berikut:
Gambar 5. Zona baru homoskedastisitas dan heteroskedastisitas dalam data pas dengan model regresi non-linier. (Elaborasi sendiri).
Pada grafik Gambar 5, area homoscedastic dan heteroscedastic harus diperhatikan dengan jelas. Perlu juga dicatat bahwa zona ini dipertukarkan sehubungan dengan zona yang dibentuk dalam model fit linier.
Pada grafik Gambar 5 terbukti bahwa meskipun terdapat koefisien determinasi yang cukup tinggi (93,5%), model tersebut tidak memadai untuk seluruh interval variabel penjelas, karena data untuk nilai lebih dari 2000 m ^ 2 menghadirkan heteroskedastisitas.
Tes non-grafis dari homoskedastisitas
Salah satu tes non-grafis yang paling banyak digunakan untuk memverifikasi apakah homoskedastisitas terpenuhi atau tidak adalah tes Breusch-Pagan.
Tidak semua detail dari tes ini akan diberikan dalam artikel ini, tetapi karakteristik fundamentalnya dan langkah-langkahnya secara kasar diuraikan:
- Model regresi diterapkan pada n data dan varian yang sama dihitung sehubungan dengan nilai yang diperkirakan oleh model σ ^ 2 = ∑j (yj - Y) ^ 2 / n.
- Variabel baru didefinisikan ε = ((yj - Y) ^ 2) / (σ ^ 2)
- Model regresi yang sama diterapkan ke variabel baru dan parameter regresi barunya dihitung.
- Nilai kritis Chi kuadrat (χ ^ 2) ditentukan, ini adalah setengah dari jumlah kuadrat residual baru dalam variabel ε.
- Tabel distribusi Chi kuadrat digunakan dengan mempertimbangkan tingkat signifikansi (biasanya 5%) dan jumlah derajat kebebasan (# variabel regresi dikurangi satuan) pada sumbu x pada tabel, untuk mendapatkan nilai papan.
- Nilai kritis yang diperoleh pada langkah 3 dibandingkan dengan nilai yang ditemukan pada tabel (χ ^ 2).
- Jika nilai kritis di bawah tabel, kami memiliki hipotesis nol: ada homoskedastisitas
- Jika nilai kritis di atas tabel, kita memiliki hipotesis alternatif: tidak ada homoskedastisitas.
Sebagian besar paket perangkat lunak statistik seperti: SPSS, MiniTab, R, Python Pandas, SAS, StatGraphic dan beberapa lainnya menyertakan uji homoskedastisitas Breusch-Pagan. Tes lain untuk memverifikasi keseragaman varians adalah tes Levene.
Referensi
- Box, Hunter & Hunter. (1988) Statistik untuk peneliti. Saya membalikkan editor.
- Johnston, J (1989). Metode ekonometrika, editor Vicens -Vives.
- Murillo dan González (2000). Manual Ekonometrika. Universitas Las Palmas de Gran Canaria. Diperoleh dari: ulpgc.es.
- Wikipedia. Homoskedastisitas. Diperoleh dari: es.wikipedia.com
- Wikipedia. Homoskedastisitas. Diperoleh dari: en.wikipedia.com