- Bagaimana cara menghitung koefisien determinasi?
- Kasus ilustratif
- Penafsiran
- Contoh
- - Contoh 1
- Larutan
- - Contoh 2
- Larutan
- - Contoh 3
- Larutan
- Perbandingan fit
- Kesimpulan
- Referensi
The koefisien determinasi adalah angka antara 0 dan 1 yang mewakili fraksi poin (X, Y) yang mengikuti garis regresi fit dari satu set data dengan dua variabel.
Ini juga dikenal sebagai goodness of fit dan dilambangkan dengan R 2 . Untuk menghitungnya, hasil bagi antara varians data Ŷi yang diestimasi oleh model regresi dan varians data Yi yang sesuai dengan setiap Xi data diambil.
R 2 = Sŷ / Sy
Gambar 1. Koefisien korelasi untuk empat pasang data. Sumber: F. Zapata.
Jika 100% data berada pada garis fungsi regresi, maka koefisien determinasi menjadi 1.
Sebaliknya, jika untuk satu set data dan fungsi fit tertentu koefisien R 2 bergantian menjadi sama dengan 0,5, maka dapat dikatakan bahwa fit adalah 50% memuaskan atau baik.
Demikian pula, ketika hasil model regresi R 2 nilai lebih rendah dari 0,5, ini menunjukkan bahwa fungsi penyesuaian yang dipilih tidak beradaptasi memuaskan untuk data, oleh karena itu perlu untuk mencari fungsi penyesuaian lain.
Dan ketika kovarians atau koefisien korelasi cenderung nol, maka variabel X dan Y dalam data yang tidak terkait, dan karena itu R 2 juga akan cenderung nol.
Bagaimana cara menghitung koefisien determinasi?
Pada bagian sebelumnya dikatakan bahwa koefisien determinasi dihitung dengan mencari hasil bagi antara varian:
-Diperkirakan oleh fungsi regresi variabel Y
-Yaitu dari variabel Yi yang sesuai dengan masing-masing variabel Xi dari pasangan data N.
Dinyatakan secara matematis, terlihat seperti ini:
R 2 = Sŷ / Sy
Dari formula ini berikut bahwa R 2 merupakan proporsi varians dijelaskan oleh model regresi. Alternatifnya, R 2 dapat dihitung menggunakan rumus berikut, sepenuhnya setara dengan rumus sebelumnya:
R 2 = 1 - (Sε / Sy)
Dimana Sε merepresentasikan varian dari residual εi = Ŷi - Yi, sedangkan Sy adalah varian dari himpunan nilai Yi dari data. Untuk menentukan Ŷi digunakan fungsi regresi yang artinya Ŷi = f (Xi).
Varians dari kumpulan data Yi, dengan i dari 1 ke N dihitung dengan cara ini:
Sy =
Dan kemudian lanjutkan dengan cara yang sama untuk Sŷ atau Sε.
Kasus ilustratif
Untuk menunjukkan secara rinci bagaimana perhitungan koefisien determinasi dilakukan, kami akan mengambil empat pasang data berikut:
(X, Y): {(1, 1); (2. 3); (3, 6) dan (4, 7)}.
Kecocokan regresi linier diusulkan untuk kumpulan data ini, yang diperoleh dengan menggunakan metode kuadrat terkecil:
f (x) = 2,1 x - 1
Dengan menerapkan fungsi penyesuaian ini, torsi diperoleh:
(X, Ŷ): {(1, 1.1); (2, 3.2); (3, 5.3) dan (4, 7.4)}.
Kemudian kami menghitung rata-rata aritmatika untuk X dan Y:
Varians Sy
Sy = / (4-1) =
= = 7.583
Varians Sŷ
Sŷ = / (4-1) =
= = 7,35
Koefisien determinasi R 2
R 2 = Sŷ / Sy = 7,35 / 7,58 = 0,97
Penafsiran
Koefisien determinasi untuk kasus ilustratif yang dipertimbangkan pada segmen sebelumnya ternyata 0,98. Dengan kata lain, penyesuaian linier melalui fungsi:
f (x) = 2.1x - 1
Ini 98% dapat diandalkan dalam menjelaskan data yang diperoleh dengan menggunakan metode kuadrat terkecil.
Selain koefisien determinasi, terdapat koefisien korelasi linier atau disebut juga koefisien Pearson. Koefisien ini, dilambangkan sebagai r, dihitung dengan hubungan berikut:
r = Sxy / (Sx Sy)
Di sini pembilang mewakili kovariansi antara variabel X dan Y, sedangkan penyebut adalah hasil kali dari simpangan baku untuk variabel X dan simpangan baku untuk variabel Y.
Koefisien Pearson dapat mengambil nilai antara -1 dan +1. Jika koefisien ini cenderung +1 maka ada korelasi linier langsung antara X dan Y. Jika cenderung -1, ada korelasi linier, tetapi ketika X tumbuh Y menurun. Akhirnya, mendekati 0 tidak ada korelasi antara kedua variabel.
Perlu dicatat bahwa koefisien determinasi bertepatan dengan kuadrat dari koefisien Pearson, hanya jika koefisien pertama telah dihitung berdasarkan kecocokan linier, tetapi persamaan ini tidak berlaku untuk kecocokan non-linier lainnya.
Contoh
- Contoh 1
Sekelompok siswa sekolah menengah berangkat untuk menentukan hukum empiris untuk periode pendulum sebagai fungsi dari panjangnya. Untuk mencapai tujuan ini, mereka melakukan serangkaian pengukuran di mana mereka mengukur waktu osilasi pendulum untuk panjang yang berbeda sehingga mendapatkan nilai sebagai berikut:
Panjang (m) | Periode |
---|---|
0.1 | 0.6 |
0.4 | 1.31 |
0.7 | 1.78 |
satu | 1.93 |
1.3 | 2.19 |
1.6 | 2.66 |
1.9 | 2.77 |
3 | 3.62 |
Itu diminta untuk membuat plot sebar data dan melakukan kesesuaian linier melalui regresi. Juga tunjukkan persamaan regresi dan koefisien determinasi nya.
Larutan
Gambar 2. Grafik solusi untuk latihan 1. Sumber: F. Zapata.
Koefisien determinasi yang cukup tinggi (95%) dapat diamati, sehingga dapat dikatakan bahwa kesesuaian linier sudah optimal. Namun, jika titik-titik tersebut dilihat bersama-sama, mereka tampak cenderung melengkung ke bawah. Detail ini tidak dipertimbangkan dalam model linier.
- Contoh 2
Untuk data yang sama di Contoh 1, buat plot sebar dari data. Pada kesempatan ini, tidak seperti pada contoh 1, penyesuaian regresi diminta menggunakan fungsi potensial.
Gambar 3. Grafik solusi untuk latihan 2. Sumber: F. Zapata.
Juga menunjukkan fungsi fit dan koefisien determinasi R 2 .
Larutan
Fungsi potensial berbentuk f (x) = Ax B , dimana A dan B adalah konstanta yang ditentukan dengan metode kuadrat terkecil.
Gambar sebelumnya menunjukkan fungsi potensial dan parameternya, serta koefisien determinasi dengan nilai yang sangat tinggi yaitu 99%. Perhatikan bahwa data mengikuti kelengkungan garis tren.
- Contoh 3
Dengan menggunakan data yang sama dari Contoh 1 dan Contoh 2, lakukan pencocokan polinom tingkat dua. Tunjukkan grafik, polinomial fit, dan koefisien determinasi R 2 yang sesuai .
Larutan
Gambar 4. Grafik solusi untuk latihan 3. Sumber: F. Zapata.
Dengan kesesuaian polinomial derajat kedua, Anda dapat melihat garis tren yang sangat cocok dengan kelengkungan data. Juga, koefisien determinasi berada di atas kesesuaian linier dan di bawah kecocokan potensial.
Perbandingan fit
Dari tiga kecocokan yang ditampilkan, yang memiliki koefisien determinasi tertinggi adalah potensi kecocokan (contoh 2).
Potensi fit bertepatan dengan teori fisika bandul, yang, seperti diketahui, menetapkan bahwa periode bandul sebanding dengan akar kuadrat panjangnya, konstanta proporsionalitasnya adalah 2π / √g dengan g adalah percepatan gravitasi.
Jenis kesesuaian potensial ini tidak hanya memiliki koefisien determinasi tertinggi, tetapi eksponen dan konstanta proporsionalitas sesuai dengan model fisik.
Kesimpulan
-Penyesuaian regresi menentukan parameter fungsi yang bertujuan untuk menjelaskan data menggunakan metode kuadrat terkecil. Metode ini terdiri dari meminimalkan jumlah selisih kuadrat antara nilai penyesuaian Y dan nilai Yi dari data untuk nilai Xi data. Ini menentukan parameter fungsi tuning.
-Seperti yang telah kita lihat, fungsi penyesuaian yang paling umum adalah garis, tetapi ini bukan satu-satunya, karena penyesuaian juga dapat berupa polinomial, potensial, eksponensial, logaritmik, dan lain-lain.
-Dalam hal apapun, koefisien determinasi bergantung pada data dan jenis penyesuaian dan merupakan indikasi kebaikan dari penyesuaian yang diterapkan.
-Akhirnya, koefisien determinasi menunjukkan persentase variabilitas total antara nilai Y dari data sehubungan dengan nilai adjustment dari penyesuaian untuk X yang diberikan.
Referensi
- González C. Statistik Umum. Diperoleh dari: tarwi.lamolina.edu.pe
- IACS. Institut Ilmu Kesehatan Aragon. Diperoleh dari: ics-aragon.com
- Salazar C. dan Castillo S. Prinsip dasar statistik. (2018). Dipulihkan dari: dspace.uce.edu.ec
- Superprof. Koefisien determinasi. Diperoleh dari: superprof.es
- USAC. Manual statistik deskriptif. (2011). Diperoleh dari: statistics.ingenieria.usac.edu.gt.
- Wikipedia. Koefisien determinasi. Diperoleh dari: es.wikipedia.com.