اعتبار سنجی متقابل(Cross Validation)

یکی از مهم ترین روش های به دست آوردن تخمین خطای مدل از طریق داده های تست،  روش اعتبار سنجی متقابل (Cross Validation) می باشد که در این بخش قصد داریم در مورد یکی از  روش های آن، یعنی روش “K-fold cross validation” صحبت کنیم که به ما ایده انتخاب مدل نهایی و بهترین مدل را می دهد. در این روش به صورت تصادفی داده ها را به K بخش به طور یکسان تقسیم میکنیم به طوری که درهرمجموعه تقریبا nk مشاهده برای k=1,…,K قرار بگیرد. برای مثال فرض کنید K=5 و N=150 تعداد کل مشاهدات ما باشد. بنابراین ما با 5 مجموعه که در هر مجموعه 30 مشاهده قرار دارد سرو کار داریم.  اکنون بخش اول از این 5 مجموعه را  به عنوان مشاهدات مربوط به داده های تست در نظر میگیریم و مدل را با  را با 4  بخش باقیمانده آموزش می دهیم. سپس میانگین مربعات خطای مربوط به داده های تست دراین بخش اول را محاسبه کنیم. اکنون بخش دوم را با تعداد تصادفی 30 مشاهده به عنوان داده تست در نظر میگیریم و مدل را با 4 بخش باقیمانده آموزش می دهیم و سپس میانگین مربعات خطای مربوط به داده های تست در این بخش دوم را محاسبه کنیم. ودرنهایت برای هر 5 مجموعه داده تست، میانگین مربعات خطا را حساب می کنیم.  اکنون برای به دست آوردن میزان خطای کل مدل، متوسط میانگین مربعات خطای به دست آمده در هر بخش را محاسبه میکنیم.(K=5)