گام پیشرو اغلب یک مدل بیش برازش میسازد (یک مدل بیش برازش، برازش خوبی برای داده های مورد استفاده برای ساخت مدل دارد اما برای داده های جدید قابل تعمیم نیست). برای ساخت مدلی با توان تعمیم بهتر، گام پسرو مدل را تصحیح می کند. در آن، بخشها یکی یکی ، با حذف بخش با کمترین اثر در هر گام، حذف میشوند تا اینکه بهترین زیرمدل پیدا شود. زیرمدلها با بهره گرفتن از معیار اعتبارسنجی متقابل تعمیمیافته (GCV) که در بخش بعد بیان می شود، مقایسه میشوند.
۱-۴-۳ اعتبارسنجی متقابل تعمیمیافته
در گام پسرو از اعتبارسنجی متقابل تعمیمیافته برای مقایسه عملکرد زیرمجموعههای مدل برای انتخاب بهترین زیرمجموعه استفاده می شود. مقدار کمتر اعتبارسنجی متقابل تعمیمیافته مناسبتر است. اعتبارسنجی متقابل تعمیمیافته شکل منظمی دارد: نیکویی برازش در مقابل شاخص های مدل قرار داده می شود. فرمول اعتبارسنجی متقابل تعمیمیافته به صورت زیر بیان می شود:
GCV = RSS / (N * (1-میزان پیچیدگی مدل / N)^2)
که در آن RSS، مجموع توان دوم مانده روی داده ها و N تعداد مشاهدات (تعداد سطرهای ماتریس متغیر کمکی X) است. میزان پیچیدگی مدل در رگرسیون اسپلاین سازوار چندمتغیره به صورت زیر تعریف می شود:
۲/ (۱- تعداد بخشها) *تاوان + تعداد بخشها= میزان پیچیدگی مدل
که در آن تاوان تقریباً ۲ یا ۳ است.
توجه کنید که ۲/ (۱- تعداد بخشها)، تعداد گرههای تابع هینگ است، بنابراین این فرمول افزودن گرهها را جریمه می کند. به این معنی که، فرمول اعتبارسنجی متقابل تعمیمیافته، مجموع توان دوم ماندهها را برای محاسبه انعطافپذیری مدل افزایش میدهد. انعطافپذیری جریمه می شود زیرا مدلهایی که خیلی منعطف هستند، تحقق خاصی از مزاحم را در داده ها به جای ساختار منظم داده ها مدلبندی جای می دهند.
۱-۵ کالبیدن وابستگی در مفصلهای شرطی
مطالعه وابستگی بین متغیرهای تصادفی از مسائل مهم در آمار است. در بسیاری از حالات میزان وابستگی بین دو یا چند متغیر بر اساس مقادیر متغیرهای کمکی، متفاوت است. در این بخش، استنباط برای این نوع از تغییرات را با بهره گرفتن از مدل مفصل شرطی انجام میدهیم، به طوریکه مدل مفصل، تابعی متعلق به یک خانواده مفصل پارامتری است و پارامتر مفصل بر اساس متغیر کمکی تغییر می کند. به منظور برآورد رابطه تابعی بین پارامتر مفصل و متغیر کمکی، روشی ناپارامتری بر پایه درستنمایی موضعی ارائه میدهیم. انتخاب خانواده مفصلی که برای مجموعه داده های معلوم بهترین نمایش را ارائه دهد نیز مهم است. چارچوب پیشنهاد شده منجر به روش انتخاب مفصل بر پایه خطاهای پیش بینی اعتبارسنجی متقابل می شود. از نتایج برآوردگر چندجملهای موضعی، واریانس و اریبی مجانبی را بهدست میآوریم و بهطورخلاصه بیان میکنیم که چطور فواصل اطمینان نقطه به نقطه تعیین میشوند. اغلب برای تشخیص توزیع توأم پیچیده متغیرهای تصادفی لازم است اطلاع کاملی از ساختار وابستگی داشته باشیم. چالشهای ساختارهایی مانند توزیعهای چندمتغیره را به طور معنیداری میتوان با بهره گرفتن از یک مدل مفصل با جدا کردن مؤلفه های کناری توزیع توأم از ساختار وابستگیاش، کاهش داد.
در ادامه، برای سادگی تنها روی حالت دومتغیره تمرکز میکنیم. تعداد زیادی از خانوادههای پارامتری مفصلها با پارامتر حقیقی مقدار ، که برای الگوهای وابستگی مختلف بیان می شود، نمادگذاری میشوند. درصورتیکه خانواده مفصل در هر خانواده شکل تابعی تعریف کند ، پارامتر مفصل میزان وابستگی را کنترل می کند.
در کارهای اخیر، روش ناپارامتری برای برآورد رابطه تابعی بین پارامتر مفصل و متغیرهای کمکی ایجاد شده است.
روشهای هموارسازی برای برآورد تابع، به طور قابلملاحظهای برای مسائل مختلف مطالعه میشوند. در اینجا، ما از چارچوب چندجملهای موضعی برای تعدیل متغیر کمکی برای برآورد مفصل از طریق مدلهای بر پایه درستنمایی موضعی، استفاده میکنیم. در عمل، همه روشهای استنباطی برای مفصلها میبایست به وسیله روش انتخاب از میان خانوادههای مفصل که بهترین برازش را برای داده های موجود داشته باشد، همراه شوند. بعضی روشها برای انتخاب مفصل عبارتند از، آزمونهای نیکویی برازش بر پایه مفصل تجربی، روش فرایند کندال و روش برآورد چگالی هستهای. در این بخش، روش برآورد منجر به روش انتخاب مفصل واحدی بر پایه خطاهای پیشگو اعتبارسنجی متقابل، می شود.
۱-۵-۱ فرایند برآورد
در این بخش، روش برآورد مطرح شده و جنبه های مختلف مربوط به انتخاب مدل و به دست آوردن واریانس و اریبی مجانبی برآوردگر ناپارامتری برای ساختن بازهی اطمینان، ارائه می شود.
۱-۵-۱-۱ طرح مدل
فرض کنید و دو متغیر تصادفی پیوسته دلخواه و متغیر پیوستهای باشد که ممکن است روی وابستگی بین و اثر داشته باشد. مدل (۱-۸) را با چگالی شرطی در نظر بگیرید که در آن پارامتر مفصل است و چگالیهای کناری شرطی و به ترتیب با پارامترهای و مشخص میشوند.
که درآن ، و چگالی مفصل شرطی است. در اینجا، فرض می شود که پارامترهای کناری از پارامتر مفصل متفاوت هستند. برای مثال، حاشیهها ممکن است متأثر از اثرات میانگین باشند و مفصل متأثر از ساختار کوواریانس، باشد. بنابراین، برآورد را میتوان در دو گام انجام داد : ابتدا، برای پارامترهای کناری و سپس برای مفصل. آنگاه با جایگذاری برآوردهای و در (۱-۸) میتوان فرم تابعی پارامتر مفصل را برآورد کرد.
چون توجه اصلی روی ساختار وابستگی است، فرض می شود که توزیعهای کناری شرطی و معلوم هستند و مدل زیر را در نظر میگیریم:
به طوریکه ، .
در اینجا، وارون تابع ربط معلوم است که دامنه صحیح برای پارامتر مفصل را تضمین می کند و تابع کالبیدن نامعلومی است که برآورد می شود. بخش کالبیدن تاکید می کند که میزان وابستگی برای اثر متغیر کمکی روی پارامتر مفصل تعدیل می شود. چون هیچ تضمینی وجود ندارد که برآورد برای خانواده مفصل خاص تحت بررسی در دامنه صحیح پارامتر قرار گیرد، همانند مدلهای خطی تعمیمیافته، لازم است یک تابع ربط مناسب انتخاب شود. برای مثال، برای خانواده مفصل کلایتون است، بنابراین از استفاده می شود.
اگر رابطه بین و در رده خاصی از توابع قرار گیرد، برای مثال، چندجملهایهای تا درجه ، میتوان تابع کالبیدن را از طریق برآورد ماکسیمم درستنمایی برآورد کرد. به طور خاص، و را با ماکسیمم کردن برآورد میکنیم.
با این حال، برای بیشتر خانوادههای مفصل تابع لزوماً با مدل چندجملهای قبل به خوبی تقریب زده نمی شود.
ما چارچوب چندجملهای موضعی در فرمول درستنمایی موضعی را میپذیریم. فرض کنید در نقطه درونی مشتقات پیوسته تا مرتبه را دارا است. برای نقاط داده ها در همسایگی ، را از طریق بسط تیلور چندجملهای درجه تقریب میزنیم:
به طوریکه، و با .
سهم هر نقطه از داده ها در همسایگی برای درستنمایی موضعی با تعیین می شود. مجموع وزنی سهم لگاریتم درستنمایی موضعی شرطی به شکل زیر است:
که در آن ، کنترل کننده پهنای باند اندازه همسایگی موضعی است و تابع هستهای است که وزنها را برای نقاط داده ها در مکان خاصی (پنجره) اختصاص میدهد، میباشد. در اینجا به طور معمول از هسته اپانچنیکوف، ، استفاده میکنیم که در آن، زیرنویس + قسمت مثبت را نشان میدهد.
برآوردگر ماکسیمم درستنمایی موضعی با حل معادله زیر تعیین می شود:
حل عددی معادله بالا از طریق تکرار نیوتن رافسون بدست می آید.
که بردار مشتقات جزئی و ماتریس هسیان را نشان می دهند. سپس میتوان برآوردگری برای ، بدست آورد که در حالت خاص . و سرانجام، پارامتر مفصل در مقدار متغیر با به کارگیری وارون تابع ربط برآورد می شود:
۱-۵-۱-۲ هموارسازی مدل
در عمل، دو جنبه از وابستگی در مدلهای مفصل باید مشخص شوند، که عبارتند از: میزان وابستگی درون تابع مفصل و مهمتر از آن ساختار تابعی وابستگی مشخص شده بوسیله خانواده مفصل. که این دو جنبه با انتخاب پهنای هموارسازی و انتخاب خانواده مفصل متناظر هستند.
روشهای مختلفی برای انتخاب پهنای باند وجود دارد از جمله: تکنیکهای اعتبارسنجی متقابل، روشهای جایگذاری و غیره. چون روش برآورد ما بر پایه درستنمایی موضعی مفصل است، درستنمایی موضعی اعتبارسنجی متقابل کنارگذاری، به عنوان یک انتخاب معمول برای انتخاب پهنای باند به کار میرود.
فرض کنید ، برآورد تابع پارامتر مفصل وابسته به پارامتر پهنای باند باشد. به ازای هر ، نقطه از داده ها را کنار میگذاریم و از داده های باقیمانده برای تعیین ، برآوردی از پارامتر مفصل در ، استفاده میکنیم. سپس برآوردهای تعیین شده بوسیله کنارگذاری -امین نقطه، برای ساخت تابع هدف وابسته به پارامتر پهنای باند، مورد استفاده قرار میگیرند:
پهنای باند بهینه ، رابطه بالا را ماکسیمم می کند.
میتوان دید که، اصل کلی درستنمایی اعتبارسنجی متقابل، برای انتخاب خانواده مفصل به کار نمیرود، زیرا مقیاس درستنماییهای خانوادههای متقابل متفاوت است. لازم است، نیکویی برازش را با بهره گرفتن از خانوادههای مختلف با یک معیار قابل مقایسه تعیین کنیم. در اینجا، پیشگویی اعتبارسنجی متقابل هر متغیر وابسته را بر پایه سایرین در یک روش متقارن، انجام میدهیم. قطعاً اگر هر دو متغیر ویژگیهای مشترک نداشته باشند، میتوان معیار مطرح شده زیر را اصلاح کرد.
فرض کنید مجموعه ای (متناهی) از خانوادههای کاندید شده موجود باشد، میخواهیم خانوادهای که بهترین نمایش از داده های موجود را ارائه میدهد، انتخاب کنیم. برای خانواده مفصل -ام، فرایند انتخاب پهنای باند، پهنای باند بهینه را نتیجه میدهد. به ازای هر کنارگذاری از چپ، نقطه نمونه ای ، برآوردی برای پارامتر مفصل شرطی یعنی تعیین می شود که به نوبه خود منجر به بهترین مدل کاندید شده از خانواده -ام می شود، با و . در اینجا، از فرمول امیدریاضی شرطی برای اندازه گیری توان پیشگویی به ازای هر مدل کاندید شده، استفاده میکنیم. درون خانواده بهترین پیشگوی شرطی برای عبارت است از:
پس خطاهای پیشگوی اعتبار سنجی متقابل برای تعریف معیار انتخاب مدل استفاده می شود
خانواده مفصل که کمترین مقدار خطاهای پیشگوی اعتبار سنجی متقابل را داشته باشد، انتخاب می شود. این معیار را میتوان به صورت زیر تصحیح کرد. اگر خانواده مفصل درست را با و خانواده مفصل مورد استفاده را با نشان دهیم، آنگاه بخش اول رابطه بالا با ضرب تقریبی از می شود، این عبارت وقتی مدل به طور صحیح مشخص شود، مینیمم می شود، بنابراین . نتیجه مشابهی برای بخش دوم رابطه انجام می شود.
۱-۵-۱-۳ ویژگیهای مجانبی
قبل از ارائه نتایج مهم چند نمادگذاری تعریف میکنیم. فرض کنید تابع چگالی متغیر کمکی باشد. گشتاورهای و را به ترتیب با و نشان میدهیم و ماتریسهای و و بردارهای و همچنین بردار یکه را در نظر بگیرید. برای سادگی، از برای لگاریتم چگالی مفصل استفاده میکنیم و مشتقات مرتبه اول و دوم آن نسبت به را به ترتیب با و نشان میدهیم. برای نقطه ثابت در تکیهگاه تعریف میکنیم:
.
برای مشتقات بالا، فرضهای داده شده در پیوست C لازم هستند. فرض تضمین می کند که چگالی مفصل در اتحاد بارتلت صدق می کند. شرایط نظم ضعیف در عموماً در رگرسیون ناپارامتری قرار میگیرد.
معمولاً در مدلبندی چندجملهایهای موضعی، برازش چندجملهایهای مرتبه فرد نسبت به برازش مرتبه زوج ترجیح داده میشوند زیرا مرتبه زوج، واریانس مجانبی بزرگتری را باعث می شود. بنابراین تنها برازشهای مرتبه فرد را در حالات مجانبی برای واریانس و اریبی شرطی در نظر میگیریم. قضیه زیر نتایج اصلی را به طور خلاصه بیان می کند، و مجموعه متغیرهای کمکی/متغیرهای طرح با نمادگذاری میشوند.
قضیه ۱-۲: فرض کنید و برقرار باشند، وقتی ، و ، به ازای برازش یک چندجملهای موضعی مرتبه فرد درجه داریم:
اثبات: مرجع ]۲[۱