- نویز : تغییراتی که در مقدار اصلی ویژگی ایجاد میشود را نویز گویند (Larose 2005). اگر مقادیر ویژگی در مقدار کوچکی مانند ε اضافه و یا از این مقدار کم شده باشد، در آن ویژگی نویز ایجاد شده است. مقادیر نویز در ویژگیها قابل رفع شدن هستند.
- مقادیر دور افتاده[۲۷] : به مقادیری واقعی از ویژگیها گفته میشود که با مقادیر دیگر ویژگی تفاوت معناداری داشته باشند. بهعبارت دیگر، مقادیری که متفاوت از اکثریت مقادیر موجود باشند؛ مقادیر دور افتاده هستند (Larose 2005). در شکل ۲-۲ نقاط دور افتاده مشخص شدهاند.
شکل ۲‑۲ : دادههای دور افتاده
تفاوت دادههای دور افتاده با نویز در این است که دادههای دور افتاده به مقادیر واقعی گفته میشود که هویت دارند و مقادیر ناخواسته نیستند، در حالیکه نویز مقادیر ناخواستهای هستند که مقادیر اصلی را تغییر دادهاند. مقادیر نویز هر ویژگی قابل رفع شدن است و باید این مقادیر رفع شوند. اما روش برخورد با دادههای دور افتاده بستگی به کاربرد مسئله دارد. در بعضی از کاربردها باید نقاط دور افتاده را از تحلیلها حذف کرد و در بعضی از کاربردها باید تحلیلی روی نقاط دور افتاده انجام داد (Han, Kamber et al. 2011).
پس از آن که هر یک از مشکلات ذکر شده در بالا از میان دادهها شناسایی و برطرف شدند، پردازشهایی در جهت آمادهسازی دادهها برای مدلسازی بر روی دادهها انجام میشود. نمونهای از این پردازشها عبارتند از:
- تجمیع:
در این مرحله بر اساس هدف مشخص شده چند ویژگی با هم ترکیب و یک ویژگی ایجاد میشود. به این نکته توجه داشته باشید زمانی که بعد یا مقیاس[۲۸] داده بالا باشد، باعث میشود دانشی از دست برود. به این منظور این مرحله قبل از اجرای الگوریتمهای دادهکاوی بر روی داده انجام میشود. اهداف فرایند تجمیع عبارتند از:
- کاهش ویژگیها و رکوردها،
- تغییر دادن مقیاس داده؛ بهعنوان مثال، میتوان بهجای ویژگیهایی مانند منطقه، ایالت و ناحیه، شهر را جایگزین کرد. این کار ممکن است دقت مسئله را کاهش دهد، اما باعث میشود فرایند دادهکاوی بر روی داده انجام شود.
- پایدار[۲۹] کردن داده؛ اگر یک ویژگی، ویژگی باشد که تعداد مقادیر زیادی را اختیار کنند؛ در این صورت این ویژگی نمیتواند ویژگی موثری در فرایند دادهکاوی باشد. چنین ویژگیای باعث میشود دقت الگوریتم به شدت کاهش یابد. حال اگر بتوان بازه تغییرات ویژگیها را کاهش داد، میتوان از ویژگیای که تأثیر منفی بر فرایند داده کاوی میگذارد، ویژگی ایجاد کرد که تأثیر مثبتی بر روی الگوریتمها داشته باشد.
- نمونهگیری[۳۰]:
فرایند نمونهگیری گاهی برای پردازش دادهها مورد استفاده قرار میگیرد. زمانیکه با مجموعه دادههای ناآشنا کار میشود، میتوان از این گام برای شناخت مجموعه داده استفاده کرد. نمونهگیری در دادهکاوی با مفهوم نمونهگیری آماری متفاوت است. در آمار نمونهگیری انجام میشود، به سبب آن که دسترسی به تمام رکوردها بسیار گران و هزینهبر است. اما در دادهکاوی نمونهگیری به دلیل در دسترس نبودن رکوردها نیست، بلکه به دلیل هزینهبر و زمانبر بودن اجرای الگوریتمهای دادهکاوی بر روی تمام رکوردها است. در این حالت اگر الگوریتمهای داده کاوی بر روی تمام رکوردهای موجود در پایگاه داده اجرا شود، الگوریتم مرتبه زمانی بسیار بالای خواهد داشت. پس گاهی به سبب زمانبر و هزینهبر بودن و گاهی نیز به دلیل در دسترس نبودن سیستمهایی که بتواند با حجم بالای از دادهها کار کند، باید از رکوردها نمونهگیری شود. نمونه باید به گونهای باشد که نماینده مناسبی از مجموعه داده باشد. برای انتخاب یک نمونه مناسب باید به مسئله توجه شود و با توجه به مسئله، نمونه انتخاب شود. علاوه بر این در نمونهگیری باید به توزیع ویژگیهای مهمتر توجه بیشتری شود. فرایند نمونهگیری میتواند یکی از چهار روش زیر باشد:
- نمونهگیری به صورت تصادفی: زمانی از این روش استفاده میشود که مجموعه داده ناشناخته باشد و درکی از مجموعه داده موجود نباشد.
- نمونهگیری بدون جایگزینی: زمانی از این روش استفاده میشود که مجموعه داده کوچک بوده و رکوردها شبیه به هم نباشد.
- نمونهگیری با جایگزینی: در این روش هر رکورد میتواند بیش از یکبار در نمونه آورده شود. از این روش زمانی استفاده میشود که مجموعه داده بزرگ و رکوردها شبیه به هم باشند.
- نمونهگیری از دسته: ابتدا رکوردها را بر اساس معیاری دستهبندی کرده و از هر دسته، تعدادی رکورد انتخاب میشود.
در مواقعی که معیارهایی مانند سرعت و پیچیدگی زمانی مهم نیستند، روش نمونهگیری بدون جایگزینی مناسبتر از نمونهگیری با جایگزینی است. در نمونهگیری هر چقدر تعداد رکوردها بیشتر باشد امکان بهدست آوردن نظم موجود بیشتر خواهد بود. نباید نمونه خیلی کوچک باشد که نظم موجود در دادهها از بین برود.
- کاهش بعد[۳۱]:
زمانی که بعد دادهها بالا باشد در این صورت پراکندگی داده بیشتر و هر چقدر پراکندگی دادهها بیشتر، دادهها از هم دورتر خواهند بود. در این صورت نمیتوان بهخوبی نظم موجود در دادهها را پیدا کرد و ممکن است برخی از نظمها با افزایش بعد داده از بین برود. پس بهتر است تا حد امکان ویژگیهای نامربوط در مسئله مورد بررسی حذف شوند. اهداف این مرحله عبارت است از:
- کاهش ابعاد: این کار باعث کاهش زمان و افزایش سرعت در الگوریتم مورد نظر میشود.
- درک آسانتر: انسان میتواند تا چهار بعد را درک کند، پس هر چقدر ابعاد مسئله کوچکتر شود درک مسئله آسانتر میشود.
- بالا رفتن دقت و سرعت الگوریتم: با حذف ویژگیهایی که نمیتواند اثر مثبتی بر روی هدف تعیین شده در مسئله داشته باشد، سرعت اجرا الگوریتم بالا میرود و الگوریتم درگیر ویژگیهای غیرمفید نمیشود. علاوه بر این، حذف ویژگیهای غیر مرتبط باعث میشود تشخیص دادههای نویز راحتتر شود.
- انتخاب زیرمجموعهای از ویژگیها[۳۲]:
تعداد زیاد ویژگیها بر سرعت اجرای الگوریتمها اثر منفی میگذارد. لازم است بنابر هدف، مجموعهای از ویژگیها انتخاب شود. بعضی از ویژگیها در تمام مسائل ویژگیهای هستند که کمکی به حل مسئله نمیکنند. برای هر هدفی میتوان با بهره گرفتن از الگوریتمهایی مانند درخت تصمیم ویژگیهای مهمتر را شناسایی کرد و از آن ویژگیها برای ایجاد مدل استفاده کرد.
- ایجاد ویژگی:
با توجه به ویژگیهای موجود میتوان ویژگی جدیدی ایجاد کرد. به طوری که ویژگی ایجاد شده اطلاعات مهمی در مورد مجموعه داده در اختیار محقق قرار میدهد. سه روش برای ایجاد یک ویژگی وجود دارد که عبارت است از:
- استخراج ویژگی[۳۳]: زمانی که مجموعه داده مورد بررسی شامل دادههای چند رسانهای باشد، استخراج ویژگی بسیار موثر خواهد بود.
- نگاشت داده به یک فضای جدید: با بهره گرفتن از نگاشتی داده از یک بعد به بعد دیگر انتقال داده میشود. این کار در الگوریتم تحلیل مولفههای اصلی و همچنین نوعی از الگوریتم ماشین بردار پشتیبان انجام میشود.
- ترکیب ویژگیها: این کار در مرحله تجمیع داده صورت میگیرد.
مرحله سوم، تبدیل[۳۴]: در این مرحله دادهها در صورت نیاز از یک حوزه به حوزه دیگر منتقل میشوند و برای تحلیل آماده میشوند.