۲-۶-۵-۲ رویکرد پژوهش:
در این تحقیق داده ها دارای ۳ خصیصه اصلی هستند که شامل موارد زیر میباشد..
جمع کل بستههایی که ازیک پورت فرستاده می شود.
جمع کل بایتهایی که ازیک پورت فرستاده می شود.
تعداد جفت منبع-مقصد متفاوت
انگیزه اصلی این کار تعداد بایتها و بستههایی است که در شبکه رد و بدل می شود با توجه به ماهیت k_means و مفروضات مسئله فاصله بصورت زیر تعریف می شود.
رابطه۲‑۳۸ |
که si فاکتور است که بستگی به ویژگیi ام دارد. که بطور تجربی بدست میآید. ضرایب برای بسته و بایت و جفت فرستنده-گیرنده بدین بصورت است:
Spacket=Sbyte=5 , Ssrc-dist=1
با مقدار دهیk=2 و دو نوع بسته داده داریم
در ادامه خوشهبندی با دو جفت (پروتکل،پورت) انجام شده است.
مورد اول: خوشهبندی در این مورد بدین صورت است که داده به مرکز هر خوشه نزدیکتر باشد در آن خوشه قرار میگیرد در شکل ۲-۱۷ شیp به خوشه نرمال نزدیکتر است پس به خوشه نرمال تعلق میگیرد.
شکل ۲-۱۷: خوشه بندی برایk=2 [11]
اما در ادامه برای شناسایی داده غیرنرمال که در ادامه آماده است برای شناسایی آن، فاصله با مرکز داده نرمال مورد اندازه گیری قرار میگیرد اگر فاصله بین این داده و نرمال بزرگتر از dmax تعریف شده بود به عنوان داده غیرنرمال تشخیص داده می شود در شکل ۲- ۱۸p2 و p3 به عنوان داده غیرنرمال هستند.
ترکیب خوشهبندی و داده غیرنرمال: با ترکیب همزمان خوشهبندی و داده غیرنرمال میتوان داده غیرنرمال را تشخیص داد. اگر دو روش همزمان اجرا کنیم آن داده ای که نسبت به داده اصلی غیرنرمال است در دسته داده غیر نرمال قرار میگیرد.
در شکل ۲-۱۹ با توجه به dmaxدو داده p1 و p2 غیرنرمال هستند که با توجه به روش بالا p1 به مرکز خوشه غیر عادی و p2به مرکز خوشه عادی نزدیکتر است.
شکل ۲-۱۸: شناسایی داده غیرنرمال[۱۱]
شکل ۲-۱۹: ترکیب دستهبندی و شناسایی غیرنرمال[۱۱]
قسمت ارزیابی: در مجموعه داده بدست آمده از دانشگاه Twente با الگوریتم خوشه بندی
k-means در پروتکل HTTP،SSH و FTP مرکز خوشه داده نرمال و غیرنرمال تقریبا یکی است اما در آنالیزترافیک UDP نتیجه زیر بدست می آید:
جدول ۲-۱۱: ارزیابی با بهره گرفتن از خوشهبندی
SRC-DIST | BYTES | PKTS | CLUSTER |
۱۸۹۶ | ۳۲۸۸۰۰۷ | ۲۸۲۷۴ | normal |
۱۴۸۳۱ | ۳۵۱۰۷۹۲ | ۳۹۷۲۵ | anomalous |