عنوان
صفحه
شکل ۲‑۱: مراحل مدل نگاشت کاهش ۱۲
شکل ۲‑۲: شمای کلی مدل برنامه نویسی نگاشت کاهش ۱۲
شکل ۲‑۳: نحوه اجرای برنامه WordCount در نگاشتکاهش ۱۳
شکل ۲‑۴: برخی از شرکتهایی که از هدوپ استفاده میکنند ۱۴
شکل ۲‑۵: نمونهای از یک کلاستر هدوپ ۱۴
شکل ۲‑۶: ذخیره فایل در فایل سیستم توزیع شده هدوپ ۱۶
شکل ۲‑۷: نحوه نوشتن فایل درHDFS 17
شکل ۲‑۸: ساختار کلی یک کلاستر هدوپ ۱۸
شکل ۳‑۱: تاثیر افزایش داده ها بر زمان پردازش در کلاسترهای مختلف ۲۱
شکل ۳‑۲: تاثیر تعداد Map Task هایی که بطور همزمان روی هر نود اجرا می شوند بر زمان پردازش ۲۲
شکل ۳‑۳ : تاثیر افزایش حجم تصویر بر زمان پردازش در الگوریتم Auto-Contrast 26
شکل ۳‑۴ : تاثیر افزایش حجم تصویر بر زمان پردازش در الگوریتم تشخیص لبه ۲۶
شکل ۳‑۵: تاثیر افزایش حجم تصویر بر زمان پردازش در الگوریتم Color Sharpening 27
شکل ۳‑۶: تاثیر افزایش نود بر زمان پردازش در دیتاست کوچک ۳۰
شکل ۳‑۷: تاثیر افزایش تعداد نود بر زمان پردازش در دیتاست بزرگ ۳۰
شکل ۳‑۸: تاثیر افزایش نود بر زمان پردازش در دو حالت توزیع داده ها ۳۱
شکل ۳‑۹: تاثیر افزایش نودها بر کارایی در الگوریتم بازیابی تصاویر ۳۲
شکل ۳‑۱۰: نحوه رفتار الگوریتم بازیابی تصاویر با افزایش داده ۳۲
شکل ۳‑۱۱: پیچیدگی محاسباتی با اجرای برنامه MLC 33
شکل ۳‑۱۲: تاثیر حجم داده ورودی بر اجرای برنامه MLC 34
شکل ۳‑۱۳: ساختار ترکیب Hadoop و Cuda 35
شکل ۳‑۱۴: نمودار جریان داده در ترکیب Hadoop با Cuda 36
شکل ۴‑۱: نتیجه اجرای برنامه تشخیص لبه روی تصاویر ۴۳
شکل ۴‑۲: تغییر مقیاس عمودی ۴۵
شکل ۴‑۳: تاثیر مقیاس پذیری عمودی بر زمان پردازش در حالت سریال و موازی ۴۶
شکل ۴‑۴: ساختار مقیاس پذیری Scale In 47
شکل ۴‑۵: تاثیر تعداد ماشینها با تعداد مپرهای مختلف بر زمان پردازش ۵۰
شکل ۴‑۶: تاثیر تعداد ماشینها با تعداد مپرهای برابر بر زمان پردازش ۵۱
شکل ۴‑۷: مقایسه روشهای موازی با تعداد وظایف مختلف، با پردازش سریال ۵۱
شکل ۴‑۸: نمودار تاثیر حجم قطعات تصاویر بر زمان پردازش ۵۴
شکل ۴‑۹: تاثیر تعداد Map Task های مختلف بر زمان پردازش در روش دوم ۵۷
شکل ۴‑۱۰: نمودار تاثیر تعداد تکرار بر زمان پردازش ۶۰
شکل ۴‑۱۱: تاثیر تعداد تکرار تصاویر بر توان عملیاتی ۶۲
شکل ۴‑۱۲: نحوه تغییر زمان پردازش با افزایش حجم تصاویر ورودی ۶۴
شکل ۴‑۱۳: تغییر مقیاس افقی ۶۵
شکل ۴‑۱۴: نحوه تاثیر مقیاس پذیری افقی بر زمان پردازش ۶۷
فهرست نشانههای اختصاری
HDFS Hadoop Distributed File System
GFS Google File System
GPGPU General Purpose Graphics Processing Units
IaaS Infrastructure as a Service
PaaS Platform as a Service
SaaS Software as a Service
VM Virtual Machine
فصل اول
مقـدمه
مقدمه
کلیات
امروزه با افزایش روشهای مختلف اخذ اطلاعات گسسته مانند دوربینهای دیجیتال، پویشگرها و ماهوارهها، پردازش تصویر کاربرد فراوانی یافتهاست. از زمینههای پر کاربرد پردازش تصویر میتوان نجوم، زیست شناسی و پزشکی را نام برد. پردازش تصاویر ارسالی از ماهوارهها و تشخیص پلاک اتومبیلها از نمونههای کاربردی و شناختهشدهی مسائل پردازش تصویر هستند.
با افزایش کاربردهای تصاویر رقمی[۱] در حوزههای مختلف، هر روز بر حجم تصاویر موجود در پایگاههای داده افزوده می شود. در پردازش تصاویر ارسالی از ماهوارهها حجم وسیعی از تصاویر برای پردازش ارسال میشوند که برای پردازش این حجم وسیع از تصاویر، نیاز به کامپیوترهای قدرتمندی است تا با سرعت بالایی تصاویر دریافتی را پردازش کنند. در سالهای اخیر تلاشهای بسیاری در زمینهی پردازش دادههای حجیم صورت گرفتهاست. در این بین، پردازش موازی و بطور خاص پردازش توزیع شده یکی از پر طرفدارترین این روشها میباشد.
در بیشتر روشهای توزیع شده برای پردازش دادهها، برنامه نویس باید دانش کافی در برنامه نویسی و شبکه داشته باشد و نیز بتواند مسائل مربوط به زمان اجرا را مدیریت و برطرف کند کهاین کار نیازمند تخصص و مهارت بالایی در برنامه نویسی و مباحث شبکهاست. لذا روشهایی که در آن کاربر بتواند با سهولت بیشتری برنامههایش را ایجاد و اجرا کند بسیار مورد استقبال قرار میگیرد.
یکی از تکنولوژیهایی که امروزه توجه بسیاری را به خود جلب کرده و تحول بزرگی در بسیاری از زمینههای مختلف کامپیوتری به ارمغان آوردهاست رایانش ابری است. ابرها بسیاری از نیازها در زمینهی فناوری اطلاعات را بصورت یک سرویس ارائه میدهند که این سرویس از طریق اینترنت قابل دسترسی است. در این پژوهش به بررسی چالشهایی که کاربران برای اجرای مسائل پردازش تصویر خود در روی ابر و افزایش کارایی آن مواجهند میپردازیم و هدف این پژوهش ارائه روشی برای افزایش کارایی پردازش تصاویر در روی ابر که یک محیط توزیع شدهاست ارائه میشود. بطوریکه طی آن کاربر بتواند برنامههای خود را بصورت بهینه تر و کاراتری تولید، اجرا و مدیریت کند.
برای دانلود متن کامل پایان نامه به سایت fotka.ir مراجعه نمایید.
اهمیت تحقیق
با توجه به گستردگی کاربردهای پردازش تصویر در زمینههای مختلف، و نیز با روند کنونی افزایش حجم تصاویر، برای پردازش این حجم از دادهها در زمان مناسب، نیاز به سرعت بسیار بالایی داریم. لذا ناگزیر به استفاده از ماشینهای غولپیکر و پردازش موازی[۲] برای پردازش این حجم از دادهها هستیم. در پردازش موازی، ماشینی با چندین پردازنده[۳] یا چندین هستهی پردازنده[۴]، برنامه داده شده را اجرا میکند [۱]. پردازندههای چند هستهای[۵] از نمونهی این نوع پردازندهها هستند. علاوه براین با اتصال کامپیوترهای تک پردازنده[۶] و تک هسته[۷] و ایجاد یک شبکه نیز میتوان پردازش موازی انجام داد. این کار بکمک نرم افزارهای توزیع شده صورت میپذیرد و بهاین نوع از پردازش موازی، اصطلاحا پردازش توزیع شده[۸] میگویند[۲].
بسیاری از سازمانها به دلایل مختلفی همچون هزینههای بالای خرید و نگهداری و نیاز به متخصصان و . . . قادر به فراهم سازی کامپیوترهای غول پیکر برای اجرای برنامهها بصورت موازی نیستند. لذا پردازش توزیع شده بسیار مورد توجه محققان و نیز سازمانها قرار گرفتهاست.
بطور معمول در برخی از روش های توزیع شده برنامه نویس باید مهارت بالایی در برنامه نویسی و مدیریت خطاهای هنگام اجرا روی شبکه داشته باشد. برنامه نویس علاوه بر تمرکز روی هدف اصلی برنامه، باید مشکلات احتمالی هنگام اجرای برنامه را نیز پیش بینی و برای آن ها راه حل بیاندیشد. بعنوان مثال کاربر باید بتواند پردازشها را بطور مناسب بین ماشینها تقسیم و مدیریت کند و اگر در حین اجرای برنامه یکی از ماشینها به هر علتی متوقف شود باید بتوان وظایف آن ماشین را بدون توقف برنامه، به ماشینهای دیگر سپرد و دادههای رویش را نیز بازیابی کرد. همچنین گاهی ممکن است قدرت ماشینهای یک سیستم توزیع شده با هم برابر نبوده و ماشینها با سرعتهای مختلف وظایفشان را انجام دهند. لذا برنامه نویس باید بتواند بطور متعادلی توزیع بار[۹] پردازشی را روی ماشینهای شبکه انجام دهد. بنابراین استفاده از روشی که بتواند برنامه نویس را در ایجاد و اجرای برنامههایش یاری رساند بسیار مفید و موثر خواهد بود. همچنین در پردزاش دادههای حجیم، زمان، فاکتور مهمیبوده و یافتن روشهایی که باعث کاهش زمان اجرای برنامهها شود، از اهمیت بالایی برخوردار است.
هدف تحقیق
یکی از روشهایی که مشکلات فوق را حل میکند استفاده از مدل برنامه نویسی نگاشتکاهش[۱۰] است. وظیفهی این مدل برنامه نویسی که توسط گوگل[۱۱] معرفی شد، پردازش حجم بالایی از دادهها به شکلی موازی است [۳, ۴]. مدل برنامه نویسی نگاشتکاهش به برنامه نویسان اجازه میدهد تا با نوشتن توابعی، دادهها را پردازش کنند. دو تابع اصلی در این مدل برنامه نویسی وجود دارد. یکی تابع نگاشت[۱۲] و دیگری تابع کاهش[۱۳] نام دارد. تابع نگاشت داده ورودی را پردازش و نتایج میانی را تولید میکند. تابع کاهش نتایج میانی را تحلیل و نتایج نهایی را تولید میکند. یکی از ویژگیهای مفید این مدل این است که برنامهنویس بدون توجه به مسائل زمان اجرا که در قسمت قبل به آن اشاره شد، تمرکز خود را فقط بر روی برنامه و ایجاد توابع مورد نیاز معطوف میکند. هدف این پژوهش، پردازش تصاویر بصورت موازی با بهره گرفتن از مدل برنامه نویسی نگاشتکاهش و ارائه یک مدل استقرار بهینه برای اجرای برنامه ها در محیط توزیع شده است بطوریکه با استفاده بهینه از منابع پردازشی و رسیدن به بالاترین کارایی ممکن بکمک این مدل برنامه نویسی، سرعت پردازش را افزایش داد. با توجه به حجم وسیع دادهها در مسائل پردازش تصویر، نیاز به بهرهوری از منابع و سرعت بالا یک نیاز اساسی تلقی میشود. علاوهبراین بکمک مدل برنامه نویسی نگاشتکاهش حتی برنامه نویسانی که دانشی دربارهی برنامه نویسی تحت شبکه و مدیریت خطاها در شبکه ندارند نیز میتوانند برنامههای خود را با سهولت بیشتری ایجاد و روی محیط توزیع شده انتقال و اجرا کنند.