پایان نامه ارشد فناوری اطلاعات: خوشه‌بندی مبتنی بر انتخاب بر اساس نظریه خرد جمعی

1-1- خوشه بندی

به عنوان یکی از شاخه‌های وسیع و پرکاربرد هوش مصنوعی[1]، یادگیری ماشین[2] به تنظیم و اکتشاف شیوه‌ها و الگوریتم‌هایی می‌پردازد که بر اساس آن‌ ها رایانه‌ها و سامانه‌های اطلاعاتی توانایی تعلم و یادگیری پیدا می‌کنند. طیف پژوهش‌هایی که در مورد یادگیری ماشینی صورت می‌گیرد گسترده ‌است. در سوی نظر‌ی آن پژوهش‌گران بر آن‌اند که روش‌های یادگیری تازه‌ای به وجود بیاورند و امکان‌پذیری و کیفیت یادگیری را برای روش‌هایشان مطالعه کنند و در سوی دیگر عده‌ای از پژوهش‌گران سعی می‌کنند روش‌های یادگیری ماشینی را بر مسائل تازه‌ای اعمال کنند. البته این طیف گسسته نیست و پژوهش‌های انجام‌شده دارای مؤلفه‌هایی از هر دو رو‌یكرد هستند. امروزه، داده‌كاوی[3] به عنوان یک ابزار قوی برای تولید اطلاعات و دانش از داده‌های خام، در یادگیری ماشین شناخته‌شده و همچنان با سرعت در حال رشد و تكامل است. به طور كلی می‌توان تکنیک‌های داده‌كاوی را به دو دسته بانظارت[4] و بدون نظارت[5] تقسیم كرد [29, 46].

در روش بانظارت ما ورودی (داده یادگیری[6]) و خروجی (كلاس[7] داده) یک مجموعه داده را به الگوریتم هوشمند می‌دهیم تا آن الگوی[8] بین ورودی و خروجی را تشخیص دهد در این روش خروجی كار ما مدلی[9] است كه می‌تواند برای ورودی‌های جدید خروجی درست را پیش‌بینی[10] كند. روش‌های طبقه‌بندی[11] و قوانین انجمنی[12] از این جمله تكنیك‌ها می‌باشد. روش‌های با نظارت كاربرد فراوانی دارند اما مشكل عمده این روش‌ها این است كه همواره باید داده‌ای برای یادگیری وجود داشته باشد كه در آن به ازای ورودی مشخص خروجی درست آن مشخص شده باشد. حال آنكه اگر در زمینه‌ای خاص داده‌ای با این فرمت وجود نداشته باشد این روش‌ها قادر به حل این‌گونه مسائل نخواهند بود [29, 68]. در روش بدون نظارت برخلاف یادگیری بانظارت هدف ارتباط ورودی و خروجی نیست، بلکه تنها دسته‌بندی ورودی‌ها است. این نوع یادگیری بسیار مهم است چون خیلی از مسائل (همانند دنیای ربات‌ها) پر از ورودی‌هایی است که هیچ برچسبی[13] (كلاس) به آن‌ ها اختصاص داده نشده است اما به وضوح جزئی از یک دسته هستند [46, 68]. خوشه‌بندی[14] شاخص‌ترین روش در داده‌كاوی جهت حل مسائل به صورت بدون ناظر است. ایده اصلی خوشه‌بندی اطلاعات، جدا کردن نمونه‌ها از یكدیگر و قرار دادن آن‌ ها در گروه‌های شبیه به هم می‌باشد. به این معنی كه نمونه‌های شبیه به هم باید در یک گروه قرار بگیرند و با نمونه‌های گروه‌های دیگر حداكثر متفاوت را دارا باشند [20, 26]. دلایل اصلی برای اهمیت خوشه‌بندی عبارت‌اند از:

اول، جمع‌ آوری و برچسب‌گذاری یک مجموعه بزرگ از الگوهای نمونه می‌تواند بسیار پركاربرد و باارزش باشد.

دوم، می‌توانیم از روش‌های خوشه‌بندی برای پیدا کردن و استخراج ویژگی‌ها[15] و الگوهای جدید استفاده كنیم. این كار می‌تواند كمك به سزایی در كشف دانش ضمنی[16] داده‌ها انجام دهد.

سوم، با خوشه‌بندی می‌توانیم یک دید و بینشی از طبیعت و ساختار داده به دست آوریم كه این می‌تواند برای ما باارزش باشد.

چهارم، خوشه‌بندی می‌تواند منجر به كشف زیر رده‌های[17] مجزا یا شباهت‌های بین الگوها ممكن شود كه به طور چشمگیری در روش طراحی طبقه‌بندی قابل استفاده باشد.

1-2. خوشه‌بندی تركیبی

هر یک از الگوریتم‌های خوشه‌بندی، با توجه به اینكه بر روی جنبه‌های متفاوتی از داده‌ها تاكید می‌کند، داده‌ها را به صورت‌های متفاوتی خوشه‌بندی می کند. به همین دلیل، نیازمند روش‌هایی هستیم كه بتواند با بهره گرفتن از تركیب این الگوریتم‌ها و گرفتن نقاط قوت هر یك، نتایج بهینه‌تری را تولید كند. در واقع هدف اصلی خوشه‌بندی تركیبی[18] جستجوی بهترین خوشه‌ها با بهره گرفتن از تركیب نتایج الگوریتم‌های دیگر است [1, 8, 9, 54, 56]. به روشی از خوشه‌بندی ترکیبی که زیرمجموعه‌ی منتخب از نتایج اولیه برای ترکیب و ساخت نتایج نهایی استفاده می‌شود خوشه‌بندی ترکیبی مبتنی بر انتخاب[19] زیرمجموعه نتایج اولیه می‌گویند. در این روش‌ها بر اساس معیاری توافقی مجموعه‌ای از مطلوب‌ترین نتایج اولیه را انتخاب كرده و فقط توسط آن‌ ها نتیجه نهایی را ایجاد می‌کنیم [21]. معیارهای مختلفی جهت انتخاب مطلوب‌ترین روش پیشنهاد شده است كه معیار اطلاعات متقابل نرمال شده[20]، روش ماكزیموم[21] و [22]APMM برخی از آن‌ ها می‌باشند [8, 9, 21, 67]. دو مرحله مهم در خوشه‌بندی ترکیبی عبارت‌اند از:

اول، الگوریتم‌های ابتدایی خوشه‌بندی که خوشه‌بندی اولیه را انجام می‌دهد.

دوم، جمع‌بندی نتایج این الگوریتم‌های اولیه (پایه) برای به دست آوردن نتیجه نهایی.

1-3. خرد جمعی

نظریه خرد جمعی[23] كه اولین بار توسط سورویکی[24] در سال 2004 در كتابی با همان عنوان منتشر شد، استنباطی از مسائل مطرح‌شده توسط گالتون[25] و کندورست[26] می‌باشد، و نشان می‌دهد که قضاوت‌های جمعی و دموکراتیک از اعتبار بیشتری نسبت به آنچه که ما انتظار داشتیم برخوردار است، ما تأثیرات این ایده را در حل مسائل سیاسی، اجتماعی در طی سال‌های اخیر شاهد هستیم. در ادبیات خرد جمعی هر جامعه‌ای را خردمند نمی‌گویند. از دیدگاه سورویكی خردمند بودن جامعه در شرایط چهارگانه پراكندگی[27]، استقلال[28]، عدم تمركز[29] و روش ترکیب مناسب[30] است [55].

1-4. خوشه‌بندی مبتنی بر انتخاب بر اساس نظریه خرد جمعی

هدف از این تحقیق استفاده از نظریه خرد جمعی برای انتخاب زیرمجموعه‌ی مناسب در خوشه‌بندی ترکیبی می‌باشد. تعاریف سورویکی از خرد جمعی مطابق با مسائل اجتماعی است و در تعاریف آن عناصر سازنده تصمیمات رأی افراد می‌باشد. در این تحقیق ابتدا مبتنی بر تعاریف پایه سورویکی از خرد جمعی و ادبیات مطرح در خوشه‌بندی ترکیبی، تعریف پایه‌ای از ادبیات خرد جمعی در خوشه‌بندی ترکیبی ارائه می‌دهیم و بر اساس آن الگوریتم پیشنهادی خود را در جهت پیاده‌سازی خوشه‌بندی ترکیبی ارائه می‌دهیم [55]. شرایط چهارگانه خوشه‌بندی خردمند که متناسب با تعاریف سورویکی باز تعریف شده است به شرح زیر می‌باشد:

پراکندگی نتایج اولیه، هر الگوریتم خوشه‌بندی پایه باید به طور جداگانه و بدون واسطه به داده‌های مسئله دسترسی داشته و آن را تحلیل و خوشه‌بندی کند حتی اگر نتایج آن غلط باشد.

استقلال الگوریتم، روش تحلیل هر یک از خوشه‌بندی‌های پایه نباید تحت تأثیر روش‌های سایر خوشه‌بندی‌های پایه تعیین شود، این تأثیر می‌تواند در سطح نوع الگوریتم (گروه) یا پارامترهای اساسی یک الگوریتم خاص (افراد) باشد.

عدم تمرکز، ارتباط بین بخش‌های مختلف خوشه‌بندی خرد جمعی باید به گونه‌ای باشد تا بر روی عملکرد خوشه‌بندی پایه تأثیری ایجاد نکند

تا از این طریق هر خوشه‌بندی پایه شانس این را داشته باشد تا با شخصی سازی و بر اساس دانش محلی خود بهترین نتیجه ممکن را آشکار سازد.

مکانیزم ترکیب مناسب، باید مکانیزمی وجود داشته باشد که بتوان توسط آن نتایج اولیه الگوریتم‌های پایه را با یکدیگر ترکیب کرده و به یک نتیجه نهایی (نظر جمعی) رسید.

در این تحقیق دو روش برای ترکیب خوشه‌بندی ترکیبی و خرد جمعی پیشنهاد شده است. با بهره گرفتن از تعاریف بالا الگوریتم روش اول مطرح خواهد شد که در آن، جهت رسیدن به نتیجه نهایی از آستانه‌گیری استفاده می‌شود. در این روش الگوریتم‌های خوشه‌بندی اولیه غیر هم نام کاملاً مستقل فرض خواهند شد و برای ارزیابی استقلال الگوریتم‌های هم نام نیاز به آستانه‌گیری می‌باشد. در روش دوم، سعی شده است تا دو بخش از روش اول بهبود یابد. از این روی جهت مدل‌سازی الگوریتم‌ها و ارزیابی استقلال آن‌ ها نسبت به هم یک روش مبتنی بر گراف شبه کد ارائه می‌شود و میزان استقلال به دست آمده در این روش به عنوان وزنی برای ارزیابی پراکندگی در تشکیل جواب نهایی مورد استفاده قرار می‌گیرد. جهت ارزیابی، روش‌های پیشنهادی با روش‌های پایه، روش‌ ترکیب کامل و چند روش معروف ترکیب مبتنی بر انتخاب مقایسه خواهد شد. از این روی از چهارده داده استاندارد و یا مصنوعی که عموماً از سایت UCI [76] جمع‌ آوری شده‌اند استفاده شده است. در انتخاب این داده‌ها سعی شده، داده‌هایی با مقیاس‌ کوچک، متوسط و بزرگ انتخاب شوند تا کارایی روش بدون در نظر گرفتن مقیاس داده ارزیابی شود. همچنین جهت اطمینان از صحت نتایج تمامی آزمایش‌های تجربی گزارش‌شده حداقل ده بار تکرار شده است.

1-4-1- فرضیات تحقیق

این تحقیق بر اساس فرضیات زیر اقدام به ارائه روشی جدید در خوشه‌بندی ترکیبی مبتنی بر انتخاب بر اساس نظریه خرد جمعی می‌کند.

1) در این تحقیق تمامی آستانه‌گیری‌ها بر اساس میزان صحت نتایج نهایی و مدت زمان اجرای الگوریتم به صورت تجربی انتخاب می‌شوند.

2) در این تحقیق جهت ارزیابی عملکرد یک الگوریتم، نتایج اجرای آن را بر روی‌داده‌های استاندارد UCI در محیطی با شرایط و پارامترهای مشابه نسبت به سایر الگوریتم‌ها ارزیابی می‌کنیم که این داده‌ها الزاماً حجیم یا خیلی کوچک نیستند.

3) جهت اطمینان از صحت نتایج آزمایش‌ها ارائه‌شده در این تحقیق، حداقل اجرای هر الگوریتم بر روی هر داده ده بار تکرار شده و نتیجه‌ نهایی میانگین نتایج به دست آمده می‌باشد.

4) از آنجایی که روش مطرح‌شده در این تحقیق یک روش مکاشفه‌ای است سعی خواهد شد بیشتر با روش‌های مکاشفه‌ای مطرح در خوشه‌بندی ترکیبی مقایسه و نتایج آن مورد بررسی قرار گیرد.

در این فصل اهداف، مفاهیم و چالش‌های این تحقیق به صورت خلاصه ارائه شد. در ادامه این تحقیق، در فصل دوم، الگوریتم‌های خوشه‌بندی پایه و روش‌های خوشه‌بندی‌ تركیبی مورد بررسی قرار می‌گیرد. همچنین به روش‌های انتخاب خوشه[31] و یا افراز[32] در خوشه‌بندی ترکیبی مبتنی بر انتخاب خواهیم پرداخت. در فصل سوم، نظریه خرد جمعی و دو روش پیشنهادی خوشه‌بندی خردمند ارائه می‌شود. در فصل چهارم، به ارائه نتایج آزمایش‌های تجربی این تحقیق و ارزیابی آن‌ ها می‌پردازیم و در فصل پنجم، به ارائه‌ نتایج و کار‌های آتی خواهیم پرداخت.

[1] Artificial Intelligent (AI)

[2] Machine Learning

[3] Data Mining

[4] Supervised

[5] Unsupervised

[6] Train Set

[7] Class

[8] Pattern

[9] Learning Model

[10] Predictive

[11] Classification

[12] Association rule mining

[13] Label

[14] Clustering

[15] Features

[16] Tacit knowledge

[17] Sub-Class

[18] Cluster Ensemble

[19] Cluster Ensemble Selection

[20] Normalized Mutual Information

[21] Maximum

[22] Alizadeh-Parvin-Moshki-Minaei

[23] The wisdom of crowds

[24] Surowiecki

[25] Francis Galton (1822-1911)

[26] Condorcet

[27] Diversity

[28] Independency

[29] Decentralization

[30] Aggregation Mechanism

[31] Cluster

[32] Partition

ممکن است هنگام انتقال از فایل اصلی به داخل سایت بعضی متون به هم بریزد یا بعضی نمادها و اشکال درج نشود ولی در فایل دانلودی همه چیز مرتب و کامل و با فرمت ورد موجود است

متن کامل را می توانید دانلود نمائید

چون فقط تکه هایی از متن پایان نامه در این صفحه درج شده (به طور نمونه)

ولی در فایل دانلودی متن کامل پایان نامه

با فرمت ورد word که قابل ویرایش و کپی کردن می باشند

موجود است

فرم در حال بارگذاری ...

فید نظر برای این مطلب

« پایان نامه ارشد مهندسی فناوری اطلاعات: ارائه مدلی برای سیستمهای توصیه گر در شبکه های مبتنی بر اعتماد پایان نامه ارشد رشته فناوری اطلاعات: ارائه مدلی با استفاده از منطق فازی برای ارزیابی آمادگی سازمان جهت پیاده سازی معماری سرویس گرا »

وبلاگ

توضیح وبلاگ من

پایان نامه ارشد فناوری اطلاعات: خوشه‌بندی مبتنی بر انتخاب بر اساس نظریه خرد جمعی