موسیقی فراتر از تعریف در الفاظ است و شگفتی آن نیز در همین است. موسیقی جبران ناكامیهای زبان است و شیوهای برای بیان احساسات ناملموس. احساساتی كه نمیدانیم چه هستند.آن جا كه زبان از گفتن باز میماند، موسیقی مأمنی میشود برای روح، و زبانی میشود برای بیان احساسات و ناگفتههای ناشناخته. موسیقی، سرچشمهای از درون انسان دارد.
در طول تاریخ موسیقی همواره به عنوان قسمتی از زندگی انسان نقش خود را ایفا کرده است. امروزه نیز با در دسترسبودن ابزار قابل حمل پخش موسیقی و سایر ابزار ذخیره فایلهای موسیقی این نقش پررنگتر شده است. همچنین رشد بی سابقه موسیقی در سالهای اخیر لزوم ایجاد روشی برای مدیریت این فایلهارا ضروری می کند. در این تحقیق به ارائه روشهایی برای مدیریت اتوماتیک موسیقی با بهره گرفتن از تکنیکهای داده کاوی میپردازیم.
2-1- تعریف مسئله
هر ساله به تعداد فایلهای موسیقی که در فرمت دیجیتال تهیه میشود افزوده میشود که به موجب آن امروزه افراد با حجم عظیمی از فایلهای موسیقی روبه رو هستند. هر شخص مجموعه کامل و بزرگی از موسیقی برای خود ایجاد میکند و حتی در ابزارهای قابل حمل پخش موسیقی به همراه خود دارد.بنابراین نیاز زیادی به تعامل – یافتن موسیقی مورد نظر، ایجاد مجموعه لیستها با ویژگیهایی خاص، یافتن موسیقیهایی که شبیه به هم هستند- با مجموعههای ایجاد شده احساس میشود. کتابخانههای دیجیتال موسیقی باید توانایی ارتباط دو سویه و تعامل با کاربران خود را داشته باشند. بنا بر این تعامل کاربر با مجموعههای موسیقی و یا کتابخانه دیجیتال تبدیل به
چالش در دنیای دیجیتال شده است. در مجموعههای بزرگ موسیقی مدیریت فهرستهای متنی بسیار زمانبر است. این مهم خود محرکی برای سازماندهی مجموعههای بزرگ موسیقی میباشد.
از نقطه نظر دیگر هر کاربر طبع مخصوص به خود در انتخاب موسیقی دارد. دستهبندیهای از پیش تعریف شده مانند ژانر و یا خواننده میتواند گرهگشا باشد اما ترجیحات شخصی فرد را به حساب نمیآورد کما این که ممکن است این دستهبندیها برای تمامی فایلها به صورت پیش فرض وجود نداشته باشد و ردهبندی فایلهای موسیقی در ژانرهای مختلف خود چالشی دیگر است. شنونده موسیقی باید بتواند دستهبندیهای شخصی خود را داشته باشد.به طور مثال در مقاله]1[به منظور برآورده نمودن این هدف سیستمی ارائه شده است که با گرفتن یک نمونه با بهره گرفتن از ردهبندی هوشمند کل پایگاه داده را بر اساس ترجیح کاربر ردهبندی می کند.
به موازات رشد حجم فایلها علاقه رو به رشدی در زمینه توسعه و ارزیابی سیستمهای بازیابی اطلاعات موسیقی به وجود آمده است. ردهبندی کامپیوتری فایلهای موسیقی یکی از فعالیتهای مهم در زمینه بازیابی اطلاعات موسیقی[1] است. ردهبندی یک فعالیت استاندارد یادگیری ماشین است که معمولا شامل پیشبینی یک خروجی بر اساس یک ورودی است. ردهبندی امکان تعامل با مجموعه موسیقی در مسیرهای جدید را ایجاد میکند. پروژههای مختلفی در زمینه ردهبندی شامل تشخیص ژانر، خواننده، حالت، ابزار موسیقی، تولید لیست پخش و… انجام شده است.
یکی از مهمترین سرویسها برای رهایی کاربران از این حجم عظیم اطلاعات سیستمهای پیشنهاددهنده موسیقی است. این سیستمها، امکان انتخاب موسیقیهای مورد علاقه را برای کاربران ایجاد میکند. سرویس پیشنهاددهنده مواردی را که ممکن است مورد پسند کاربر قرار بگیرد را بر اساس پیش تعریفهای کاربر و یا با دسترسی به پیشینه کاربر، پیشنهاد میدهد.
هدف از انجام این پروژه ارائهراهکاریباکاراییبالادر ردهبندی فایلهای موسیقی در زمینههای مختلف با بهره گرفتن از ویژگیهای سطح بالا (ویژگیهای موسیقیایی) و سطح پایین (ویژگیهای آماری سیگنالهای صوتی) و در نهایت استفاده از آن در ارائه یک سیستم پیشنهاددهنده کارا است،که برای پیشنهاددهی از ویژگیهای محتوایی (همان نتایج به دست آمده از ردهبندی موسیقی) و محیطی( شباهت ذائقه موسیقی افراد مختلف)مورد استفاده قرار میگیرد. هدف مورد انتظار بهبود روشهای ارائه شده ردهبندی فایلهای موسیقی با توجه به زمینه مورد نظر در ردهبندی و استفاده از آن در ارائه یک سیستم پیشنهاددهنده است. نتایج به دست آمده از این تحقیق میتواند به طور کلی توسط فروشندگان، کتابخانهها، موسیقیدانان و شنوندگان مورد استفاده قرار گیرد. میتوان از این سیستم در صدا و سیما به منظور انتخاب موسیقی برای مناسبتهای مختلف و یا شرایط جوی مختلف استفاده نمود.میتوان این سیستم در فروشگاهها و آرشیوهای موسیقی به منظور سازماندهی و پیشنهاد بهترین موسیقی به خریدار مورد استفاده قرار گیرد.از این سیستم میتوان برای استفاده شخصی به منظور سازمان دهی و ایجاد آرشیوهای شخصی بهره برد.استفاده خاص در محیطهای عمومی مانند کافیشاپها و رستورانها در انتخاب موسیقی مناسب برای پخش در پس زمینه. استفاده از سیستم در انتخاب موسیقیهای مورد نظر پزشکان در درمان بیماریها با بهره گرفتن از موسیقی (موسیقی درمانی).استفاده خاص برای سازمانهایی همانند ایرانسل که به ارائه آهنگ برای جلب مشتری میپردازند.
[1]Music Information Retrieval
:
این موضوع كه « سازمان بدون مشتریان خود، هیچ نیست» یک واقعیت انكارناپذیر است. موجودیت هر سازمان بدین خاطر است كه محصولات و خدماتی ارائه دهد كه نیازهای مشتریان خود را برآوردهسازد. بنابراین پاسخ به سوالاتی از این قبیل كه مشتریان ما چه كسانی هستند؟ نیازها و انتظارات و اولویتهای آنان چیست؟ ما تا چه حد توانستهایم به این نیازها و انتظارات پاسخ دهیم و بطور كلی سطح رضایت مشتریان و نوسانات آن دارای چه وضعیتی است؟ از اهمیت بسیار زیادی برای هر سازمان برخوردار میباشد به منظور پاسخگویی به سوالات فوق لازم است یک سیستم مناسب جهت مدیریت ارتباط با مشتری در هر سازمان طراحی و مستقر گردد.
در بازار فوق العاده پویای امروزی، مشتری از سازمان انتظار داردکه بیشترین ارزشها را با مناسبترین قیمت عرضه کند و سازمانها نیز مدام به دنبال روش های جدید و ایجاد نوآوری درخلق و ارائه ارزش هستند و حتی از ارزش مشتری تحت عنوان « منبع مزیت رقابتی» خویش نام میبرند.
در روند های کسب و کار جدید به دست آوردن رضایت مشتریان جایگاهی مهم و حیاتی در اهداف سازمانها به خود اختصاص میدهد و مدیران ارشد به خوبی میدانند كه موفقیت آنها در رسیدن به اهداف کلان سازمان در گرو جلب رضایت مشتریان است.
از سوی دیگر نمیتوان گفت همه مشتریان به یک اندازه در موفقیت سازمان نقش دارند. بنابراین جلب رضایت مشتریان کلیدی حساسیت بیشتری خواهد داشت. بدین ترتیب لازم است در سازمان، سیستمی برای جذب و نگهداری مشتریان و افزایش وفاداری ایشان، طراحی و پیادهسازی شود. سیستمی که بتواند روابط سازمان ومشتریان را به خوبی مدیریت کند. امروزه این سیستم ها به سیستم های مدیریت ارتباط با مشتریان مشهور شدهاند و نرم افزارهایی نیز به نام CRM به بازار آمده اند که میتوانند سازمان را در راه جلب رضایت مشتریان
تواناتر سازند.
در حقیقت مدیریت ارتباط با مشتری بر اساس ارتباط بلند مدت با مشتریان و درك نیازهای آنان و پاسخگویی به آنها از طریق كالاها و خدمات متنوع به وسیله كانالهای متعدد معرفی میشود كه این دیدگاه معلول پیشرفتهای اخیر فناوری اطلاعات است.
1-1- سابقه و ضرورت انجام تحقیق
با ظهور تجارت الکترونیکی مشتری الکترونیکی هم به وجود آمدهاست قبلاً سیستم های برنامه ریزی منابع سازمان[1] راهکارهای مدیریت ارتباط با مشتری را نیز ارائه میكردند اما مشتری الکترونیکی انتظار دارد از طریق پستالکترونیکی، مراکز تماس، فاکس و اینترنت به شرکتها دسترسی داشته باشد. مشتری با هر تماس خود انتظار پاسخ سریع دارد. از آنجا که سیستم ها ERP قدیمی، پاسخگوی ابعاد مختلف مدیریت مشتری نبودند CRM وارد فاز منطقی و جدید خود شد بر اساس برخی گزارشها، معرفی اولیه سیستم های CRM امروزی از سال 1980 آغاز شد.
از آن پس CRM بر اساس دو تغییر اساسی در دیدگاه ها و نیازها توسعه یافت:
– رقابت جهانی شد و مقایسه کالاها و خدمات، پیچیدهتر گشت. در نتیجه، شرکتها از نگرش محصولمحوری به مشتریمحوری چرخش کردند.
– توانمندی فنآوری اطلاعات، به یکپارچهكردن تمام اطلاعات مشتری در سطح سازمان توجه کرده و موجب فرصتهای جدید و نیازهای مهمی در زمینه تماس با مشتری شد. تا همین اواخر امکان مدیریت اطلاعات پیچیده در خصوص مشتری نبود چرا که معمولاً اطلاعات مشتریان در حدوداَ 20 نقطه از شرکت نگهداری میشد. اما با پیشرفت فناوریهای شبکه و اینترنت، سیستم های CRM توانستند جایگاه خود را در جهان پیدا كنند.
با بکار گیری IT در قالب CRM، روش های جدیدی برای افزایش سودسازمانها و کاهش هزینههای آن ها در رابطه با مشتری پدید آمده است. در اینجا خلاصهای از بررسی تحولات تاریخی مدیریت ارتباط با مشتری در جدول آورده شدهاست(هنركاری :1386).
2-1- فرضیات تحقیق
– در این پایان نامه مدلی بومی سازی شده متناسب با ساختار فرهنگی، اجتماعی ایران ارائه خواهیم نمود.
– مدل مذكور به عنوان یک مدل جامع و كارآمد شركت مخابرات را در تحقق مفهوم اصلی مشتری مداری و رسیدن به اهداف یاری خواهد رساند.
[1] Enterprise Resource Planning ) ERP(
[1] Customer Relationship Management
1-1- موضوع تحقیق
بیماری تنفسی[1] که عموما در ارتباط با بیماری ریوی[2] است، شامل گروهی از بیماریها هستند که از طریق درگیر کردن بخش یا قسمت هایی از دستگاه تنفس[3] باعث اختلال در عملکرد ریه[4]ها میگردند. ریهها مهمترین قسمت دستگاه تنفسی هستند که در عمل تبادل گازهای تنفسی جهت تامین اکسیژن بافتهای مختلف بدن و دفع دیاکسیدکربن نقش دارند. بیماریهای ریوی در هر سال بسیاری از افراد جامعه را مبتلا می کنند که باعث کاهش سطح عملکرد فرد در فعالیتهای روزمره میگردند. بیماریهای دستگاه تنفسی در انگلستان شایعترین عامل مراجعه به پزشکان عمومی است[1]. میزان اختلال در عملکرد تنفس در یک بیماری ریوی به نوع بیماری و وسعت آسیب وارده بستگی دارد. بیماریهای ریوی میتوانند عفونت دستگاه تنفسی فوقانی[5]، پنومونی[6] و یا بیماری مزمن انسدادی ریه[7] باشند.
بیماریهای مزمن تنفسی از 10 مورد بیماریهای تهدید کننده حیات در جهان هستند[8]. مطابق آمار سازمان بهداشت جهانی[9]، صدها میلیون نفر از جمعیت جهان از بیماریهای مزمن تنفسی رنج میبرند. پیش بینی می شود تا سال 2030 میلادی به سومین عامل مرگومیر در جهان بعد از بیماریهای قلبیوعروقی و سرطانها تبدیل گردد[1]. فاکتور اصلی ما در این روند، تشخیص سریع و صحیح این بیماری در همان ابتدای روزهای بستری است.
تکنیکهای داده کاوی[10] علاوه بر اینکه میتوانند در تشخیص سریع این بیماریها موثر باشند، میتوانند از طریق شناسایی عوامل موثر در بروز انواع بیماریهای تنفسی، به پیشگیری از این بیماریها کمک کنند و به این ترتیب باعث ارتقای سلامت جامعه شده و از تحمیل هزینه های سنگین ناشی از تشخیص نادرست، بر بیماران جلوگیری کنند.
1-2. اهمیت و ضرورت تحقیق
بیماریهای مزمن تنفسی از 10 مورد بیماریهای تهدید کننده حیات در جهان هستند و پیش بینی می شود تا سال 2030 میلادی به سومین عامل مرگومیر در جهان بعد از بیماریهای قلبیوعروقی و سرطانها تبدیل گردد. گرچه، گسترش تکنولوژیهای پزشکی در دهه گذشته، موجب کاهش میزان مرگومیر ناشی از این بیماری شده است و به دلیل تشخیص زودهنگام و درمان بهینه، میزان بهبودی افزایش یافته است. اما میزان بهبودی بیماران در این نوع بیماریها بستگی به نوع بیماری و وسعت آسیب وارده به دستگاه تنفسی دارد[11]. تشخیص زودهنگام نیز به یک روش تشخیص صحیح و قابل اعتماد نیاز دارد که به پزشکان اجازه میدهد که عفونت دستگاه تنفسی فوقانی، پنومونی و بیماری مزمن انسدادی ریه را از هم شناسایی کنند. بنابراین یافتن یک متد تشخیص صحیح و موثر و همچنین عوامل خطر در بروز این بیماری، بسیار بااهمیت است.
مشکلی که در این بیماری وجود دارد این است که در ابتدا ممکن است یک سرماخوردگی یا آنفولانزای ساده بهنظر آید. گاهی حتی به مدت
زمان طولانی بیمار از این بیماری رنج میبرد. بدیهی است که در این مدت بیماری پیشرفت کرده و این تاخیر در تشخیص نوع بیماری، روند درمان را با مشکل مواجه خواهد کرد تا جایی که حتی ممکن است به مرگ بیمار منجر شود. بنابراین نیاز است تا از روشهای پیشرفتهتری برای تشخیص زودهنگام این نوع بیماریهای تنفسی استفاده شود. روشهای رایج برای تشخیص زودهنگام بیماریهای تنفسی عبارتند از: تستهای آزمایشگاهی، رادیوگرافی[12] قفسه سینه، اسکن هستهای ریه، امآرآی[13]، آسپیراسیون سوزنی[14] از طریق دیواره قفسه سینه. این روشها علاوه بر هزینه بالایی که بر بیمار تحمیل می کنند، ممکن است مضراتی را برای بیمار در پی داشته باشند. به عنوان مثال: امآرآی پرهزینه و کار با آن مشکل است. موجب مشکلات برای بیماران که دارای اجسام فلزی در بدن خود میباشند، می شود. در ضمن بیمار در حین انجام امآرآی باید بیحرکت بوده و حرکات غیرقابل پیشگیری، مانند تنفس ضربان قلب اغلب تصویر را مخدوش میسازد. همچنین برای بیمارانی که مشکلات تنفسی و کسانی که از محیطهای بسته میترسند، عبور از تونل تنگ دستگاه امآیآر توصیه نمی شود.
این در حالی است که امروزه استفاده از سیستمهای ردهبندی[15]، میتوانند به کاهش خطایی که ممکن است توسط کارشناسان کمتجربه اتفاق بیفتد، کمک کنند و همچنین امکان بررسی داده های پزشکی را در زمان کوتاهتر و با جزئیات بیشتر فراهم می کنند. تکنیکهای داده کاوی میتوانند دانش نهفته در پایگاه های داده را استخراج و در پیشگیری، تشخیص و معالجهی این بیماری به پزشک و بیمار کمک کنند.
1-3. قلمرو تحقیق
قلمرو مکانی: این داده ها مربوط به بیمارستان تخصصی کودکان حضرت فاطمه معصومه (س) استان قم میباشد.
قلمرو زمانی: داده ها بین سالهای 90 و 92 میباشد؛ یعنی قلمرو زمانی تحقیق به مدت 3 سال میباشد.
1 Respiratory disease
2 Lung disease
3 Respiratory System
4 Lunge
5 Acute upper respiratory infections
6 Pneumonia
7 Chronic lower respiratory diseases
8 http://www.salamat.gov.ir/news/
9 World Health Organization (WHO)
10 Data Mining
1 http://fa.wikipedia.org/wiki/
2 Radiography
3 Magnetic Resonance Imaging (MRI)
4 Needle Aspiration
1 Classification
:
پولشویی به عنوان یک فرایند مجرمانه مالی، اقدامی است که در آن منشأ و منبع وجوهی که به صورت غیر قانونی بهدست آمده از طریق رشته های نقل و انتقالات و معاملات به گونهای پنهان میشود که همان وجوه به صورت قانونی نمود پیدا کرده و وارد فعالیتها و مجاری قانونی میگردد. دادهکاوی به عنوان فرایندی خودکار برای استخراج اطلاعات و الگوهای جالب توجه، بارز، ضمنی، از قبل ناشناخته و بالقوه مفید از انبار دادههای حجیم، شناخته میشود. هنگامی که الگوریتمها و تکنیکهای دادهکاوی روی چنین تراکنشهائی اعمال میشوند، الگوهای پنهان از جریان وجوه را کشف میکنند. بررسی دادهها و اعلام نظر روی آن ها از دو روش کلی تبعیت می کند اول استفاده از شاخصها با بهره گرفتن از روشهای خطی و آماری و دوم استفاده از الگوریتمهای دادهکاوی که آن هم به دو صورت نظارتشده و بدون ناظر تقسیم شده و در این پروژه از هر دو روش استفاده شده است. خروجیهای این پروژه شامل مستندات علمی، روشهای داده محور برای شناسایی پولشویی، ارائه یک مدل برای پیادهسازی چارچوب ضد پولشویی در بانك و در نهایت بهرهگیری از فناوریهای نرم افزاری و پیاده سازی کل جریان پروژه میباشد. پس از اجرا، نتایج به دو صورت ارائه به متخصصان فنی و همچنین محاسبه معیارهای عملکرد متداول در دادهکاوی ارزیابی میگردد. در مراحلی از پروژه که نیاز به بررسی و آشنایی با سوابق تحقیقات در زمینۀ پولشویی و یا الگوریتمهای مرتبط با آن باشد از روش تحقیق میدانی و کتابخانهای استفاده میشود. از سوی دیگر رویکرد تحقیق نیز به صورت پیمایشی بوده که در آن با هدف مطالعۀ ماهیت و ویژگیهای مشتریان بانك فرایند تحقیق و مطالعه طی شده است. در مجموع باید گفت که از مدلی کمی در این تحقیق استفاده شده که مبتنی بر پردازش دادهها از نوع دادۀ واقعی، بوده است.
فصل اول: کلیات تحقیق
1-1- تعریف مسأله و بیان سؤال های اصلی تحقیق
تعاریف متعددی برای پولشویی عنوان شده است که از جمله می توان به موارد ذیل اشاره کرد[15]:
– بنا به تعریفی پولشویی یعنی شسته شدن و تبدیل پول کثیف به پول تمیز به نوعی که پس از خروج از این چرخه قانونی جلوه کند؛ به عبارت دیگر پولشویی عبارت است از هر نوع عمل برای مخفی کردن یا تغییر هویت نامشروع حاصل از فعالیتهای مجرمانه به گونه ای که وانمود شود این عواید از منابع قانونی حاصل شده است.
– مجموعه اقداماتی است که از سوی فرد یا افرادی با به کارگیری ابزارهای قانونی و با هدف عدم امکان قابلیت ردیابی گردش عواید حاصل از جرم به منظور مخفی کردن منشأ و منبع واقعی پول حاصل از اعمال مجرمانه و نامشروع صورت میگیرد تا پول آلوده و نامشروع در ظاهر پاک و قانونی جلوه نماید.
از این تعاریف چنین بر می آید که عملیات پولشویی به فرآِیند تطهیر پول کثیف گفته می شود. پول کثیف به پولی گفته میشود که از راههای خلاف و غیرقانونی بدست آمده باشد. از آنجا که بانکها یکی از بهترین موسساتی هستند که می توانند به پولشویان در فرایند تطهیر پول کثیف کمك کرده و مسیر دسترسی به منشا پول را گمراه و یا پاک نمایند در تمام کشورها یکی از مهمترین موسساتی که مرجع سو استفاده پولشویان قرار می گیرند بانکها هستند[44].
بدین نظر دراین پروژه ما می بایست در ابتدا به مطالعه بانکها و روشهایی که ممکن است پولشویان از آن طریق در بانکها اقدام به
پولشویی نمایند پرداخته و با بررسی این روشها و همچنین اطلاعات در دسترس جهت این روشها، الگوهای این روش و … سعی در یافتن راههایی جهت کشف، اجرا و پیاده سازی داده محور این اقدامات داشته باشیم.
در این راستا ضمن بررسی عملیات اجرا شده در بانك مورد نظر و مشورت با کارشناسان و مشاوران این بانك مشخص گردید که روشهای مختلفی جهت پولشویی توسط پولشویان در این بانك اجرا میگردد، همچنین توسط بانکها نیز روشهای متفاوتی جهت جلوگیری از این عملیات اجرا می گردد.
پیچیدگی رفتارهای مشکوك به پولشویی و همچنین حجم عظیم داده به گونهای است که بدون ابزاری هوشمند و داده محور نمیتوان در کشف پولشویی اقدام قابل توجهی انجام داد. از این رو تحقیق حاضر به دنبال یافتن پاسخ به سوال زیر میباشد:
چگونه میتوان با ارائه مدلی از روشهای داده کاوی برای کشف جرایم پولشویی استفاده کرد؟
2-1- اهمیت و ضرورت پژوهش
با توجه به اهمیت سیستمهای بانکداری و سوء استفاده از این بستر برای مقاصد پولشویی، نیاز مبرم به پیاده سازی سیستمهای ضد پولشویی از طرف دولتها و موسسات سیاست گذار در امور اقتصادی مورد توجه است . با توجه به رشد تروریسم و تقلبهای سازماندهی شده و از طرفی تصویب قوانین متعدد علیه این موارد نیاز به این سیستمها در حال افزایش است. از سوی دیگر، پیچیدگی رفتارهای مشکوك به پولشویی به گونهای است که بدون ابزاری هوشمند و داده محور نمیتوان در کشف پولشویی اقدام قابل توجهی انجام داد. نکته مهم و شاید کاربردی در ایران نزدیکی این سیستمها با سیستمهای ضد رشوه خواری، تقلب، تخلف و سیستمهای بازرسی است که میتواند به عنوان ابزاری کارآمد برای واحد بازرسی بانک تلقی گردد.
3-1- اهداف پژوهش
پولشویی فرایندی است که طی آن افراد متخلف با بهره گرفتن از امکانات مؤسسات مالی و بانکها درآمد نامشروع خود را تطهیر نموده و آن را قانونی جلوه میدهند. به منظور شناسایی این فرایند، دولتها همواره گزارشهای متعددی از بانکهای خود طلب می نمایند و بانکها موظف هستند موارد مشکوك به پولشویی را در قالب چارچوب مورد درخواست بانک مرکزی تهیه و به طور مستمر ارائه نمایند. از سوی دیگر، پیشرفت بانکداری به تدریج شناسایی روشها و رفتارهای مشکوك به پولشو یی را پیچیده ترنموده است. به طوری که شناسایی این رفتارها با توجه به حجم انبوه اطلاعات در یک بانک بدون استفاده از سیستمهای ضد پولشویی میسر نمیباشد. بر این اساس هدف اصلی تحقیق حاضر طراحی الگویی برای تقلبهای مالی در صنعت بانکداری میباشد.
انتظار میرود این مدل ضد پولشویی با جمع آوری اطلاعات پراکنده در سطح بانک عملیات پردازش و شناسایی افراد و رفتارهای مشکوك به پولشویی را در زمان مناسب انجام داده و گزارشهای مورد نیاز را تولید و ارائه مینماید.
4-1- روش پژوهش
پژوهش حاضر از نظر نوع هدف در گروه تحقیقات کاربردی قرار میگیرد. در مراحلی از پروژه که نیاز به بررسی و آشنایی با سوابق تحقیقات در زمینۀ پولشویی و یا الگوریتمهای مرتبط با آن است از مطالعات کتابخانهای و منابع آرشیوی استفاده میشود. از سوی دیگر رویکرد تحقیق نیز به صورت پیمایشی بوده که در آن با هدف مطالعۀ ماهیت و ویژگیهای مشتریان بانك فرایند تحقیق و مطالعه طی خواهد شد و در این زمینه مصاحبه با خبرگان نیز صورت میگیرد. در مجموع باید گفت که در مورد روش تجزیه و تحلیل دادهها از یک مدل کمی در این تحقیق استفاده می شود که مبتنی بر پردازش دادهها از نوع دادۀ واقعی، خواهد بود.
5-1- جامعه تحقیق
دادهکاوی این توان را دارد که سناریوهای جدیدی برای کشف نمونههای پولشویی ارائه دهد.دادهکاوی به عنوان فرایندی خودکار برای استخراج اطلاعات و الگوهای جالب توجه، بارز، ضمنی، از قبل ناشناخته و بالقوه مفید از انبار دادههای حجیم، شناخته می شود. ظهور انبارداری دادهها به عنوان یک فناوری قابل دوام بدان معنی است که در حال حاضر،سازمانهای اجرایی قادر به تحکیم معاملات مالی از نهادهای مختلف در چندین کشور میباشند. این امرنمایشی تلفیقی از انتقال وجوه را ارائه میدهد که به تجزیه و تحلیل معاملات کمک میکند. هنگامی که الگوریتمها و تکنیکهای دادهکاوی روی چنین تراکنشهایی اعمال می شوند، الگوهای پنهان حاکم بر جریان وجوه را کشف میکنند. [28]
همراه شدن اطلاعات مشتری و دانش خبرگان منجر به آن میگردد که معاملات مشکوک شناسائی شوند.سیستم ضد پولشویی قابلیت اجرا با الگوریتمهای نظارت شده[1] و بدون نظارت[2] را به طور همزمان دارد.در این سیستم علاوه بر به کارگیری الگوریتمهای رایج در دادهکاوی،
شاخصهایی محاسبه میشوند که میتوانند بخوبی ملاکی برای میزان مشکوک بودن عملکرد یک مشتری باشند و بر اساس آن شاخصها، دادههای پرت (خارج از محدوده) تفکیک و شناسایی شوند.
در این پروژه با توجه به نیازمندیهای طرح و محوریت پروژه بر اساس دادههای بانکی، تراکنشهای یک بازه زمانی شش ماهه در یکی از شعب بانک به عنوان جامعه تحقیق انتخاب و مورد استفاده قرار میگیرد.
[1]Supervised
[2]Unsupervised
و بیان مسئله
امروزه رایانه در تمام لایههای زندگی بشر نفوذ کرده است. بطوریکه استفاده از فناوری رایانه در حوزه زبانشناسی، بیش از پیش احساس میشود. «پردازش زبان طبیعی»شاخهای از علم «هوش مصنوعی» است كه به ماشینی كردن فرایند زبان شناسی سنتی میپردازد. به این ترتیب با بهره گرفتن از رایانه میتوان «زبان گفتاری ونوشتاری» را پردازش نمود، به طوریکه رایانهها نیز قادر باشند زبان انسان را درک کرده و بتوانند از زبان طبیعی به عنوان ورودی وخروجی استفاده كند. به این ترتیب یک رایانه، درهنگام دریافت ورودی، نیاز به «درک» و درهنگام ارسال خروجی، نیاز به «تولید» زبان طبیعی دارد. ]81[
در زمینه پردازش زبان طبیعی پژوهشهایی مانند طبقهبندی متون، برچسبگذاری ادات سخن، تعیین و ابهامزدایی از معانی واژگان و… انجام شده است که تنها بر روی یک حوزه خاص تمرکز داشتهاند و در نتیجه راه حلهایی جزئی در راستای اهداف کلی پردازش زبان طبیعی محسوب میشوند. تمامی این حوزههای جزئی باید حل شوند تا در نهایت رایانه بتواند همانند انسان واژگان و جملات را پردازش کرده و یا آنها را بسازد.
وظایف زبان طبیعی را میتوان به ریز کاربردها و کلان کاربردها افراز نمود. به طور کلی تا کنون تحقیقات انجام شده بیشتر بر روی پردازشهایی در سطح واژه و یا جمله (مانند برچسب گذاری ادات سخن، ابهام زدائی از مفهوم واژگان، شناسایی موجودیتهای نامدار و … ) و یا در سطح کل متن (تشخیص هرزنامه، رده بندی متون و…) متمرکز شده اند؛ برخی از کاربردها نیز مانند استخراج اطلاعات، تشخیص مرجع مشترک و ماشین ترجمه در سطح بینابین قرار گرفتهاند. ]27[بدیهی است که در توسعه یک کاربرد سطح بالاتر همانند تعیین ویژگیهای معنایی متون، انواع متفاوتی از ویژگیهای سطح پایینتر (مانند ویژگیهای لغوی و نحوی) نیز لازم است، اما به لطف سیستمهای جدید که تا حد زیادی به روشهای آماری یادگیری ماشین بستگی دارند، دیگر در آنها، به تمامی ویژگیهای سطح پایینتر نیازی نیست. علت اینکه روشهای یادگیری ماشین توانستهاند با وجود سادگی، به موفقیت قابل توجهی دست یابند این است که اطلاعات آماری پایه، دانشی را فراهم میآورد که برای بسیاری از کاربردها کافی بوده و میتواند به کارائی قابل توجهی منجر شود. با این وجود، باید توجه داشت که روشهای آماری محدود است و هرگز نمیتوانند درک کاملی از محتوای معانی یک متن را فراهم آورند.
از طرفی دیگر، با فراهم شدن اطلاعات و قدرت محاسباتی بیشتر، سیستمهایی که واژگان و جملات درست را از غلط تشخیص میدهند، به طور گستردهای در حال توسعه هستند. به عنوان مثال، در زبان انگلیسی برچسب گذاری ادات سخن به صحتی برابر با ۹۸%، شیوههای تجزیه کردن به صحتی برابر با ۹۰%، و شناسایی موجودیتهای نامدار به صحت ۹۱% رسیده اند. [78,55,38[.
بسیاری از پژوهشگران معتقدند كه استخراج اطلاعات به عنوان یکی از مهمترین کاربردهای پردازش زبان طبیعی محسوب میشود، که مجموعهای از تکنیکهای ردهبندی، خوشهبندی و قوانین وابستگی است و خروجی استخراج اطلاعات شامل، شناسایی موجودیتها ، تعیین نوع وگروه آنها، طبقه بندی ارتباط میان موجودیتها و همچنین استخراج رویدادهایی كه در آن مشاركت دارند، میباشد.[71[ در نهایت میتوان گفت كه خلاصه سازی، بازیابی اطلاعات، دادهكاوی، پرسش و پاسخ و درك زبان از جمله كاربردهای این سیستم هستند.
تمرکز اصلی این پژوهش بررسی فرایند تشخیص مرجع مشترک به عنوان یکی از فرایندهای مهم استخراج اطلاعات است؛ در تشخیص مرجع مشترک تمام عبارتهای اسمی که به یک موجودیت واحد در دنیای واقعی اشاره دارند، تعیین میگردند. هدف نهایی این پایان نامه شناسایی اشارههای هم مرجع شامل ضمیر و اسم اشاره در متون پارسی میباشد. برای تحقق این هدف نیاز به انجام پیش پردازشهایی بر روی متون خام میباشد تا دادههای مورد نیاز برای ورود به فرایند تحلیل مرجع مشترک فراهم شوند. فرض ما بر این است که خروجی حاصل از فرایند کشف اشاره به عنوان یک پیش پردازش میتواند در کنار سایر پیمانههای پیش پردازشی مانند تجزیهگر، شناسایی موجودیتهای نامدار و… بر بهبود عملکرد تحلیل مرجع مشترک موثر واقع شود. [23،38،53،83]
به هر ترتیب شناسایی عبارتهای اسمی هممرجع از مهمترین زیر وظایف استخراج اطلاعات میباشند که بهبود عملکرد آن موجب بهبود عملکرد کلی سیستم استخراج اطلاعات و سایر سیستمهای مرتبط با آن خواهد شد.
واحد مورد بررسی در حوزه تشخیص مرجع مشترک، متن می باشد که پس از اجرای ماژولهایی متفاوت، متن مورد نظر به عبارت های اسمی یا به عبارت بهتر به اشاره تبدیل میشود. روشهای موجود در این حوزه، به دو دسته روشهای زبانشناسی و روشهای یادگیری ماشین تقسیم میشوند. [76[ در روش اول، ابتدا به ازای هر عبارت اسمی، مراجع کاندیدا تعیین میشود و سپس با به کارگیری مجموعهای از قواعد زبانشناسی، برخی از کاندیداها حذف شده و کاندیداهای باقیمانده نیز امتیازدهی میشوند و درنهایت کاندیدایی به عنوان مرجع برگزیده میشود که بیشترین امتیاز را کسب کرده باشد. مسئله اصلی در این روش این است که کسب اطلاعات زبانشناسی مورد نیاز، فرایندی زمانبر، پرهزینه و پر خطاست. البته با پیدایش پیکرههای زبانشناسی و موفقیت روشهای یادگیری ماشین در سایر حوزهها، روشهای زبانشناسی جای خود را به روشهای یادگیری ماشین دادند. در یادگیری ماشین، به محاسبات زبانشناسی پیچیده و سطح بالای روشهای زبانشناسی نیاز نیست به طوریکه با بهره گرفتن از دانش اندکی در زمینه زبانشناسی نیز میتوان به نتایج خوب و قابل توجهی دست یافت.
از سوی دیگر، امروزه اغلب پژوهشگران فرایند تشخیص مرجع مشترک را به دو مرحله تقسیم می کنند. (۱) کشف و شناسایی اشاره؛ برای شناسایی عبارتهای اسمی که به موجودیت ها در دنیای واقعی اشاره دارند، (۲) شناسائی اشارههایی که به یک مرجع واحد اشاره دارند. به این ترتیب در مرحله اول، اکثر عبارتهای اسمی تحت عنوان اشاره و در قالب چهار گروه اصلی ضمایر، اسامی خاص، اسامی عام و غیر اشارهها قرار میگیرند،[8،910،16،48،53،72] سپس این فرایند مشخص میکند که هر اشاره به کدام موجودیت در دنیای واقعی اختصاص دار[26]میتوان گفت که فرایند کشف اشاره، توسعه یافتهی فرایند شناسایی موجودیتهای نامدار میباشد که علاوه بر شناسایی اسامی خاص، به شناسایی اسامی عام و ضمایر نیز میپردازد. [،23،72،81،113،114]از آنجائیکه بررسی فرایندهای شناسایی اشاره و تحلیل مرجع مشترک به طور همزمان خارج از حوزهی این پایان نامه است، ما عبارتهای اسمی را در قالب انواع اشارههای گفته شده در پیکرهای تحت عنوان لوتوس برچسبگذاری مینمائیم و نتیجهی آن را برای تحلیل مرجع مشترک به کار خواهیم برد.
چارچوب کلی این پایان نامه به این صورت میباشد: در بخش دوم این فصل گذری کوتاه بر انواع روابط میان دو عبارت اسمی و به خصوص ارتباطهای هممرجعی خواهیم داشت. سپس در بخش اول فصل دوم، روشهای ارائه شده برای تشخیص مرجع مشترک را مورد بررسی و مطالعه قرار میدهیم و در بخش دوم آن، به نحوه ایجاد پیکرهای مناسب برای کشف اشاره و تحلیل مرجع مشترک خواهیم پرداخت. در فصل سوم، به الگوریتمهای مناسب برای این پایان نامه را معرفی می نمائیم. سیستم پیشهنادی برای شناسایی اشارههای ارجاع شده در فصل چهارم معرفی خواهد شد و همچنین در این فصل الگوریتمهای یادشده را مورد ارزیابی قرار میدهیم. در نهایت در فصل پنجم نیز به نتیجه گیری و پیشنهاد كارهای آتی در ادامهی این پژوهش خواهیم پرداخت.
1-2.بررسی ارتباط هم مرجعی
یکی از ویژگیهای خاص گفتمان این است که میتوان در یک متن آزادانه در مورد یک یا چند موجودیت صحبت کرد و برای اشاره به هر موجودیت از انواع مختلف عبارتها مانند ضمیر (او)، اسم عام (دانشمند)، اسم خاص (لطفعلی عسگر زاده) و یا یک عبارت اسمی(بنیانگذار منطق فازی) بهره برد تا به این ترتیب از تکرار عبارتها کاسته و شیوایی مطلب نیز افزایش یابد. همین ویژگی موجب میشود که زنجیرههای بالقوهای از تمام عبارتهای اسمیکه به یک موجودیت واحد در متن ارجاع دارند، ایجاد گردد. (مانند: او، دانشمند، لطفعلی عسگر زاده، بنیانگذار منطق فازی که به شخص پرفسور زاده اشاره دارند).
یکی از اهداف مهم استخراج اطلاعات، شناسایی این زنجیرهها در متن است که در فرایند تحلیل مرجعمشترک انجام میپذیرد. برای شروع، مثال ۱ را در نظر بگیرید:
مثال۱: (سیستم آبیاری گلاب) ۱Ant, در روز سه شنبه رونمایی شد. (این سیستم)۱Ana, محصول اندیشهی (دکتر سارا شکری)۲Ant, است. (او) Ana,2، ( یک پژوهشگر)Ana در (شرکت آبیاری لاله)۳ است.
اگر فرض کنیم که پیمانههای نشانهگذاری تا کشف اشاره به عنوان پیش پردازشهایی بر روی متن اجرا شوند، با اجرای این پیمانهها، انواع عبارتهای اسمیموجود در متن (سیستم آبیاری، این سیستم، دکتر سارا شکری، او، یک پژوهشگر و شرکت آبیاری لاله) تعیین و نشانهگذاری میشوند. سپس با اجرای پیمانه تشخیص مرجعمشترک، ارتباطات میان این عبارتها و اطلاعات نهفته در مورد موجودیتهای شرکت کننده در متن آشکار میشود. به عنوان نمونه، میدانیم «او» و «سارا شکری» (با اندیسِ۲) به یک فرد مشخص و همچنین «سیستم آبیاری گلاب» و «این سیستم» (با اندیسِ۱) نیز به یک سیستم مشخص اشاره میکنند.
استفاده از اصطلاح موجودیت در تحلیل مرجعمشترک، این سؤال را مطرح میکند که چه چیزهایی موجودیت محسوب میشوند؟ تاکنون گروهبندیهای متعددی برای انواع موجودیتها ارائه شده است، به عنوان نمونهACE، یک تقسیم بندی هفت موجودیتی برای انواع موجودیتها (شخص، سازمان، مکان، سیاسی، تسهیلات، سلاح و خودرو) و تعداد زیادی زیرگروه (به عنوان مثال شخص: فرد، گروه) و کلاس برای هر موجودیت پیشنهاد کرده است و[۶۴] که اغلب پژوهشگران همه این موجودیتها و یا گاهی اوقات برخی از آنها را مورد مطالعه و بررسی قرار میدهند.
یکی از ویژگیهای تحلیل مرجعمشترک این است که علاوه بر انواع موجودیتهای رایج، میتوانیم در حوزههای متفاوت از تعاریف پیش فرض خود نیز برای موجودیتها نیز استفاده نماییم. همین ویژگی موجب شده است تا برخی از پژوهشگران مانند[97] به تحلیل مرجعمشترک در متون پزشکی پرداخته و بررسی موجودیتهایی مانند انواع دارو، بیماری، ژن وغیره را هدف پژوهش خود قرار دهند.
با توجه به آنچه تاکنون گفته شد، انتظار میرود که با بررسی مراجع مشترک در مثال ۱، عبارت «یک پژوهشگر» نیز به همراه «او» و «سارا شکری» در یک زنجیره واحد قرار گیرد، اما خروجی پیمانه تحلیل مرجعمشترک چنین نیست. هر چند از نظر ما این ارتباط کاملاً بدیهی است اما واقعیت این است که عبارت «یک پژوهشگر» به عنوان ارجاع به موجودیت شخص (در مثال ۱: سارا شکری) که در دنیای واقعی زندگی میکند در نظر گرفته نمیشود، چون منظور از «یک پژوهشگر» میتواند هر شخص دیگری نیز باشد. در این حالت فرایند دیگری تحت عنوان تحلیل پیشایند میتواند ارتباط میان «یک پژوهشگر» و «سارا شکری» را تشخیص دهد.
همان طور که مشاهده شد، تحلیل مرجعمشترک و تحلیل پیشایند دو مفهوم نزدیک به هم میباشند به طوری که عموماً به موازات تحلیل مرجعمشترک، با تحلیل پیشایند روبرو میشویم و حتی برخی به اشتباه این دو عبارت را معادل یکدیگر میپندارند. با وجود اینکه این دو پیمانه از بسیاری از جهات با یکدیگر مشابه هستند، اما از جهاتی نیز با یکدیگر تفاوت دارند، و عدم توجه به این مسئله موجب سردرگمیو ایجاد ابهام در تحلیل متن میگردد.در این بخش، هدف ما بررسی هرکدام از این فرایندها و مطالعه برخی از شباهتها و تفاوتهای میان این دو فرایند میباشد.
[1] معادل پارسی عبارت انگلیسی Natural Language processing
[2] معادل پارسی عبارت انگلیسی Artificial Intelligence
[3] معادل پارسی عبارت انگلیسی Text classification
[4] معادل پارسی عبارت انگلیسی Part of speech tagging
[5] معادل پارسی عبارت انگلیسی Word sense disambiguation
[6] معادل پارسی عبارت انگلیسی Micro-task
[7] معادل پارسی عبارت انگلیسی Macro-task
[8] معادل پارسی عبارت انگیسی Named Entity Recognizers(NER)
[9] معادل پارسی عبارت انگیسی Spam Detection
[10] معادل پارسی عبارت انگیسی Information Extraction(IE)
[11] معادل پارسی عبارت انگیسی Coreference Resolution(CR)
[12] معادل پارسی عبارت انگیسی Machin Translation(MT)
[13] معادل پارسی واژه انگیسی Lexical
[14] معادل پارسی واژه انگیسی Syntactical
[15] معادل پارسی واژه انگیسی Parsing
[16] معادل پارسی واژه انگیسی Classification
[17] معادل پارسی واژه انگلیسی Clustering
[18] معادل پارسی عبارت انگلیسی Association pules
[19] معادل پارسی واژه انگلیسی Entity
[20] معادل پارسی عبارت انگلیسی Information Retrieval(IR)
[21] معادل پارسی عبارت اانگلیسی Data Mining
[22] معادل پارسی عبارت انگلیسی question/Answering
[23] معادل پارسی عبارت انگلیسی Text understanding
[24] معادل پارسی عبارت انگلیسی Mention Detection
[25] معادل پارسی واژه انگلیسی linguist
[26] معادل پارسی عبارت انگلیسی Machin Learning(ML)
[27] معادل پارسی واژه انگلیسی Corpus
[28] معادل پارسی واژه انگلیسی Entitiy
[29] هرآنچه كه به موجودیت خاص درمتن ارجاع داده شده است
[30] معادل پارسی واژه انگلیسی Pronominal
[31] معادل پارسی عبارت انگلیسی Proper Name
[32] معادل پارسی واژه انگلیسی Nominal
[33] معادل پارسی عبارت انگلیسی Out of Mention
[34] در این فصل دو نوع اندیس برای هر عبارت اسمی در نظر گرفتهایم، اندیس شماره برای تشخیص مرجع مشترک می باشد، یه عنوان مثال، سیستم آبیاری گلاب و این سیستم هر دو به یک موجودیت اشاره دارند و اندیس این موجودیت 1 می باشد. همچنین اندیس Ant نشانگر مقدم و اندیس Ana نشانگر تالی است که برای بررسی ارتباط پبشایندی در نظر گرفته شده است.
[35] معادل پارسی عبارت انگلیسی Automatic Content Extraction