۲- مرز تصمیم گیری به گونه ای باشد که فاصله نزدیکترین نمونه های آموزشی هر دو کلاس از یکدیگر در راستای عمود بر مرز تصمیم گیری تا جایی که ممکن است.
این متد شبیه به شبکه های عصبی است که به جای خط جدا کننده، بدنبال بهترین خط جدا- کننده ای است که دارای حداکثر حاشیه[۱۰۹] باشد. یعنی بهترین خط جدا کننده ای که با نزدیکترین نقطه، کمترین فاصله را داشته باشد. حداکثر کردن حاشیه ابر صفحه ، بردار های پشتیبان اطلاق می گردد. حداکثر کردن حاشیه ابر صفحه منجر به حداکثر شدن تفکیک بین طبقات می شود. تنها از این بردار (نقاط) برای مشخص کردن مرز بین طبقات استفاده می شود (کیونگ،تایک،هیونگ[۱۱۰]،۲۰۰۵، ۱۳۰).
(( اینجا فقط تکه ای از متن درج شده است. برای خرید متن کامل فایل پایان نامه با فرمت ورد می توانید به سایت feko.ir مراجعه نمایید و کلمه کلیدی مورد نظرتان را جستجو نمایید. ))
اگر داده ها به صورت خطی مجزا ازهم باشند، ماشین بردار پشتیبان به ماشین های خطی برای تولید یک سطح بهینه که داده ها را بدون خطا و با حداکثر فاصله میان صفحه و نزدیکترین نقاط آموزشی (بردارهای پشتیبان) تفکیک می نماید، آموزش می دهد. اگر نقاط آموزشی را به صورت و بردار ورودی i=1,….Iو{۱و۱-} تعریف می کنیم، آنگاه در حالتی که داده ها به صورت خطی قابل تفکیک هستند، قواعد تصمیم گیری که تعریف می شود و توسط یک صفحه بهینه که طبقات تصمیم گیری باینری را تفکیک می کند، به صورت معادله زیر است :
رابطه ۳-۲ : تابع تصمیم گیری در حالت خطی
y = sign {
که در آن Y خروجی معادله، ارزش طبقه نمونه آموزشی و نشان دهنده ضرب داخلی است. بردار X = () نشان دهنده یک داده ورودی و بردارهای و i=1,2,….,N بردارهای پشتیبان هستند. در معادله فوق، پارامترهای و تعیین کننده ابر صفحه هستند.
اگر داده ها به صورت خطی قابل تفکیک نباشند، معادله فوق به معادله زیر تغییر می یابد :
رابطه ۳-۳ : تابع تصمیم گیری در حالت غیر خطی
Y = sign {
تابع ، تابعی کرنلی است که برای ایجاد ماشین هایی با انواع مختلفی از سطوح تصمیم گیری غیر خطی در فضای داده ها، ضرب های داخلی تولید می کند.(وانگ[۱۱۱]،۲۰۰۵، ۸)
در ماشین بردارپشتیبان انتخاب بهینه ویژگی ها در دقت مدل تأثیر بسزایی دارد از این رو در سالهای گذشته بسیاری از تحقیقات بر روی ماشین بردارپشتیبان، بر روی انتخاب بهینه پارامترها متمرکز میباشند.
تعدادی از نقاط آموزشی که کمترین فاصله تا مرز تصمیم گیری را دارند می توانند به عنوان زیر مجموعه ای برای تعریف مرزهای تصمیم گیری و به عنوان بردار پشتیبان در نظر گرفته شوند. این تکنیک به صورت موفق برای مشکلاتی که برای طبقه بندی الگوهای مختلف وجود دارد ، به کار گرفته می شود. این روش نیازمند حل مشکل بهینه سازی درجه دوم و نیاز زمان آموزش است.
برای بهبود عملکرد دسته بندی کننده بهتر است تا ویژگی های مهم را انتخاب کرده و از پرداختن به ویژگی های کم اهمیت اجتناب گردد. نکته ای باید در اینجا متذکر شد این است که انتخاب ویژگی های مستقل از الگوریتم یادگیری است که در ساختارهای دسته بندی، الگوریتم انتخاب زیرمجموعه ای از ویژگی ها را می توان به دو دسته تقسیم بندی کرد: روش فیلتر و روش وارپر. در روش فیلتر[۱۱۲] ابتدا ویژگی های مهم انتخاب شده، سپس از ماشین بردار پشتیبان برای دسته- بندی استفاده می شود در روش وارپر[۱۱۳] مهمترین ویژگی ها برای هر دو مجموعه تست و آموزش یا ترکیب هردوی این ها به همراه ابزارهای بهینه سازی دیگر جهت انتخاب ویژگی ها در نظر گرفته میشود(چنگ و همکاران[۱۱۴]،۲۰۰۶، ۸۵۲)
ماشین های بردار پشتیبان دارای خواص زیر هستند :
۱- طراحی طبقه بندی کننده با حداکثر تعمیم ۲- رسیدن به نقطه بهینه کلی تابع ۳- تعیین خودکار ساختار و توپولوژی بهینه برای طبقه بندی کننده ۴- مدل کردن توابع تمایز غیر خطی با بهره گرفتن از هسته های غیر خطی و مفهوم حاصل ضرب داخلی در فضاهای هیلبرت.
تکنیک های یادگیری ماشینی بخشی از علم هوش مصنوعی به شمار می آیند. ماشین بردار- پشتیبان به طور مؤثر و موفق در گستره وسیعی از شاخه های تجاری همچون بازاریابی، حسابداری، سیستم های اطلاعاتی مدیریت و مدیریت تولید، مدیریت مالی مانند رتبه بندی اعتباری و پیش بینی سری های زمانی مالی، بکار گرفته می شود. در اکثر تحقیقات در سالهای اخیر از روش های یادگیری ماشینی برای پیش بینی تغییرات آتی سهام، بحران های مالی، ورشکستگی، شناسایی کلاهبرداری کارت های اعتباری بکار گرفته شده است.
۳-۸-۳ : درخت تصمیم
درختان تصمیم از سال ۱۹۸۰ مطرح شدند و در جهت توسعه مدلهای رتبه بندی اعتباری مورد استفاده قرار گرفتند. درختان تصمیم به عنوان یک ابزار قدرتمند و قابل انعطاف در دسته بندی محسوب می شوند(دیویس و گامرمن[۱۱۵]،۱۹۹۲، ۴۸). ماکوسکی[۱۱۶] (۱۹۸۵) از اولین کسانی است که روش درخت طبقه بندی را در اندازه گیری اعتبار به کار گرفت.
متداول ترین وظیفه داده درخت تصمیم گیری، کلاس بندی می باشد. مقصود اصلی در درخت تصمیم گیری، تقسیم داده ها به صورت بازگشتی به زیرمجموعه هایی است به گونه ای که هر زیرمجموعه در برگیرنده وضعیت همگنی از متغیر هدف می باشد. در هر تقسیم درخت، تمام مشخصه های ورودی به منظور تأثیرشان بر روی مشخصه های قابل پیش بینی به صورت بازگشتی ارزیابی می شوند. زمانی که پردازش بازگشتی کامل شد، درخت تصمیم گیری شکل گرفته است.
در رتبه بندی اعتباری از درختان باینری استفاده می شود، چرا که در آن مشتریان در دو دسته قرار میگیرند.
درختان تصمیم گیری تنها مقادیر ویژگی های گسسته را توسط متغیر هدف (ویژگی کلاس یا ویژگی وابسته) پیش گویی می کند. این پیش گویی توسط متغیر کلاس که ویژگی هدف یا ویژگی وابسته نیز نامیده می شود، صورت می گیرد. مقادیر ویژگی هدف، وابسته به مقادیر متغیرهای (ویژگیهای) مستقل (توصیف کننده) و وجود آنها در ساختار درخت تصمیم گیری است.(هیگر و پاو[۱۱۷]،۲۰۰۳، ۶)
در طبقه بندی نمونه به روش درخت تصمیم گیری، به این صورت عمل نمی شود که امتیازی به هر شاخص داده شده و سپس مقادیر شاخص ها با هم جمع شود. در مقابل در این روش، مشتریان به گروه هایی تقسیم می شوند که هر گروه در داخل خود از نظر ریسک قصور در اعتبار کاملاً همگن می باشد و بین گروه ها نیز از حیث ریسک قصور در اعتبار، ناهمگنی زیادی مشاهده می شود. درخت تصمیم گیری بر خلاف شبکه های عصبی به تولید قانون می پردازد. یعنی درخت تصمیم گیری پیش بینی خود را در قالب یک سری قوانین توضیح می دهد در حالیکه در شبکه های عصبی تنها پیش بینی نهایی بیان می شود و چگونگی آن در خود شبکه پنهان باقی میماند.(کارپتین[۱۱۸]،۱۹۹۹، ۱۱۰)
محققینی نظیر کافمن[۱۱۹] (۱۹۸۶) روش درخت طبقه بندی را با روش تجزیه و تحلیل تشخیص مقایسه کرده و به این نتیجه رسید که درخت طبقه بندی زمانی بهتر است که میان متغیرها تعامل وجود داشته باشد.
به طور کلی می توان مزایای استفاده از روش درخت تصمیم نسبت به سایر تکنیک های داده کاوی را به شرح زیر بیان نمود :
نسبت به سایر مدل های دسته بندی، زودتر محاسبه می گردد. ۲- معمولاً دقت آن نسبت به سایر مدل ها بهتر است. ۳- برای یاد گیری ساده و آسان است. ۴- قانون های بدست آمده در آن راحت تر درک می شود. ۵- مزیت الگوریتم درخت تصمیم گیری نسبت به سایر الگوریتم های داده کاوی این است که مدل آن سریعتر ساخته و آسان تر تفسیر می شود. ۶- پیش بینی ها بر اساس درخت تصمیم گیری مؤثر و کارآمدترند.
یکی از محدودیتهای این روش، ناپایداری آن می باشد. بدین صورت که تغییرات کوچک در نمونه داده ممکن است تغییرات بزرگی در دسته بندی نمونه ها را در برداشته باشد.
این الگوریتم بیشتر زمان هایی کاربرد دارد که ۱- متغیرهای مستقل از همدیگر مستقل نیستند به عبارت دیگر که میان متغیرها تعامل وجود داشته باشد ۲- از فرض نرمال بودن متغیرها برخوردار نیست و ۳- از فرض روابط خطی برخوردار نیست.
۳-۹- مؤلفه های تحقیق
متغیرهای متعددی در دو حوزه متغیرهای کیفی و کمی و حوزه نسبت های مالی مورد بررسی قرار می گیرد که عبارت است از :
متغیرهای کیفی و کمی
پارامترهایی که هریک از مشتریان برای دریافت تسهیلات به بانک ارائه می دهند و در پرونده آنها موجود است مثل نوع شرکت (سهامی عام، سهامی خاص و با مسئولیت محدود)، موضوع فعالیت شرکت (تولیدی، خدماتی و بازرگانی)، سابقه فعالیت شرکت، میزان سرمایه شرکت، مبلغ وام، سطح تحصیلات مدیر عامل، وضعیت مالکیت محل فعالیت، وضعیت مالیاتی، اعتبار شرکت نزد بانک (خوش حساب یا بدحساب بودن)
نسبت های مالی
نسبت های سودآوری : نسبتهای بازده دارایی، بازده حقوق صاحبان سهام، بازده فروش (حاشیه سود خالص)، نسبت سود قبل از مالیات به دارایی جاری، نسبت سود عملیاتی، نسبت سود قبل از مالیات به سود ناخالص، نسبت بازده سرمایه در گردش، نسبت بازده دارایی ثابت
نسبت های اهرمی : نسبتهای بدهی به حقوق صاحبان سهام، نسبت بدهی، مالکانه، نسبت بدهی جاری به دارایی جاری
نسبت های فعالیت و کارآیی : نسبت گردش دارایی ها، گردش سرمایه جاری، نسبت متوسط دوره وصول مطالبات
سایر نسبتها : نسبت تسهیلات مالی دریافتی کوتاه مدت به بدهی جاری، نسبت تسهیلات مالی دریافتی به دارایی، نسبت تسهیلات مالی دریافتی کوتاه مدت به فروش خالص، نسبت دارایی سریع به دارایی، نسبت سود قبل از مالیات به بدهی جاری
با توجه به تعداد متغیرها، به منظور تعیین مدل بهینه و بالا بردن دقت مدل و از سویی محدودیت های روش های کاربردی در رابطه با تعداد متغیرهای توضیحی، براساس مطالعات پیشین متغیرهای فوق انتخاب گردیدند و در مدل قرار خواهند گرفت. از سویی دیگر، از آن جایی که بسیاری از متغیرها، از صورتهای مالی و اطلاعات پایه ای آن استخراج می شوند، ممکن است به صورت دو به دو با یکدیگر همبستگی داشته باشند برای جلوگیری از عدم همپوشانی آنها، بر اساس نظر کارشناسان امر، تعدادی از این متغیرهای به هم وابسته و متغیرهایی که تأثیر قابل توجهی در خروجی سیستم ندارند، حذف می گردند. از این رو متغیرهای شناخته شده در بدو امر متغیرهای کاندید تلقی شده و به عنوان ورودی بکار گرفته می شوند.
فصل چهارم
تجزیه و تحلیل
یافته های تحقیق
مقدمه
در این فصل با بهره گرفتن از داده های جمع آوری شده از چک لیستها که براساس مصاحبه و مشاهدات ثبت گردید است، و همچنین با بهره گرفتن از نمونه های آماری تحقیق که شامل ۳۰۰ شرکت که در سالهی ۸۹ و ۹۰ از بانک تسهیلات اعتباری دریافت کرده اند، فرضیه های تحقیق مورد آزمون قرار میگیرند. روش آزمون فرضیات در مطالعه حاضر، تکنیکهای داده کاوی می باشد که با بهره گیری از نرم افزار SPSS Clementine V12 انجام خواهد شد. در ادامه ابتدا به منظور کسب شناخت بیشتر درباره جامعه آماری و متغیرهای مورد مطالعه، خلاصه ای از آمار توصیفی متغیرهای تحقیق ارائه می گردد. سپس بر اساس طبقه بندی های صورت گرفته در خصوص فرضیه های تحقیق، به گزارش آزمون فرضیه ها و تجزیه و تحلیل نتایج حاصل پرداخته می شود.
۴-۱- توصیف داده های گردآوری شده
داده ها در این تحقیق به دو دسته تقسیم می گردند : ۱- متغیرهای کیفی و کمی ۲- نسبتهای مالی
اسامی متغیرهای کیفی و کمی در فصل قبل ذکر گردید در این فصل به توصیف برخی از آنها میپردازیم.
تحصیلات مدیر عامل : یکی از متغیرهای کیفی (اسمی) تحقیق می باشد که شامل ۵ طبقه میباشد که عبارت است از : دیپلم، فوق دیپلم، لیسانس، فوق لیسانس، دکترا. نحوه توزیع آن در نمودار زیر نمایش داده شده است.
نمودار ۴-۱ : نمودار نحوه توزیع مدرک تحصیلی مدیران عامل
منبع : یافته های پژوهشگر
جدول۴-۱ : جدول توزیع فراوانی مدرک تحصیلی مدیران عامل