دانلود تحقیق داده کاوی (Data Mining) با فرمت ورد ودر 118 صفحه قابل ویرایش
قسمتی از متن تحقیق
فهرست مطالب
فصل اول/تعریف داده کاوی
1-1نعاریف داده کاوی2
1-2 مراحل فرایند کشف دانش از پایگاه 4
1-3 تاریخچه داده کاوی8
1-4 کارکرد داده کاوی9
1-5 مفاهیم اساسی در داده کاوی11
1-6 داده کاوی چگونه کار می کند12
1-7 قابلیتهای داده کاوی13
فصل دوم/کاربرد داده کاوی
2-1 مثالی کلاسیک از کاربرد داده کاوی17
2-2داده کاوی و آمار18
2-2-1 تفاوت داده کاوی و آنالیز آمار18
2-2-2 آنالیز آماری19
2-2-3 روش آنالیز آماری 19
2-3 فواید و نقش داده کاوی در فعالیت شرکت ها20
2-4 کاربرد داده کاوی در کتابخانه ها و موسسات دانشگاهی21
2-4-1 پیشرفت در تکنولوژی داده پردازی23
2-4-2 عناصر داده کاوی24
2-4-3 فنون داده کاوی25
2-5 پروژه داده کاوی پیوند27
2-6 داده کاوی و کاربرد آن در کسب و کار هوشمند بانک29
2-6-1 بازاریابی 30
2-6-2 مدیریت ریسک31
2-6-3 تشخیص تقلب31
2-6-4 به دست آوردن و حفظ مشتری31
2-7 فرصت و چالش های داده کاوی در شهر الکترونیکی32
2-7-1 داده کاوی چیست36
2-7-2 زمینه و تکامل تدریجی داده کاوی در شهر الکترونیک37
2-8 کاربرد داده کاوی در شهر الکترونیکی39
2-8-1 کشف علايق و انگيزههاي شهروندان و توليد سرويسهاي شخصيسازي39
2-8-2 تجديد ساختار سايت وب شهر و افزايش کارايي سيستم40
2-8-3 تقويت برنامهريزيهاي دولت و ترويج نوآوري41
2-8-4 بهبود تحليلها و تصميمات دولت42
2-9 کاربردهای داده کاوی در کتابخانه ها و محیط های دانشگاهی43
2-9-1 مدیریت و خدمات کتابخانه43
2-9-2 تذکرات نهایی47
2-10 الگوريتم هاي داده كاوي براي طبقه بندي دانشجويان49
2-10-1 نتیجه های آزمایشی51
2-11 مشكلات تجاري براي داده كاوي52
2-11-1 روش كار داده كاوي53
فصل سوم/الگوریتم های داده کاوی
3-1 استخراج الگوريتم ها(تجزيه و تحليل سرويس ها-داده كاوي) 56
3-2 انواعي از الگوريتم ها داده كاوي56
3-2-1 بکار بردن این الگوریتم ها57
3-3 جرئیات الگوریتم58
3-4 طراحي SPAM59
3-4-1 ابزاري براي کاوش در شبکة گستردة جهان59
3-4-3 دادهكاوي61
3-5 معماري يك سيستم دادهكاوي62
3-6 وبكاوي63
3-6-1 انواع عملياتي که در وبکاوي انجام ميشوند63
3-6-2 كاوش محتوايي وب 64
3-6-3 کاوش ساختاري وب64
3-6-4 کاوش کاربردی وب 67
3-6-5 روشها و ابزارهاي وب كاوي67
3-6-6 مقياسهاي اصلي براي مقايسه روشهاي وب كاوي69
3-7 انواع موتورهاي جستجو70
3-7-1 کاوشگر وب70
3-7-2 دروازه وب 71
3-7-3 مقايسة موتور جستجوهاي دروازه وب و کاوشگر وب73
فصل چهارم/نرم افزار های داده کاوی
4-1 نرم افزار داده کاوی SPSS Clementine 77
4-2 داده كاوي و OLAP77
4-2-1 داده كاوي موفق78
4-2-1-1 تحليل ارتباطات78
4-2-1-2 سلسله مراتبي از انتخاب ها82
4-2-2 طبقه بندي84
4-2-3 حدس بازگشتي 84
4-2-4 سري هاي زماني85
4-2-5 شبكه هاي عصبي85
4-2-6 درخت هاي انتخاب86
4-2-7 استنتاج قانون87
4-3 ساختن يك پايگاه داده داده كاوي87
4-3-1 جستجوي داده89
4-3-2 آماده سازي داده براي مدل سازي89
4-4 ساختن مدل داده كاوي89
4-4-1 ارزيابي و تفسير90
4-4-2 ايجاد معماري مدل و نتايج90
4-5 نرم افزارWeka 91
4-5-1 تعریف91
4-5-2 قابليتهاي95
4-5-3 دريافت Weka 96
4-5-3-1 مروري بر Explorer 96
4-5-3-2 به کارگیری فیلترها102
4-5-4 الگوريتمهاي يادگيري107
4-5-5 رده بندهاي Lazy 109
4-5-6 خوشه110
4-5-7 منابع وابسته116
منابع131
قسمتی از متن تحقیق
چکیده
در این تحقیق به صورت کلی از داده کاوی تعریف شده و به بررسی آن به صورت دقیق و کاربردی پرداخته شده است. در بخشی به نرم افزار هایی پرداخته شده است که بزرگترین کاربردها را در نرم افزار های داده کاوی دارد.و در نهایت به نرم افزار وکا پراخته شده است که با توجه به داده های موجود تمامی منوهای نرم افزار توضیح داده شده است.
و در نهایت با توجه به تحقیقات انجام گرفته در زمینه ی دانشگاهی و به کارگیری نتایج به دست آمده مدیران آموزشی می توانند مشاوره های لازم را برای پیشگیری از رسیدن دانشجویان به وضعیت بحرانی بکار گیرند.همچنین این مدل ها می توانند به عنوان یک ابزار پشتیبان تصمیم گیری در سیستم های آموزشی مورد بهره برداری قرار گرفته و نقش مهمی را در ارتقا سطح علمی دانشگاه ها داشته باشند.
فصل اول
داده کاوی چیست؟
1-1 تعاریف داده کاوی
داده کاوی(Data Mining)پل ارتباطی میان علم آمار،علم کامپیوتر،هوش مصنوعی،الگوشناسی،فراگیری ماشین و بازنمایی بصری داده می باشد. داده کاوی فرآیندی پیچیده جهت شناساییالگوها و مدل های صحیح، جدید و به صورت بالقوه مفید، در حجم وسیعی از داده می باشد،به طریقی که این الگو ها و مدلها برای انسانها قابل درک باشند.
داده ها اغلب حجیم می باشند و به تنهایی قابل استفاده نیستند، بلکه دانش نهفته در داده ها قابل استفاده می باشد. بنابراین بهره گیری از قدرت فرآیند داده کاوی جهت شناسایی الگوها و مدلها و نیز ارتباط عناصر مختلف در پایگاه داده جهت کشف دانش نهفته در داده ها و نهایتا تبدیل داده به اطلاعات، روز به روز ضروری تر می شود.
داده کاوی استخراج اطلاعات مفهومی، ناشناخته و به صورت بالقوه مفید از پایگاه داده میباشد.[1]
داده کاوی علم استخراج اطلاعات مفید از پایگاه های داده یا مجموعه داده ای می باشد.[2]
داده کاوی استخراج نیمه اتوماتیک الگوها، تغییرات،وابستگی ها، نابهنجاری ها و دیگر ساختارهای معنی دار آماری از پایگاه های بزرگ داده می باشد.[3]
داده کاوی در پایگاه های داده کوچک نیز بسیار پرکاربرد است و از نتایج و الگوهای تولید شده بوسیله آن در تصمیم گیری های استراتژیک تجاری شرکتهای کوچک نیز می توان بهره های فراوان برد. کاربرد داده کاوی در یک جمله را این گونه می توان بیان کرد : " داده کاوی اطلاعاتی می دهد، که شما برای گرفتن تصمیم هوشمندانه ای درباره مشکلات سخت شغلتان به آنها نیاز دارید" [1]
در داده کاوي معمولا به کشف الگوهاي مفيد از ميان داده ها اشاره مي شود . منظور از الگوي مفيد ، مدلي در داده ها است که ارتباط ميان يک زير مجموعه از داده ها را توصيف مي کند و معتبر ، ساده ، قابل فهم و جديد است .
در متون آکادميک تعاريف گوناگوني براي داده کاوي ارائه شده اند . در برخي از اين تعاريف داده کاوي در حد ابزاري که کاربران را قادر به ارتباط مستقيم با حجم عظيم داده ها مي سازد معرفي گرديده است و در برخي ديگر ، تعاريف دقيقتر که درآنها به کاوش در داده ها توجه مي شود موجود است . برخي از اين تعاريف عبارتند از :
همانگونه که در تعاريف گوناگون داده کاوي مشاهده مي شود ، تقريبا در تمامي تعاريف به مفاهيمي چون استخراج دانش ، تحليل و يافتن الگوي بين داده ها اشاره شده است .
داده كاوي معمولا به عنوان جستجو ،آناليز كردن ، باقيمانده از مقدار زيادي از داده براي يافتن ارتباط ،الگو ها يا هر همبستگي آماري معني داري ، تعريف مي شود.با پيدايش كامپيوتر ، پايگاه داده بزرگ و اينترنت ، آسانتر مي توان ميليون ، بيليون و حتي تريليون قسمت هاي از داده را جمع كرد كه مي تواند از روي قاعده آناليز انجام داد و به جستجو ارتباط ها وپيدا كردن راه حل در مششكلات مختلف كمك كرد.به علاوه دولتمندان در بيشتر خريد و فروش از داده كاوي در پيدا كردن الگو ها و ارتباط هاي توان مشتري استفاده مي كنند.سازمان هاي بزرگ و سازمان آموزشي نيز از داده كاوي براي فهميدن همبستگي پر معنا كه مي تواند در جامعه ما توسعه يابد ، استفاده مي شود.
نکته: همانگونه که در تعاريف گوناگون داده کاوي مشاهده مي شود، تقريبا در تمامي تعاريف به مفاهيمي چون استخراج دانش ، تحليل و يافتن الگوي بين داده ها اشاره شده است.
" داده کاوي فرآيندي است که طي آن با استفاده از ابزار های تحليل داده به دنبال کشف الگوها و ارتباطات ميان داده هاي موجود که ممکن است منجر به استخراج اطلاعات جديدي از پايگاه داده گردند، مي باشد."
در داده کاوي از بخشي از به نام تحليل اکتشافي داده ها استفاده مي شود که در آن بر کشف اطلاعات نهفته و ناشناخته از درون حجم انبوه داده ها تاکيد مي شودبنابراين مي توان گفت در داده کاوي تئوريهاي پايگاه داده ها، هوش مصنوعي، يادگيري ماشين وعلم آمار را در هم مي آميزند تا زمينه کاربردي فراهم شود.
بايد توجه داشت که اصطلاح داده کاوي زماني به کار برده مي شود که با حجم بزرگي از داده ها در حد گیگابایت يا ترابايت، مواجه باشيم که از این نظر یکی از بزرگترین بازارهای هدف، انبارجامع داده ها، مراکز داده وسیستم های پشتیبانی تصمیم برای بدست آوردن تخصص هایی در صنایعی مثل شبکه های توزیع مویرگی، تولید،مخابرات، بیمه و... می باشد.
نکته:در تعاریفی که از داده کاوی ارائه شد به اصطلاح "فرایند" اشاره شد. حتی در بعضی محیط های حرفه ای این نظر وجود دادرد که داده کاوی شامل انتخاب و بکارگیری ابزارهای مبتنی بر کامپیوتر برای حل مسائل فعلی و بدست آوردن یک راه حل بطور اتوماتیک و خودکار میباشد.
برای آموزش داده کاوی، باید بر مفاهیم و روش های اعمال شده برخلاف همه جاذبه های ابزارهای مبتنی بر کامپیوتر که امور رابا جزئیات ودستورات با فرمت های خاصی باید به خیلی از سوالات از جمله چگونگی طراحی واستفاده از فرایندها را پاسخ دادبه جای بیان جزئیات عملی ابزار مختلف داده کاوی تکیه نمود.
1-2 مراحل فرايند کشف دانش از پايگاه داده ها
فرايند کشف دانش از پايگاه داده ها شامل پنج مرحله است که عبارتند از:
شکل 1-1
بیان مسئله و فرموله کردن فرضیه:
در ابتداي امر پيش زمينه كشف دانش، فهم درست داده و مساله مي باشد. بدون اين فهم درست هيچ الگوريتمي صرف نظر از خبره بودن آن نمي تواند نتيجه مطمئني براي شما حاصل نمايد و داده را جهت كاوش آماده نموده يا نتايج را به طور صحيح تفسير نمود.براي استفاده بهتر از داده كاوي بايد يك بيان واضح از هدف داشت. در این مرحله انچه نیاز است ترکیبی از تخصص یک زمینه کاربردی و یک مدل داده کاوی است و شاید بتوان گفت یک تقابل نزدیک سر یک مسئله واحد و چندین فرضیه فرموله شده بین متخصصین داده کاوی و متخصصین کاربردی میباشد.
این مرحله درارتباط با چگونگی تولید و جمع آوری داده ها است.
بطور کلی، دو امکان وجود دارد:
روش آزمون طراحی: زمانی است که فرایند تولید داده ها تحت کنترل یک متخصص کاربردی)مدل ساز سیستم( باشد.
روش دیداری: امکان دوم زمانی مطرح است که متخصص قادر به تولید فرآیند نیست یعنی تولید داده بصورت تصادفی در نظر گرفته شود.
پس از اینکه داده ها جمع اوری شدند یا در فرایند جمع اوری داده ها تا اندازه ای قرار گرفتند، توزیع نمونه گیری کاملا نامعلوم است.(یعنی داده هایی که بعدا برای تست و بکارگیری آن مدل بکار می روند از چند نمونه مشابه استفاده می شوند.)
نکته:براي فرايند داده کاوي داده ها ي مورد نياز موجود در انبار داده ها بايد انتخاب شوند. درک این مطلب که برای ارزیابی یک مدل که بعدا برای تست و بکارگیری آن مدل بکار می رود، موفقیت آمیز باشد، بسیار مهم است در غیر اینصورت نتایج درستی حاصل نمی گردد.
مثلا انبار داده ها شامل انواع مختلف و گوناگوني از داده ها است به عنوان مثال در يک پايگاه داده هاي مربوط به سيستم فروشگاهي، اطلاعاتي در مورد خريد مشتريان، خصوصيات آماري آنها،dispatcher ها (توزیع کنندگان)، مشتریان، حسابداري و ... وجود دارند که همه آنها در داده کاوي مورد نياز نيستند.
زمانی که که داده هاي مورد نياز از پایگاه داده های موجود در انبار داده ها "جمع اوری" شدند و داده هاي مورد کاوش مشخص گرديدند، معمولا به تبديلات خاصي روي داده ها نياز است که شامل حداقل دو مرحله متداول می باشد:
داده های غیرعادی یا غیر معمول درحقیقت داده های نتیجه سنجش خطاها، کدنویسی و ثبت خطاها است. دراینجا باید یا 1. داده های غیرعادی را تشخیص داد و خذف کرد ویا 2. باید روش های قوی مدل سازی رابگونه ای توسعه داد که نسبت به این نوع داده ها غیر حساس باشند.
2. ویژگی های مقیاس بندی، رمزگذاری و انتخاب:
در تبدیل داده ها توصیه میشود که داده ها را جهت تحلیل و بررسی مقیاس بندی و ورمزگذاری کرد. مثلا یک مشخصه با دامنه [0,1] ودیگری با دامنه [-100,1000] دارای ارزش مشابهی در تکنیک های اعلام شده نیستند. که در صورت نادیده گرفتن همین تفاوت در دامنه داده ها، روی نتایج نهایی داده کاوی تاثیر خواهند گذاشت.
در این مرحله داده هاي تبديل شده با استفاده از تکنيکها و عملياتهاي داده کاوي مورد کاوش قرار مي گيرند تا الگوهاي مورد نظر کشف شوند. یا به عبارتی دیگه، انتخاب و پیاده سازی تکنیک های داده کاوی در این مرحله صورت میگیرد. لبته این فرایند خیلی روشن و واضح نیست زیرا هنگام پیاده سازی ممکن است که مبتنی بر چندین مدل در یک فرآيند تكراريباشد. ( این مدل ها بطور کامل تر در مباحث مربوط به مفاهیم انواع دسته بندی،درختان تصمیم و قوانین تصمیم، شبکه های عصبی، انواع الگوریتم ها و ...پیاده سازی می شوند)
اطلاعات استخراج شده با توجه به هدف کاربر تجزيه و تحليل شده و بهترين نتايج باید در تصمیم گیری کاربر موثر مي باشند. هدف از اين مرحله تنها ارائه نتيجه (بصورت منطقي و يا نموداري)نيست، بلکه پالايش اطلاعات ارايه شده به کاربر نيز از اهداف مهم اين مرحله است .
هشدار: اگرچه تاکید بر مراحل 3و4 فرایند داده کاوی بیشتر است اما باید به این نکته توجه داشت که اینها فقط دو مرحله از یک فرایند پیچیده هستند.همه فرایند داده کاوی و تک تک مراحل بطور مجزا بسیار تکرار پذیر هستند.
هشدار : باید توجه داشت که بدون توجه به صحت و درستی مراحل 5گانه داده کاوی، ممکن است که مدل و داده حاصل انچنان معتبر نباشد.
1-3 تاريخچه داده کاوي
اخيرا داده کاوي موضوع بسياري از مقالات ، کنفرانس ها و رساله ها ي عملي شده است ، اما اين واژه تا اوايل دهه نود مفهومي نداشت وبه کار برده نمي شد .
در دهه شصت و پيش از آن زمينه هايي براي ايجاد سيستم ها ي جمع آوري و مديريت داده ها ايجاد شد و تحقيقاتي در اين زمينه انجام پذيرفت که منجر به معرفي و ايجاد سيستم هاي مديريت پايگاه داده ها گرديد .
ايجاد و توسعه مدلهاي داده اي براي پايگاه سلسله مراتبي ، شبکه اي و بخصوص رابطه اي در دهه هفتاد ، منجر به معرفي مفاهيمي همچون شاخص گذاري و سازماندهي داده ها و در نهايت ايجاد زبان پرسش SQL در اوايل دهه هشتاد گرديد تا کاربران بتوانند گزارشات و فرمهاي اطلاعاتي مورد نظر خود را ، از اين طريق ايجاد نمايند .
توسعه سيستم هاي پايگاهي پيشرفته در دهه هشتاد و ايجاد پايگاه هاي شي گرا ، کاربرد گرا(Application Oriented )و فعالباعث توسعه همه جانبه و کاربردي شدن اين سيستم ها در سراسر جهان گرديد . بدين ترتيب DBMS هايي همچون DB2 ، Oracle ، Sybase ، ... ايجاد شدند و حجم زيادي از اطلاعات با استفاده از اين سيستم ها مورد پردازش قرار گرفتند . شايد بتوان مهمترين جنبه در معرفي داده کاوي را مبحث کشف دانش از پايگاه داده ها ([4]KDD) دانست بطوري که در بسياري موارد DM و KDD بصورت مترادف مورد استفاده قرار مي گيرند .
همانطور که در تعريف داده کاوي ذکر شد ، هدف از جستجو و کشف الگوهايي در پايگاه داده ها و استفاده از آنها در اخذ تصميمات حياتي است ، بنابراين مي توان گفت که DM بخشي از فرايند KDD است که در نهايت به ايجاد سيستم هاي DSS[5] نقش داده کاوي در فرايند کشف دانش از پايگاه داده ها را نشان مي دهد .
براي اولين بار مفهوم داده کاوي در کارگاهIJCAI در زمينه KDD توسط Shapir مطرح گرديد . به دنبال آن در سالهاي 1991 تا 1994 ، کارگاههاي KDD مفاهيم جديدي را در اين شاخه از علم ارائه کردند بطوري که بسياري از علوم و مفاهيم با آن مرتبط مي باشد.
1-4 كاركرد داده كاوي
داده كاوی فرایندی تحلیلی است كه برای كاوش داده ها ( معمولا حجم عظیمی از داده ها - در زمینه های كسب وكار و بازار) صورت میگیرد و یافتههابابهكارگیری الگوهایی،احراز اعتبار میشوند . هدف اصلی داده كاوی پیش بینی است. فرایند داده كاوی شامل سه مرحله می باشد : 1. كاوش اولیه 2. ساخت مدل یا شناسایی الگو با كمك احراز اعتبار/ تایید و 3. بهره برداری.
مرحله 1 : كاوش. معمولااینمرحله با آماده سازی داده ها صورت می گیرد كه ممكن است شامل پاك سازی داده ها ،تبدیل داده هاوانتخاب زیرمجموعههايي از ركوردهاباحجمعظیمیازمتغييرها( فیلدها ) باشد . سپس با توجهبهماهیتمساله تحلیلی، اینمرحلهبهمدلهاي پیش بیني ساده یا مدلهایآماریوگرافیكی برای شناسایی متغیرهاي مورد نظر و تعیین پیچیدگی مدلها برای استفاده در مرحله بعدی نیاز دارد .
مرحله 2:ساخت و احراز اعتبار مدل. اینمرحله به بررسیمدلهاي مختلف و گزینش بهترین مدل با توجه به كارآیی پيشبيني آن می پردازد. شاید این مرحله ساده به نظر برسد، اما اينطورنیست. تكنیكهایمتعددیبرایرسیدنبهاینهدف توسعه یافتند.و " ارزیابی رقابتی مدل ها"نام گرفتند. بدین منظور مدلهای مختلف برای مجموعه دادههای یكسانبهكارمیروند تا كارآییشان با هم مقایسهشود ،سپس مدلی كهبهترین كارآیی راداشته باشد، انتخاب میشود.اینتكنیكها عبارتند از : Bagging,Boosting ,Stacking و Meta-learning.
مرحله 3 : بهره برداری. آخرینمرحلهمدلیراكهدرمرحله قبلانتخابشده است، در دادههایجدیدبه كارمیگیردتا پیشبینیهايخروجیهای مورد انتظار را تولید نماید.
داده كاویبهعنوانابزارمدیریتاطلاعاتبرایتصمیم گیری،عمومیتیافتهاست. اخیرا،توسعه تكنیك های تحلیلی جدید در این زمینه مورد توجه قرار گرفته است (مثلا Classification Trees)،اما هنوز داده كاوی مبتنی بر اصول آماری نظیر(Exploratory Data Analysis (EDA)می باشد.
با این وجود تفاوت عمده ای بین داده كاوی و EDAوجود دارد. دادهكاویبیشتربهبرنامههایكاربردی گرایش دارد تا ماهیت اصلی پدیده .به عبارتیداده كاوی كمتر با شناسایی روابط بین متغیرها سروكار دارد .
و به عبارت ديگر
عمل داده کاوی از یک پایگاه داده به چند مرحله مشخص تقسیم می شود:
1. مرحله اول : تشکیل انبار داده .
با توجه به عنوان ، این مرحله برای تشکیل محیطی پیوسته و یک پارچه جهت انجام مراحل بعدی و داده کاوی در آن، انجام می گیرد.در حالت کلی انبار داده مجموعه پیوسته و طبقه بندی شده است که دائما در حال تغییر بوده و دینامیک است که برای کاوش آماده می شود.
2. مر حله دوم : انتخاب داده ها
در این مرحله برای کم کردن هزینه های عملیات داده کاوی، داده هایی از پایگاه داده انتخاب می شوند که مورد مطالعه هستند و هدف داده کاوی دادن نتایجی در مورد آنهاست.
3. مرحله سوم : تبدیل داده ها .
مشخص است برای انجام عملیات داده کاوی لزوما باید تبدیلات خاصی روی داده ها انجام گیرد ممکن است این تبدیلات خیلی راحت و مختصر مثل تبدیل byte به integer باشد یا خیلی پیچیده و زمان بر و با هزینه های بالا مثل تعریف صفات جدید و یا تبدیل و استخراج داده ها از مقادیر رشته ای و ... باشد.
4. مرحله چهارم : کاوش در داده ها .
در این مرحله است که داده کاوی انجام می شود.در این مرحله با استفاده از تکنیک های داده کاوی داده ها مورد کاوش قرار گرفته ، دانش نهفته در آنها استخراج شده و الگو سازی صورت می گیرد.
5. مر حله پنجم : تفسیر نتیجه .
در این مرحله نتایج و الگو های ارائه شده توسط ابزار داده کاو مورد بررسی قرار گرفته و نتایج مفید معیین می شود.
1-5 مفاهیم اساسی در داده كاوی
Bagging: این مفهوم برای تركیب رده بندی های پیش بینی شده از چند مدل به كار می رود.فرض كنیدكه قصدداریدمدلی برای رده بندی پیش بيني بسازیدو مجموعه داده های مورد نظرتان كوچك است.شمامی توانید نمونه هایی( با جایگزینی) را از مجموعه داده ها انتخاب و برای نمونه های حاصل ازدرخت رده بندی (مثلا C&RT وCHAID)استفاده نمایید.به طوركلی برای نمونه های مختلف به درخت های متفاوتی خواهید رسید.سپس برای پیش بینی با كمك درخت های متفاوت به دست آمده از نمونه ها ،یك رای گیری ساده انجام دهید.رده بندی نهایی ، رده بندی ایخواهد بود كه درخت های مختلف آنرا پیش بینی كرده اند .
Boosting: این مفهوم برای تولید مدلهای چندگانه (برای پیش بینی یا رده بندی)به كار میرود. Boosting نیزاز روش C&RT یا CHAID استفاده وترتیبی از classifierها را تولید خواهد كرد .
Meta-Learning: این مفهوم برای تركیب پیش بینیهای حاصل از چند مدل به كار میرود.و هنگامی كه انواع مدلهای موجود در پروژه خیلی متفاوت هستند، كاربرد دارد. فرض كنید كه پروژه داده كاوی شما شامل Tree classifierها نظیر C&RTو CHAID، تحلیل خطی و شبكه های عصبی است.هر یك از كامپیوترها،رده بندی هایی رابرای نمونه هاپیش بینی كرده اند.تجربه نشان میدهدكه تركیب پیش بینی های چند روش دقیق تراز پیش بینی های هریك از روشهاست.پیش بینی های حاصل از چند classifier را می توان به عنوان ورودی meta-linear مورد استفاده قرار داد. Meta-linear پیش بینی هارا تركیب می كند تا بهترین رده بندی پیش بینی شده حاصل شود.
1-6 داده كاوي چگونه كار مي كند؟
از زماني كه مقدار بزرگي از تكنولوژي اطلاعات به طور جداگانه سيستم هاي تحليلي و ارتباطي توسعه يافتند ، داده كاوي ارتباطي بين اين دو فراهم كرد.نرم افزار داده كاوي ارتباط ها و الگو ها رادر تبديل ذخيره شده داده تجزيه و تحليل مي كند كه بر اساس جستجو كاربراست.برخي انواع از نرم افزار تحليلي ، آماري ، يادگيري ماشين و شبكه هاي عصبي را فراهم مي كنند.معمولا هر چهار نوع از ارتباط ها موارد زير را جستجو مي كنند :
داده كاوي شامل 5 عنصر مهم است:
1-7 قابليتهاي داده کاوی:
مبلغ قابل پرداخت 20,000 تومان
نام کتاب : 21صفات بایسته یک رهبر نویسنده : جان سی مکسول مترجم : داود نعمت الهی فرمت : pdf ... ...
نمایندگی خدمات مجازی: ارائه پنل خدمات مجازی، سوشال مدیا 200,000 تومان با تخفیف 50% فقط 100,000 تومان پنل «پنل نمایندگی ارائه خدمات مجازی، سوشال مدیا» بمب مجازی مدیریت: سوشال مدیا فرمت: pdf، آدرس پنل، ویدئویی mp4 تیم برنامه نویسی: سوشال مدیا سال انتشار: پنل ... ...
√آپـــدیـت جـدیـد اسفند ماه 1403√ بسم الله الرحمن الرحیم کسب درآمد از اینترنت روزانه تا ۲،۰۰۰،۰۰۰ میلیون تومان تضمینی و تست شده ☆☆ آموزش صفر تا صد کسب درآمداینترنتی بالای ۵۰،۰۰۰،۰۰۰ میلیون ماهانه پشتیبانی 24 ساعته 7 روز هفته، 100% حلال شرعی، ... ...
با POCKET OPTION یک معاملهگر حرفهای شوید یک پلتفرم معاملاتی قابل اعتماد برای همه هر معاملهگری میخواهد تا در بهترین شرایط سود ببرد و نمیخواهد نگران امنیت وجوه شخصی خود باشد. اولین کار واضحی که یک معاملهگر مبتدی انجام میدهد بررسی سایتهای مختلف معامله آنلاین ... ...
باکس پرداخت و دانلود فایل افزونه Yellow pencil چیست؟ افزونه Yellow pencil یک افزونه وردپرس کاربردی طراحی بصری است که به شما امکان می دهد استایل قالب وردپرس تان را سفارشی سازی و تغییر دهید. مداد زرد یک صفحه ساز نیست، این افزونه بلوک اضافه نمی کند، اما این به شما امکان می ... ...
باکس پرداخت و دانلود فایل اطلاعات محصول طراح: مهدی کاظمی (کاملا تهیه شده توسط طراح در ران وب و اورجینال است) توضیحات قالب کافئین، یک قالب HTML فروشگاهی حرفهای و مدرن با 22 صفحه طراحی اختصاصی، است که یک انتخاب ایدهآل برای ایجاد یک وبسایت فروشگاهی به خصوص فروشگاه چای ... ...
باکس پرداخت و دانلود فایل طراح و تهیه کننده: اورجینال-ران وب معرفی قالب قالب کاسوکا یک محصول ایرانی طراحی شده مخصوص شرکت ها، ارگان ها، سازمان ها و ادارات می باشد که با طراحی تمیز، مدرن و حرفه ایی که دارد به سایت سازمان، ارگان و یا شرکت شما زیبایی خاصی می بخشد. قالب ... ...
طراح و تهیه کننده قالب: اورجینال-ران وب (حمید) توضیحات ومعرفی قالب قالب فروشگاهی ویکودین یک قالب HTML برای فروش محصولات پزشکی و بهداشتی است که ویژگی های آن این محصول را از دیگر محصولات HTML جدا میکند، قالب vicodin از پیشرفته ترین کتابخانه های روز دنیا برای بهبود ... ...
باکس پرداخت و دانلود فایل معرفی قالب HTML شرکتی سیلرا قالب سیلرا یک محصول ایرانی با UI اختصاصی است و مناسب شرکت های صنعتی، فولاد، نفت و… می باشد. که با طراحی جذاب سایتی زیبا و حرفه ای را در اختیار شما قرار می دهد و با تغییر جزئی برای انواع پروژههای شرکتی و خدماتی کاربرد ... ...
باکس پرداخت و دانلود فایل طراح و تهیه: ران وب-اورجینال(خانم کیانی) معرفی قالب HTML ارز دیجیتال تریدیکس قالب Tradix یک قالب HTML ارز رمزنگاری شده که شامل صفحات ورود به سیستم، ثبت نام، بازنشانی، شماره OTP، کد OTP، درباره ما، حریم خصوصی، شرایط و ضوابط است. تمامی کدها به ... ...
مقدمه چنانکه مطابق آمار رسمی در سال ۱۳۸۰بیش از هفده هزار نفر از هممیهنانمان در تصادفات رانندگی جانباختهاند. لزوم آموزش کامل و صحيح رانندگي براي متقاضيان دريافت گواهينامه رانندگي را آشکار ميسازد. ضمن اينکه باتوجهبه ترکيب جوان جمعيت کشور و تعداد زياد اين متقاضيان از ... ...