یادگیری نظارت شده یا Supervised Learning یکی از مهمترین مدل های یادگیری ماشین یا Machin Learning می باشد. در این مقاله از وبسایت حرفه ای در مورد این مدل یادگیری صحبت خواهیم کرد.
بهتر است بخوانید : انواع یادگیری ماشین – دسته بندی
الگوریتم های یادگیری نظارت شده (Supervised Learning)
چندین الگوریتم یادگیری برای مدل یادگیری نظارت شده وجود دارد. بعضی از الگوریتم های پرکاربرد این مدل یادگیری عبارت هستند از :
- K-نزدیکترین همسایگی یا k-Nearest Neighbours
- درخت تصمیم یا Decision Trees
- بیز ساده یا Naive Bayes
- رگرسیون لجستیک یا Logistic Regression
- ماشین بردار پشتیبانی یا Support Vector Machines
در ادامه در مورد هرکدام از الگوریتم های ذکر شده به صورت جزئی صحبت خواهیم کرد.
K-نزدیکترین همسایگی یا k-Nearest Neighbours
K-نزدیکترین همسایگی ، که به اختصار KNN نامیده می شود ، یک روش آماری است که می تواند برای حل مسائل طبقه بندی و رگرسیون مورد استفاده قرار بگیرد. با یک مثال چگونگی طبقه بندی اشیا و داده های ناشناخته به وسیله ی KNN را به شما نشان خواهیم داد. فرض کنید داده های ما به شکل زیر توزیع شده باشند :
دیاگرامی که مشاهده می کنید سه نوع داده یا شی را با رنگ های آبی ، سبز و قرمز نشان می دهد.هنگامی که با الگورتیم kNN طبقه بندی را بر روی دیتاست بالا انجام دهید ، انواع داده ها به صورت شکل زیر دسته بندی می گردند.
حال یک شی جدید را در نظر بگیرید که باید در یکی از دسته بندی های قرمز، آبی و یا سبز قرار بگیرد. در شکل زیر یک شی جدید قرار داده شده است :
همانطور که مشاهده می کنید ، داده ناشناخته در محدوده ی آبی قرار گرفته است. از نظر ریاضی ، می توان با اندازه گیری فاصله این نقطه ناشناخته با هر نقطه دیگر از مجموعه داده ها ، نزدیکترین همسایه و محدوده آن را یافت . با انجام این کار ، خواهید فهمید که بیشتر همسایگان آن رنگ آبی دارند.مسافت متوسط تا اجسام قرمز و سبز قطعاً بیشتر از متوسط فاصله با اشیا blue آبی خواهد بود. به همین خاطر نقطه ی ناشناخته در محدوده ی آبی قرار می گیرد.
الگوریتم KNN می تواند برای مسائل رگرسیون هم مورد استفاده قرار بگیرد. الگوریتم KNN در اکثر کتابخانه های یادگیری ماشین وجود دارد.
درخت تصمیم گیری یا Decision Trees
دیگر الگوریتم یادگیری نظارت شده که میخواهیم به آن بپردازیم درخت تصمیم گیری یا Decision Trees است. یک الگوریتم ساده درخت تصمیم گیری در نمودار زیر نشان داده شده است:
شما می توانید یک برنامه برای طبقهبندی داده ها ورودیتان بر مبنای فلوچارت بالا بنویسید. سناریوی فلوچارت بالا تصمیمگیری در مورد این است که چه زمانی ایمیل های دریافتی خوانده شود.
در واقعیت ، درختان تصمیم بزرگ تر و پیچیده تر میباشند. الگوریتم های زیادی برای ایجاد و قطع این درختان وجود دارد. شما به عنوان یک علاقه مند به یادگیری ماشین، باید به تکنیک های ایجاد و عبور از درختان تصمیم مسلط باشید.
بیز ساده یا Naive Bayes
Naive Bayes برای ایجاد طبقه بندی استفاده میشود. فرض کنید انواع مختلف میوها در یک سبد قرار دارند و شما میخواهید آنها را طبقه بندی کنید. برای اینکار از ویژگی هایی مانند رنگ ، اندازه و شکل یک میوه میتوانید استفاده کنید ، به عنوان مثال ، هر میوه ای که قرمز رنگ باشد ، گرد باشد و قطر آن حدود ۱۰ سانتی متر باشد ، ممکن است به عنوان سیب در نظر گرفته شود. از این ویژگی ها برای آموزش این مدل میتوان ،استفاده کرد. بعد از آموزش مدل، احتمال مطابقت یک ویژگی خاص با محدودیت های مورد نظر را آزمایش می کنید.سپس احتمالات مختلف با هم ترکیب می شوند تا به احتمال سیب بودن میوه معین برسند. Naive Bayes ، برای طبقه بندی به تعداد کمی از داده های آموزشی نیاز دارد.
رگرسیون لجستیک یا Logistic Regression
به نمودار زیر نگاه کنید. این توزیع نقاط داده را در صفحه XY نشان می دهد.
از نمودار ، می توانیم بصورت بصری تفکیک نقاط قرمز از نقاط سبز را بررسی کنیم. برای جدا کردن این نقاط می توانید یک خط مرزی بکشید. اکنون ، برای طبقه بندی یک نقطه داده جدید ، فقط باید تعیین کنید که نقطه در کدام طرف خط قرار دارد.
ماشین بردار پشتیبانی یا Support Vector Machines
آخرین الگوریتم یادگیری نظارت شده که میخواهیم در این بخش به آن بپردازیم،ماشین بردار پشتیبانی یا Support Vector Machines است.اگر به توزیع داده ها در شکل زیر دقت کنید ، متوجه خواهید شد که سه کلاس داده ی زیر را نمیتوان به صورتی خطی از یکدیگر جدا کرد. منحنی های زیر دارای مرز غیر خطی می باشند. یافتن معادله برای منحنی های زیر بسیار پیچیده است.
Support Vector Machines برای تفکیک مرز نواحی مختلف در این نوع مسائل بسیار کاربردی می باشند.
منبع : tutorialspoint