یادگیری ماشین – یادگیری نظارت شده یا Supervised Learning

Machine Learning - Supervised

یادگیری نظارت شده یا Supervised Learning یکی از مهمترین مدل های یادگیری ماشین یا Machin Learning می باشد. در این مقاله از وبسایت حرفه ای در مورد این مدل یادگیری صحبت خواهیم کرد.

بهتر است بخوانید : انواع یادگیری ماشین – دسته بندی

الگوریتم های یادگیری نظارت شده (Supervised Learning)

چندین الگوریتم یادگیری برای مدل یادگیری نظارت شده وجود دارد. بعضی از الگوریتم های پرکاربرد این مدل یادگیری عبارت هستند از :

  • K-نزدیک‌ترین همسایگی یا k-Nearest Neighbours
  • درخت تصمیم یا Decision Trees
  • بیز ساده یا Naive Bayes
  • رگرسیون لجستیک یا Logistic Regression
  • ماشین بردار پشتیبانی یا Support Vector Machines

در ادامه در مورد هرکدام از الگوریتم های ذکر شده به صورت جزئی صحبت خواهیم کرد.

K-نزدیک‌ترین همسایگی یا k-Nearest Neighbours

K-نزدیک‌ترین همسایگی ، که به اختصار KNN نامیده می شود ، یک روش آماری است که می تواند برای حل مسائل طبقه بندی و رگرسیون مورد استفاده قرار بگیرد. با یک مثال چگونگی طبقه بندی اشیا و داده های ناشناخته به وسیله ی KNN را به شما نشان خواهیم داد. فرض کنید داده های ما به شکل زیر توزیع شده باشند :

K-نزدیک‌ترین همسایگی

دیاگرامی که مشاهده می کنید سه نوع داده یا شی را با رنگ های آبی ، سبز و قرمز نشان می دهد.هنگامی که با الگورتیم kNN طبقه بندی را بر روی دیتاست بالا انجام دهید ، انواع داده ها به صورت شکل زیر دسته بندی می گردند.

k-Nearest Neighbours

حال یک شی جدید را در نظر بگیرید که باید در یکی از دسته بندی های قرمز، آبی و یا سبز قرار بگیرد. در شکل زیر یک شی جدید قرار داده شده است :

الگوریتم های یادگیری نظارت شده (Supervised Learning)

همانطور که مشاهده می کنید ، داده ناشناخته در محدوده ی آبی قرار گرفته است. از نظر ریاضی ، می توان با اندازه گیری فاصله این نقطه ناشناخته با هر نقطه دیگر از مجموعه داده ها ، نزدیکترین همسایه  و محدوده آن را یافت . با انجام این کار ، خواهید فهمید که بیشتر همسایگان آن رنگ آبی دارند.مسافت متوسط تا اجسام قرمز و سبز قطعاً بیشتر از متوسط فاصله با اشیا blue آبی خواهد بود. به همین خاطر نقطه ی ناشناخته در محدوده ی آبی قرار می گیرد.

الگوریتم KNN می تواند برای مسائل رگرسیون هم مورد استفاده قرار بگیرد. الگوریتم KNN در اکثر کتابخانه های یادگیری ماشین وجود دارد.

درخت تصمیم گیری یا Decision Trees

دیگر الگوریتم یادگیری نظارت شده که می‌خواهیم به آن بپردازیم درخت تصمیم گیری یا Decision Trees است. یک الگوریتم ساده درخت تصمیم گیری در نمودار زیر نشان داده شده است:

درخت تصمیم گیری یا Decision Trees

شما می توانید یک برنامه برای طبقه‌بندی داده ها ورودی‌تان بر مبنای فلوچارت بالا بنویسید. سناریوی فلوچارت بالا تصمیم‌‍گیری در مورد این است که چه زمانی ایمیل های دریافتی خوانده شود.

در واقعیت ، درختان تصمیم بزرگ تر و پیچیده تر می‌باشند. الگوریتم های زیادی برای ایجاد و قطع این درختان وجود دارد. شما به عنوان یک علاقه مند به یادگیری ماشین، باید به تکنیک های ایجاد و عبور از درختان تصمیم مسلط باشید.

بیز ساده یا Naive Bayes

Naive Bayes برای ایجاد طبقه بندی استفاده می‌‍شود. فرض کنید انواع مختلف میوها در یک سبد قرار دارند و شما می‌‍خواهید آن‌ها را طبقه بندی کنید. برای اینکار از ویژگی هایی مانند رنگ ، اندازه و شکل یک میوه می‌‍توانید استفاده کنید ، به عنوان مثال ، هر میوه ای که قرمز رنگ باشد ، گرد باشد و قطر آن حدود ۱۰ سانتی متر باشد ، ممکن است به عنوان سیب در نظر گرفته شود. از این ویژگی ها برای آموزش این مدل می‌‍توان ،استفاده کرد. بعد از آموزش مدل، احتمال مطابقت یک ویژگی خاص با محدودیت های مورد نظر را آزمایش می کنید.سپس احتمالات مختلف با هم ترکیب می شوند تا به احتمال سیب بودن میوه معین برسند. Naive Bayes ، برای طبقه بندی به تعداد کمی از داده های آموزشی نیاز دارد.

رگرسیون لجستیک یا Logistic Regression

به نمودار زیر نگاه کنید. این توزیع نقاط داده را در صفحه XY نشان می دهد.

رگرسیون لجستیک یا Logistic Regression

از نمودار ، می توانیم بصورت بصری تفکیک نقاط قرمز از نقاط سبز را بررسی کنیم. برای جدا کردن این نقاط می توانید یک خط مرزی بکشید. اکنون ، برای طبقه بندی یک نقطه داده جدید ، فقط باید تعیین کنید که نقطه در کدام طرف خط قرار دارد.

ماشین بردار پشتیبانی یا Support Vector Machines

آخرین الگوریتم یادگیری نظارت شده که میخواهیم در این بخش به آن بپردازیم،ماشین بردار پشتیبانی یا Support Vector Machines است.اگر به توزیع داده ها در شکل زیر دقت کنید ، متوجه خواهید شد که سه کلاس داده ی زیر را نمی‌‍توان به صورتی خطی از یکدیگر جدا کرد. منحنی های زیر دارای مرز غیر خطی می باشند. یافتن معادله برای منحنی های زیر بسیار پیچیده است.

Support Vector Machines

Support Vector Machines برای تفکیک مرز نواحی مختلف در این نوع مسائل بسیار کاربردی می باشند.

منبع : tutorialspoint

قبلی «
بعدی »

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد.