اطلاعات تماس
[نمایش اطلاعات]
کد: 140010305649017907

چالش‌های اساسی در یادگیری ماشین

کد: 140010305649017907

https://bit.ly/33yCrJH

، (اخبار رسمی): از آنجا که کار اصلی در سیستم‌های یادگیری ماشین انتخاب یک الگوریتم یادگیری مناسب و آموزش آن بر روی داده‌های موجود است، دو موردی که همواره چالش‌ برانگیز هستند؛ عبارتند از الگوریتم بد و داده های بد. در این مقاله در مورد این چالش‌ها در حوزه یادگیری ماشین نکاتی را خواهم گفت.

چالش‌های اساسی در یادگیری ماشین
چالش‌های اساسی در یادگیری ماشین (https://prct.ir/NdkjU)

از آنجا که کار اصلی در سیستم‌های یادگیری ماشین انتخاب یک الگوریتم یادگیری مناسب و آموزش آن بر روی داده‌های موجود است، دو موردی که همواره چالش‌ برانگیز هستند؛ عبارتند از الگوریتم بد و داده های بد.

در این مقاله در مورد این چالش‌ها در حوزه یادگیری ماشین نکاتی را خواهم گفت. بیاید ابتدا با داده‌های بد شروع و منظور از داده بد را بهتر درک کنیم.

برای مشاهده مثال‌ها و مشاهده کامل مقاله فوق به اینجا مراجعه بفرمایید!

تعداد ناکافی داده‌های آموزشی

برای اینکه یک کودک نوپا بفهمد سیب چیست، کافی است شما به یک سیب اشاره کنید و بگویید "سیب" (احتمالاً این روش را چند بار تکرار کنید). اکنون کودک قادر است سیب‌ها را در انواع مختلف رنگ و شکل تشخیص دهد.

اما برای کارکرد صحیح اکثر الگوریتم‌های یادگیری ماشین داده‌های زیادی لازم است. حتی برای مشکلات بسیار ساده شما معمولاً به هزاران مثال نیاز دارید، و برای مشکلات پیچیده مانند تشخیص تصویر یا گفتار شما ممکن است به میلیون‌ها نمونه و داده نیاز داشته باشید (مگر اینکه بتوانید از قسمتهای یک مدل موجود مجدداً استفاده کنید).

در یکی از مقالات معروف که محققان ماکروسافت در سال 2001 منتشر کردند [منبع]. عنوان شد که بدور از نوع الگوریتم انتخاب شده، فرایند یادگیری همواره با دیتا بیشتر نتیجه بهتری می‌دهد. نویسندگان این مقاله در نتیجه‌گیری خود گفتند:

 نتایج حاکی از آن است که ما باید یک تعادل بین صرف زمان و پول در توسعه الگوریتم  و دیتای خود برسیم.

 

داده‌های آموزشی نمونه خوبی از جامعه هدف نیستند 

برای یک تعمیم خوب، بسیار مهم است که داده‌های آموزشی شما نماینده نمونه‌های جدید هم باشد که می‌خواهید مدلتان را به آنها تعمیم دهید. این امر چه از یادگیری مبتنی بر نمونه استفاده کنید و چه از یادگیری مبتنی بر مدل، درست است.
برای نمونه، همانطور که در تصویر زیر هم مشاهده می‌کنید، یک مدل رگرسیون خطی بر روی دیتای (دایره‌های آبی) میزان درآمد و میزان رضایت از زندگی چند کشور آموزش داده شده است. همانطور که مشاهده می‌کنید، مجموعه کشورهایی که برای آموزش مدل خطی استفاده کردیم نماینده خوبی نبوده (اصطلاحا آنرا Nonrepresentative می‌نامند)، و خروجی ما قابل تعمیم به تمام کشورها نیست. 

بسیار مهم است که از نمونه‌های آموزشی استفاده کنید که نمایانگر جامعه‌ای باشند که می‌خواهید به آن تعمیم دهید. این اغلب سخت‌تر از آن چیزی است که به نظر می رسد؛

داده‌های بی‌کیفیت

بدیهی است که اگر داده‌های آموزشی شما پر از خطا، پرت و نویزی باشند (بدلیل سنجش‌های ضعیف کیفی)، برای سیستم سخت‌ است تا الگوهای موجود در دیتا را شناسایی کند، بنابراین سیستم شما به احتمال زیاد عملکرد خوبی نخواهد داشت. اما اغلب ارزشش را دارد که زمان صرف تمیز کردن داده‌های آموزشی خود کنید. اکثر دانشمندان داده هم زمان زیادی را صرف انجام این کار می‌کنند.

ویژگی‌های بی‌ربط

سیستم شما تنها در صورتی قادر به یادگیری خواهد بود که داده‌های آموزشی شما دارای ویژگی‌های مرتبط کافی باشد و ویژگی‌های بی‌ربط زیادی هم نداشته باشد. بخش مهمی از موفقیت پروژه یادگیری ماشین ارائه مجموعه‌ای از ویژگی های خوب برای آموزش است. این فرایند که مهندسی ویژگی (feature engineering) نامیده می‌شود شامل موارد زیر می‌باشد:

  • انتخاب ویژگی (Feature selection): انتخاب مفیدترین ویژگی‌ها برای آموزش در میان ویژگی‌های موجود.
  • استخراج ویژگی (Feature extraction): ترکیب ویژگی‌های موجود برای تولید ویژگی مفیدتر.
  • ایجاد ویژگی های جدید با جمع آوری داده های جدید.

بیش‌برازش (Overfitting) داده‌های آموزشی

خود ما گاهی ممکن است این نوع تعمیم دادن را در زندگی روزمره انجام دهیم. برای مثال اگر یک راننده تاکسی در یک شهر حق شما را سلب کند احتمالا خواهید گفت تمام رانندگان تاکسی آنجا این ویژگی را دارند. تعمیم دادن بیش از حد چیزی است که ما انسانها اغلب اوقات انجام می دهیم، و متأسفانه اگر مراقب نباشیم ماشین‌ها هم می‌توانند در همان دام بیفتند. در یادگیری ماشین آن را بیش‌برازش (Overfitting) می‌نامند؛ به این معنی که مدل بر روی داده‌های آموزشی به خوبی عمل می کند، اما به خوبی تعمیم نمی‌دهد.

کم‌برازش (Underfitting) داده‌های آموزشی

همانطور که ممکن است حدس بزنید، کم‌برازش کاملا برعکس بیش‌برازش است و زمانی اتفاق می‌افتد که مدل شما برای یادگیری ساختار موجود در داده‌ها بسیار ساده است. به عنوان مثال، در مدل خطی رضایت از زندگی و تولید ناخالص واقعیت فقط پیچیده‌تر از مدل است، در نتیجه پیش‌بینی‌های آن حتی در نمونه‌های آموزشی نیز نادرست است.

 

امیدوارم از مطالعه این مقاله لذت برده باشید برای مشاهده مثال‌ها و مشاهده کامل مقاله فوق به اینجا مراجعه بفرمایید!

### پایان خبر رسمی

اخبار رسمی هویت منتشر کننده را تایید می‌کند ولی مسئولیت صحت مطلب منتشر شده بر عهده ناشر است.

پروفایل ناشر گزارش تخلف
اطلاعات تماس
[نمایش اطلاعات]
منتشر شده در سرویس:

علم و آموزش