، (اخبار رسمی): از آنجا که کار اصلی در سیستمهای یادگیری ماشین انتخاب یک الگوریتم یادگیری مناسب و آموزش آن بر روی دادههای موجود است، دو موردی که همواره چالش برانگیز هستند؛ عبارتند از الگوریتم بد و داده های بد. در این مقاله در مورد این چالشها در حوزه یادگیری ماشین نکاتی را خواهم گفت.
از آنجا که کار اصلی در سیستمهای یادگیری ماشین انتخاب یک الگوریتم یادگیری مناسب و آموزش آن بر روی دادههای موجود است، دو موردی که همواره چالش برانگیز هستند؛ عبارتند از الگوریتم بد و داده های بد.
در این مقاله در مورد این چالشها در حوزه یادگیری ماشین نکاتی را خواهم گفت. بیاید ابتدا با دادههای بد شروع و منظور از داده بد را بهتر درک کنیم.
برای مشاهده مثالها و مشاهده کامل مقاله فوق به اینجا مراجعه بفرمایید!
تعداد ناکافی دادههای آموزشی
برای اینکه یک کودک نوپا بفهمد سیب چیست، کافی است شما به یک سیب اشاره کنید و بگویید "سیب" (احتمالاً این روش را چند بار تکرار کنید). اکنون کودک قادر است سیبها را در انواع مختلف رنگ و شکل تشخیص دهد.
اما برای کارکرد صحیح اکثر الگوریتمهای یادگیری ماشین دادههای زیادی لازم است. حتی برای مشکلات بسیار ساده شما معمولاً به هزاران مثال نیاز دارید، و برای مشکلات پیچیده مانند تشخیص تصویر یا گفتار شما ممکن است به میلیونها نمونه و داده نیاز داشته باشید (مگر اینکه بتوانید از قسمتهای یک مدل موجود مجدداً استفاده کنید).
در یکی از مقالات معروف که محققان ماکروسافت در سال 2001 منتشر کردند [منبع]. عنوان شد که بدور از نوع الگوریتم انتخاب شده، فرایند یادگیری همواره با دیتا بیشتر نتیجه بهتری میدهد. نویسندگان این مقاله در نتیجهگیری خود گفتند:
نتایج حاکی از آن است که ما باید یک تعادل بین صرف زمان و پول در توسعه الگوریتم و دیتای خود برسیم.
دادههای آموزشی نمونه خوبی از جامعه هدف نیستند
برای یک تعمیم خوب، بسیار مهم است که دادههای آموزشی شما نماینده نمونههای جدید هم باشد که میخواهید مدلتان را به آنها تعمیم دهید. این امر چه از یادگیری مبتنی بر نمونه استفاده کنید و چه از یادگیری مبتنی بر مدل، درست است.
برای نمونه، همانطور که در تصویر زیر هم مشاهده میکنید، یک مدل رگرسیون خطی بر روی دیتای (دایرههای آبی) میزان درآمد و میزان رضایت از زندگی چند کشور آموزش داده شده است. همانطور که مشاهده میکنید، مجموعه کشورهایی که برای آموزش مدل خطی استفاده کردیم نماینده خوبی نبوده (اصطلاحا آنرا Nonrepresentative مینامند)، و خروجی ما قابل تعمیم به تمام کشورها نیست.
بسیار مهم است که از نمونههای آموزشی استفاده کنید که نمایانگر جامعهای باشند که میخواهید به آن تعمیم دهید. این اغلب سختتر از آن چیزی است که به نظر می رسد؛
دادههای بیکیفیت
بدیهی است که اگر دادههای آموزشی شما پر از خطا، پرت و نویزی باشند (بدلیل سنجشهای ضعیف کیفی)، برای سیستم سخت است تا الگوهای موجود در دیتا را شناسایی کند، بنابراین سیستم شما به احتمال زیاد عملکرد خوبی نخواهد داشت. اما اغلب ارزشش را دارد که زمان صرف تمیز کردن دادههای آموزشی خود کنید. اکثر دانشمندان داده هم زمان زیادی را صرف انجام این کار میکنند.
ویژگیهای بیربط
سیستم شما تنها در صورتی قادر به یادگیری خواهد بود که دادههای آموزشی شما دارای ویژگیهای مرتبط کافی باشد و ویژگیهای بیربط زیادی هم نداشته باشد. بخش مهمی از موفقیت پروژه یادگیری ماشین ارائه مجموعهای از ویژگی های خوب برای آموزش است. این فرایند که مهندسی ویژگی (feature engineering) نامیده میشود شامل موارد زیر میباشد:
- انتخاب ویژگی (Feature selection): انتخاب مفیدترین ویژگیها برای آموزش در میان ویژگیهای موجود.
- استخراج ویژگی (Feature extraction): ترکیب ویژگیهای موجود برای تولید ویژگی مفیدتر.
- ایجاد ویژگی های جدید با جمع آوری داده های جدید.
بیشبرازش (Overfitting) دادههای آموزشی
خود ما گاهی ممکن است این نوع تعمیم دادن را در زندگی روزمره انجام دهیم. برای مثال اگر یک راننده تاکسی در یک شهر حق شما را سلب کند احتمالا خواهید گفت تمام رانندگان تاکسی آنجا این ویژگی را دارند. تعمیم دادن بیش از حد چیزی است که ما انسانها اغلب اوقات انجام می دهیم، و متأسفانه اگر مراقب نباشیم ماشینها هم میتوانند در همان دام بیفتند. در یادگیری ماشین آن را بیشبرازش (Overfitting) مینامند؛ به این معنی که مدل بر روی دادههای آموزشی به خوبی عمل می کند، اما به خوبی تعمیم نمیدهد.
کمبرازش (Underfitting) دادههای آموزشی
همانطور که ممکن است حدس بزنید، کمبرازش کاملا برعکس بیشبرازش است و زمانی اتفاق میافتد که مدل شما برای یادگیری ساختار موجود در دادهها بسیار ساده است. به عنوان مثال، در مدل خطی رضایت از زندگی و تولید ناخالص واقعیت فقط پیچیدهتر از مدل است، در نتیجه پیشبینیهای آن حتی در نمونههای آموزشی نیز نادرست است.
امیدوارم از مطالعه این مقاله لذت برده باشید برای مشاهده مثالها و مشاهده کامل مقاله فوق به اینجا مراجعه بفرمایید!
### پایان خبر رسمی