یادگیری ماشین چیست؟


علاوه بر تعریف آگاهانه و کارکردی از یادگیری ماشین، ما قصد داریم مرور مختصری بر اصول یادگیری ماشین، چالش ها و محدودیت های استفاده از ماشین برای فکرکردن ارائه دهیم و برخی از مسائلی که امروز با آن مواجه هستیم برای حل، نیاز به شناخت عمیقی دارند. کلید اصلی حل این مشکلات توسعه برنامه های یادگیری ماشین است.

این مقاله به بخش های زیر می پردازد:

_ یادگیری ماشین چیست؟

_ چطور به این تعریف رسیدیم؟

_ مفاهیم پایه یادگیری ماشین

_ چطور به ماشین ها آموزش می دهیم؟

_ یک مرور کلی از چالش ها و محدودیت های یادگیری ماشین

_ مقدمه مختصر از یادگیری عمیق

_ منابع

ما این مقاله را متناسب با چالش های شما در مورد یادگیری ماشین جمع آوری و طراحی کردیم، بنابراین براساس علاقه خود، سراغ بخش مورد نظر بروید یا مقاله را از ابتدا شروع کنید. از تعریف یادگیری ماشین آغاز می کنیم:

یادگیری ماشین چیست؟

یادگیری ماشین علم استفاده از کامپیوتر برای یادگیری و رفتار، مانند انسان است و برای بهبود یادگیری خود درطول زمان به صورت خودساخته و به واسطه داده ها و اطلاعات در قالب مشاهدات و تعاملات واقعی در جهان این کار را انجام می دهد.

تعریف فوق هدف ایده آل یا نهایی یادگیری ماشین را نشان می دهد، همان گونه که بسیاری از محققین بیان می کنند. هدف این مقاله بالا بردن دانش کاربران کسب و کارها تا سطح یک متخصص در مورد علم یادگیری ماشین و نحوه کار آن است. یادگیری ماشین و هوش مصنوعی تعاریف مشابهی را در ذهن مخاطب ایجاد می کند در حالی که تفاوت هایی دارند که برای مخاطبان قابل تشخیص هستند. منابع و مقالات پژوهشی در انتهای این مقاله برای تحقیق بیشتر در اختیار شما قرار گرفته است.

  چطور به این تعریف رسیدیم؟

متناسب با هر مفهومی، یادگیری ماشین ممکن است تعاریف متفاوتی داشته باشد و بستگی به مفهوم مورد نظر شما دارد. ما در این مقاله به پنج تعریف علمی از منابع معتبر پرداخته ایم:

1.    یادگیری ماشین در اساسی ترین شکل آن، تمرین استفاده از الگوریتم ها برای تجزیه داده ها، یادگیری از آن و سپس تعیین یا پیش بینی در مورد چیزی در جهان است. Nvidia

2.    یادگیری ماشین علمی است که کامپیوتر را بدون برنامه صریح، برنامه ریزی می کند. دانشگاه Stanford

3.    یادگیری ماشین براساس الگوریتمی است که می تواند از داده ها یاد بگیرد بدون اینکه بر برنامه ریزی مبتنی بر قواعد تکیه کند. McKinsy&Co

4.    الگوریتم های یادگیری ماشین می توانند چگونگی انجام وظایف مهم را با تعمیم دادن نمونه ها بیاموزند. دانشگاه واشنگتن

5.    حوزه یادگیری ماشین به دنبال پاسخ به سوال، چگونه می توانیم سیستم های کامپیوتری ایجاد کنیم که به طور خودکار با تجربه بهبود می یابد و قوانین اساسی که همه پروسه های یادگیری را مدیریت می کند، است. دانشگاه کارنگی ملون

   ما این تعاریف را برای کارشناسانی که با آنها مصاحبه کردیم یا در کنوانسیون سال گذشته ما شرکت کردند ، ارسال کردیم و از آنها خواستیم براساس علاقه خود یکی را انتخاب کنند یا تعریف خود را ارائه دهند. تعریف مقدماتی ما شامل پاسخ های متنوعی است. برخی از تعاریفی که در جواب برای ما ارسال شد:

دکتر یوشو بنجیو از دانشگاه مونترال

تعریف یادگیری ماشین نباید منفی باشد (پاسخ 2 و 3 منفی هستند) . من این گونه تعریف میکنم: تحقیقات در زمینه مطالعه ماشین بخشی از تحقیق در زمینه هوش مصنوعی است که به دنبال ارائه دانش به کامپیوترها از طریق داده ها، مشاهدات و تعامل با جهان است. این دانش به دست آمده به درستی به کامپیوتر اجازه می هد که این داده ها را به تنظیمات جدید، تعمیم دهد.

دکتر دانکو نیکولیک از موسسه CSC & Max_Plank

(ویرایش شده پاسخ شماره 2) یادگیری ماشین علمی است که کامپیوترها را بدون برنامه صریح برنامه ریزی می کند، اما به آنها اجازه می دهد چندین ترفند را خودشان یاد بگیرند.

دکتر رومن یامپولسکی از دانشگاه لوئیزویل

یادگیری ماشین علمی است که به کامپیوترها یاد می دهد تا همسان یا بهتر از انسان کار کنند.

دکتر امیلی فاکس از دانشگاه واشنگتن

تعریف مورد علاقه من پاسخ شماره 5 است.

مفاهیم اساسی یادگیری ماشین:

انواع مختلفی از الگوریتم های یادگیری ماشین وجود دارد که هر روز توسط هزاران نفر در اختیار عموم قرار میگیرد و براساس روش یادگیری ( یادگیری تحت نظارت، یادگیری نیمه نظارتی و یادگیری بی نظارت)  یا عملکرد (به عنوان مثال طبقه بندی، رگراسیون، الگوریتم درختی، خوشه بندی، یادگیری عمیق و...) تقسیم بندی می شوند. صرف نظر از روش یادگیری و عملکرد، تمام ترکیبات الگوریتم یادگیری ماشین شامل شامل موارد زیر می شود:

بازنمایی: مجموعه ای از طبقه بندی ها یا زبانی که کامپیوتر می فهمد.

ارزیابی: هدف یا امتیازدهی

بهینه سازی: روش جستجو

هدف اساسی الگوریتم های یادگیری ماشین این است که فراتر از نمونه های آموزشی، بتواند تعمیم دهد و به طور موفقیت آمیز داده هایی که هرگز ندیده است، تفسیر کند.

چطور به ماشین ها آموزش می دهیم:

روش های مختلفی برای آموزش به ماشین وجود دارد ، استفاده از روش تصمیم گیری درختی یا روش خوشه بندی لایه شبکه های عصبی مصنوعی ( دومی، راه را برای یادگیری عمیق باز کرد) ، بسته به کاری که می خواهید انجام دهید و نوع و مقدار داده هایی که در دسترس دارید. این پویایی، خود را در برنامه های کاربردی متفاوت جا می دهد مانند کمک به تشخیص های پزشکی یا استفاده در ماشین های بی سرنشین. 

در حالی که اغلب تاکید بر بهترین الگوریتم یادگیری است، محققان دریافته اند که در برخی سوالات، هیچ کدام از الگوریتم ها پاسخگو نیستند. اغلب اوقات این مشکل در داده های آموزشی اتفاق می افتد، با این حال در دامنه های مختلف یادگیری ماشین با آن مواجه می شویم.

تحقیقات در حال انجام در حوزه های نرم افزاری باعث پیشرفت در این زمینه می شود. این پیشرفت دو عامل دارد:

1.    گرایش به کشف مرزها و محدودیت های موجود در روش ها

2.    محققان و توسعه دهندگان در همکاری با کارشناسان این حوزه، سرعت و تخصص را برای بهبود عملکرد سیستم بهبود می بخشند.

گاهی اوقات به شکل اتفاقی  این پیشرفت رخ می دهد. ما ممکن است یک روش یا الگوریتم  یا ترکیبی از آنها را برای بهبود عملکرد سیستم استفاده کنیم. تیم هایی که برای Netflix Price 2009 با هم رقابت می کردند، متوجه شدند که بهترین نتایج خود را با ترکیب دانش آموزگاران و افراد تحت تعلیم، کسب کردند و الگوریتم ها را بهبود بخشیدند.

نکته ای مهم ( با توجه به صحبت با کارشناسان این حوزه) از نظر کاربرد در تجارت و جاهای دیگر، یادگیری ماشین صرفا مربوط به خودکار کردن دستگاه ها نیست و این یک باور نادرست است. اگر اینگونه فکر می کنید، شما بینش ارزشمندی که ماشین ها می توانند ارائه دهند و فرصت های حاصل از آن ( بازخوانی یک مدل کلی کسب و کار مانند صنایع تولیدی و کشاورزی) را از دست می دهید.

ماشین هایی که یاد میگیرند برای انسان مفید هستند، زیرا توان پردازش و سرعت آنها در دریافتن الگوریتم ها در ابعاد بزرگ داده، می تواند اطلاعاتی را که انسان ممکن است نادیده بگیرد را در نظر بگیرد. یادگیری ماشین ابزاری است که می تواند مورد استفاده قرار بگیرد تا توانایی انسان را در حل مشکلات افزایش دهد و نتیجه گیری های دقیق را در طیف وسیعی از مشکلات، مانند تشخیص بیماری ها تا یافتن راه حل برای مشکلات اقلیمی جهان، انجام دهد.

چالش ها و محدودیت ها:

یادگیری ماشین نمی تواند از هیچی، چیزی بسازد... آنچه را می سازد بیشترین نتیجه از کمترین داده هاست. دکتر پدرو دومینگو از دانشگاه واشنگتن

دو مورد از بزرگترین مشکلات تاریخی (و فعلی) در یادگیری ماشین شامل کارکرد بیش از حد ( که در آن، مدل حاشیه ای نسبت به داده های آموزشی ارجحیت می یابد و به داده های جدید تعمیم داده نمی شود، و یا واریانس چیزهای تصادفی که در جریان آموزش داده های جدید ایجاد می شود.) و ابعاد ( الگوریتم با ویژگی های بیشتر و در ابعاد بالاتر و چندگانه، درک اطلاعات را دشوارتر می سازد.). در بعضی موارد داشتن دسترسی به مجموعه داده های بزرگ، خود یک مشکل اساسی است.

یکی از رایج ترین اشتباهات در میان مبتدیان یادگیری ماشین، موفقیت آمیز بودن داده های آزمایشی و یا توهم موفقیت است. دکتر دومیگو و سایر کارشناسان بر جدا نگه داشتن مجموعه داده ها در طول آزمایش کردن یک مدل تاکید دارند و  تنها وقتی از این داده های جدا شده استفاده می کنند که بخواهند یک روش را انتخاب کنند و این کار را پس از یاد دادن تمام مجموعه داده ها انجام می دهند.

هنگامی که یک الگوریم یادگیری (یاد گیرنده) کار نمی کند، معمولا بهترین کار در اختیار گذاشتن داده بیشتر است، در دسترس بودن اطلاعات است که در سال های اخیر عامل اصلی پیشرفت در الگوریتم های یادگیری و یادگیری عمیق ماشین بوده است. به هر حال این می تواند به مسائل مقیاس پذیری مرتبط باشد، اما در حالی که ما داده های بیشتری در اختیار داریم، وقت آن است که بپذیریم که داده ها همچنان به عنوان مشکل باقی خواهند ماند.

در کل، یادگیری ماشین پایان نمی یابد و راه حلی برای خود نیست. علاوه بر این، تلاش برای استفاده از آن به عنوان یک راه حل در هوش مصنوعی  همچنان برقرار است. یک تمرین کاربردی نیست؛ در عوض با یک مشکل یا پدیده مواجه می شویم که اغلب ما را با یک پرسش خاص، به پیشرفت سوق می دهد.

یادگیری عمیق و پیشرفت های مدرن در شبکه های عصبی:

یادگیری عمیق شامل مطالعه و طراحی الگوریتم های ماشین برای یادگیری نمایش خوب داده ها در سطوح مختلف ( روش تنظیم سیستم های کامپیوتری ) می باشد. تبلیغات اخیر در مورد یادگیری عمیق توسط DeepMind, facebook  و سایر موسسات، آن را به عنوان مرحله بعدی یادگیری ماشین، برجسته کرده است.

کنفرانس بین المللی یادگیری ماشین که به صورت گسترده برگزار می شود یکی از مهم ترین کنفرانس های جهان شناخته می شود. امسال و در ماه ژوئن در شهر نیویورک برگزار شد و محققانی را از سراسر جهان گرد هم جمع کرد که در تلاش برای حل چالش های یادگیری عمیق ماشین هستند. که از بین آنها می توان به دو چالش زیر اشاره کرد:

1.    یادگیری بی نظارت در مجموعه داده های کوچک

2.    یادگیری مبتنی بر شبیه سازی و انتقال به دنیای واقعی

سیستم های یادگیری عمیق در طول ده سال گذشته در حوزه هایی مانند تشخیص و شناسایی زبان، تبدیل متن به گفتار، بازیابی اطلاعات و دیگر موارد، دستاوردهای بزرگی کسب کرده اند.در حال حاضر تحقیق در زمینه توسعه یادگیری ماشین حساب های داده ای، یعنی سیستم های یادگیری عمیق هستند که می توانند به طور موثر با کارایی مشابه در زمان کمتر و با اطلاعات کمتر در حوزه های مراقبت های بهداشت شخصی، تقویت یادگیری ربات و تجزیه و تحلیل احساسات و... ایفای نقش کنند.

گیرنده های کلیدی در راه اندازی یادگیری ماشین:

در زیر مورد هایی از بهترین شیوه ها و مفاهیم استفاده از یادگیری ماشین وجود دارد که ما با توجه به مصاحبه برای سری پادکست خود و از منابعی که در انتهای مقاله به آن ها اشاره شده است، انتخاب کرده ایم. ما امیدواریم که برخی از این اصول روشن کند که چگونه از یادگیری ماشین استفاده می شود و چگونه از برخی آسیب پذیری ها در مشکلات رایجی که شرکت ها و محققان ممکن است در شروع یک پروژه با آن مواجه شوند، جلوگیری کرد:

1.    مسلما مهمترین عامل در موفقیت پروژه های یادگیری ماشین، ویژگی هایی است که برای توصیف داده ها استفاده می شود( به ویژه داده های مربوط به دامنه ها) و همچنین در وهله اول داده های کافی برای مدل یادگیری شما اهمیت دارد.

2.    اغلب زمانی الگوریتم ها به خوبی انجام نمی شوند که علت آن مشکل با داده های آموزشی ( به عنوان مثال مقادیر ناکافی یا داده های مبهم، داده های خراب یا ویژگی های نامناسب توصیف داده ها برای تصمیم گیری) باشد.

3.    سادگی به معنای دقیق بودن نیست. به گفته دومینگو هیچ ارتباطی میان تعداد متغیر های یک مدل و میل به بیشتر شدن متغیر ها وجود ندارد.

4.    دریافت داده های تجربی ( در مقایسه با داده های مشاهداتی، که ما هیچ کنترلی بر آن نداریم) در صورت امکان، باید انجام شود. (به عنوان مثال داده هایی که از ارسال انواع مختلف ایمیل به کاربران تصادفی به دست آمده است)

5.    آیا اطلاعات علمی یا همبستگی ای را برچسب گذاری می کنیم، مهمترین نکته پیش بینی اثرات اقدامات ما است؟

6.    همیشه بخشی از داده های آموزشی را برای اعتبار سنجی متقابل، کنار بگذارید. زیرا شما می خواهید طبقه بندی انتخاب یا الگوریتم یادگیری خود را به خوبی بر روی اطلاعات تازه انجام دهید.

منابع:

1.    http://homes.cs.washington.edu/~pedrod/papers/cacm12.pdf

2.    http://videolectures.net/deeplearning2016_precup_machine_learning/

3.    http://www.aaai.org/ojs/index.php/aimagazine/article/view/2367/2272

4.    https://research.facebook.com/blog/facebook-researchers-focus-on-the-most-challenging-machine-learning-questions-at-icml-2016/

5.    https://sites.google.com/site/dataefficientml/

6.    http://www.cl.uni-heidelberg.de/courses/ws14/deepl/BengioETAL12.pdf

 

 

                                                                                                                                                 

به اشتراک گذاری :