دیتاست های یادگیری ماشین به توصیه آکادمی آمانج

پویا مصطفوی 
  بازدید : 236
شنبه 28 تير 1399 زمان : 9:47 


1
2
3
4
5

بهتر است مبتدیان در یادگیری ماشین بر روی دیتاست‌های (مجموعه داده های) کوچک دنیای واقعی تمرین کنند. به اصطلاح مجموعه داده های یادگیری ماشین استاندارد شامل مشاهدات واقعی هستند و به خوبی مورد مطالعه و درک قرار می گیرند. به این ترتیب افراد می توانند از آن ها برای آزمایش سریع، اکتشاف و تمرین تکنیک های آماده سازی داده ها و مدل سازی استفاده کنند.

مهارت های ایجاد شده، در مجموعه داده های یادگیری ماشین استاندارد، می تواند زمینه را برای انجام پروژه های بزرگتر و چالش برانگیز فراهم آورد.

در این مقاله دیتاست های استاندارد یادگیری ماشین برای طبقه بندی باینری را مطالعه خواهید کرد.

ارزش دیتا‌ست‌های یادگیری ماشین کوچک

تعدادی دیتا‌ست یادگیری ماشین کوچک برای طبقه بندی و مسائل مدل سازی پیش بینی رگرسیون وجود دارند که اغلب مورد استفاده قرار می گیرند. گاهی اوقات مجموعه داده ها به عنوان پایه ای برای نشان دادن روش یادگیری ماشین یا تکنیک تهیه داده استفاده می شود. در مواردی دیگر، از آنها به عنوان پایه ای برای مقایسه تکنیک های مختلف استفاده می گردد.

این داده ها در اوایل ظهور یادگیری ماشین جمع آوری و در دسترس عموم قرار گرفتند. پیدا کردن یک مدل خوب در یکی از این مجموعه داده ها به این معنی نیست که شما مشکل کلی را حل کرده اید. همچنین، برخی از مجموعه داده ها ممکن است حاوی اسامی یا نشانگرهایی باشند که ممکن است از نظر فرهنگی بحث برانگیز تلقی شوند. به این نوع مجموعه داده‌ها، مجموعه داده های “TOY” می گویند.

تعریف دیتاست یادگیری ماشین استاندارد

یک مجموعه داده استاندارد یادگیری ماشین دارای خصوصیات زیر است.

کمتر از ١٠٠٠٠ردیف (نمونه).
کمتر از ١٠٠ ستون (ویژگی).
ستون آخر متغیر هدف است.
در یک پرونده واحد با فرمت CSV و بدون خط Header ذخیره می شود.
مقادیر ناموجود با یک علامت سؤال (“؟”) مشخص می شوند.

اکنون که تعریف واضحی از مجموعه داده داریم، ببینیم که یک نتیجه “خوب” به چه معنی است.

دیتاست یادگیری ماشین استاندارد

یک دیتاست یادگیری ماشین زمانی استاندارد است که مرتبا در کتاب ها، مقالات تحقیقاتی، آموزش ها، سخنرانی ها و موارد دیگر مورد استفاده قرار بگیرد. بهترین مخزن برای این مجموعه داده های به اصطلاح کلاسیک یا استاندارد یادگیری ماشین، مخزن یادگیری ماشین دانشگاه UCI است. این وب سایت مجموعه داده ها را براساس نوعشان طبقه بندی کرده و بارگیری داده ها و اطلاعات اضافی در مورد هر مجموعه داده و مقالات مربوطه را ارائه می دهد.

در این مقاله دیتاست های استاندارد یادگیری ماشین برای طبقه بندی باینری را مطالعه خواهید کرد.

ارزش دیتا‌ست‌های یادگیری ماشین کوچک

تعریف دیتاست یادگیری ماشین استاندارد

یک مجموعه داده استاندارد یادگیری ماشین دارای خصوصیات زیر است.

کمتر از ١٠٠٠٠ردیف (نمونه).
کمتر از ١٠٠ ستون (ویژگی).
ستون آخر متغیر هدف است.
در یک پرونده واحد با فرمت CSV و بدون خط Header ذخیره می شود.
مقادیر ناموجود با یک علامت سؤال (“؟”) مشخص می شوند.

اکنون که تعریف واضحی از مجموعه داده داریم، ببینیم که یک نتیجه “خوب” به چه معنی است.

نام کاربری :
رمز عبور :
تکرار رمز عبور :
ایمیل :
نام و نام خانوادگی :
کد امنیتی :