یادگیری ماشین در پایتون
در این مقاله ما به مبحث ریاضیات و مطالعه آماری رجوع می کنیم و نحوه محاسبه اعداد مهم بر اساس مجموعه داده ها را بررسی می کنیم.
ما همچنین نحوه استفاده از ماژول های پایتون مختلف برای دریافت پاسخ های مورد نیاز را یاد می گیریم.
و ما همچنین خواهیم آموخت که چگونه می توانیم توابع را ایجاد کنیم که قادر باشند بر اساس آنچه آموخته اند نتیجه را پیش بینی کنند.
مجموعه داده
در ذهن کامپیوتر، یک مجموعه داده می تواند هر مجموعه داده ای باشد، که می تواند یک آرایه پایتون یا یک پایگاه داده کامل باشد.
مثال: در زیر یک آرایه وجود دارد که کامپیوتر آن را مجموعه داده ذر نظر می گیرد.
[99,86,87,88,111,86,103,87,94,78,77,85,86]
مثال: در زیر یک پایگاه داده کامل وجود دارد که کامپیوتر آن را مجموعه داده ذر نظر می گیرد.
AutoPass | Speed | Age | Color | Carname |
---|---|---|---|---|
Y | 99 | 5 | red | BMW |
Y | 86 | 7 | Black | Volvo |
N | 87 | 8 | Gray | VW |
Y | 88 | 7 | White | VW |
Y | 111 | 2 | White | Ford |
Y | 86 | 17 | White | VW |
Y | 103 | 2 | Red | Tesla |
Y | 87 | 9 | Black | BMW |
N | 94 | 4 | Gray | Volvo |
N | 78 | 11 | White | Ford |
N | 77 | 12 | Gray | Toyota |
N | 85 | 9 | White | VW |
Y | 85 | 6 | Blue | Toyota |
با یک نگاه به آرایه می توان حدس زد که مقدار متوسط احتمالا بین مقادیر 80 الی 90 است و همچنین می توانیم کم ترین مقدار و بیش ترین مقدار را به دست آوریم، اما آیا کار دیگری می توان بر روی آن انجام داد؟
و یا با نگاه کردن به پایگاه داده می توان فهمید که محبوب ترین رنگ سفید است و قدیمی ترین خودرو 17 ساله است، اما آیا می توانیم با نگاه کردن به مقادیر پیش بینی کنیم که یک خوردو قابلیت AutoPass (اتوماتیک) را دارد؟
در جواب سوالات بالا باید گفت بله یادگیری ماشین برای پیش بینی نتیجه با تجزیه و تحلیل داده ها است.
نکته: در یادگیری ماشین کار با مجموعه داده های بسیار بزرگ معمول است. در مقالاتی که در آینده در مورد یادگیری ماشین برای شما ارائه خواهیم داد سعی می کنیم که تا حد امکان درک مفاهیم یادگیری ماشین را با کار با مجموعه داده های کوچک آسان کنیم.
انواع داده ها
برای تجزیه و تحلیل داده ها مهم است که بدانیم با چه نوع داده هایی سر و کار داریم.
می توان انواع داده ها را به سه قسمت اصلی تقسیم کرد:
- عددی
- طبقه بندی شده
- معمولی
داده های عددی
اعداد هستند و می توان آن ها را به دو دسته کلی تقسیم کرد:
- داده های گسسته
- داده های پیوسته
داده های گسسته
اعدادی هستند که محدود به اعداد صحیح هستند، مانند: تعداد خودروهای عبوری
داده های پیوسته
اعدادی که می توانند تا بی نهایت ادامه پیدا کنند، مانند: قیمت یک کالا یا اندازه آن
داده های طبقه بندی شده
داده هایی هستند که نمی توانیم آن ها را با یکدیگر مقایسه کنیم، مانند: رنگ
داده های معمولی
داده هایی شبیه به داده های طبقه بندی شده هستند اما می توانند با یک دیگر مقایسه شوند، مانند: نمرات مدرسه که در آن A بهتر از B است و غیره.
با دانستن نوع داده منبع داده خود، شما قادر خواهید بود که بدانید هنگام تجزیه و تحلیل آن ها از چه تکنیکی استفاده کنید.