پایگاه دادههای بزرگ به سرعت مقادیر زیادی از دادههای متنوع را جذب، آماده و ذخیره میکنند. آنها مسئول تبدیل دادههای بدون ساختار و نیمه ساختار یافته به قالبی هستند که ابزارهای تحلیلی بتوانند از آن استفاده کنند. به دلیل این الزامات متمایز، پایگاههای داده NoSQL (غیر رابطهای)، مانند MongoDB، یک انتخاب قدرتمند برای ذخیره دادههای بزرگ هستند.
داده هایی که از نظر حجم (اندازه)، تنوع و سرعت (سرعت) بسیار بزرگ هستند به عنوان دادههای بزرگ (بیگ دیتا) شناخته میشوند. در این مقاله، به بررسی این که “کلان داده چیست” و “چگونه کسبوکارها را متحول میکند تا به آنها در افزایش درآمد و بهبود استراتژیها و فرآیندهای تجاری خود کمک کنند”، میپردازیم.
تصور کنید یک ویدیو را در یوتیوب تماشا میکنید، آن را لایک میکنید و آن را با چند دوست به اشتراک میگذارید. مواد غذایی و دارو را به صورت آنلاین خریداری میکنید و مکانهای جالبی را برای تعطیلات جستجو میکنید. نتفلیکس را باز میکنید و سریالهای وب مورد علاقه خود را تماشا میکنید. شما قبوض تلفن و برق والدین خود را پرداخت میکنید. برای درخواست بیمه، جزئیات خود را در یک پورتال سلامت به روز میکنید. یکی از دوستان با شما تماس میگیرد تا محتوای او را در اینستاگرام لایک کنید، بنابراین شما وارد حساب کاربری خود شده و در مورد تعدادی از عکسهای او نظر ارسال میکنید. پرواز خود را به مقصد والدینتان برای آخر هفته آینده رزرو می کنید.
با انجام این تراکنشها، شما به تولید دادهها و به اشتراکگذاری اطلاعات شخصی در مورد خودتان و افرادی که با آنها مرتبط هستید - پدر و مادرتان، دوستانتان، سریالهای مورد علاقهتان، مقاصد سفر مورد علاقهتان و... ادامه میدهید.
همانطور که به روشهای مختلف به انجام معاملات خود ادامه میدهید، حجم و تنوع دادهها با سرعت بسیار بالایی افزایش مییابد. و این فقط داده های شماست! تصور کنید هر یک از ۴.۶۶ میلیارد کاربر فعال اینترنت در سراسر جهان روزانه چقدر داده تولید میکنند! شما میتوانید دادهها را به روشهای مختلفی تولید کنید - از برنامه تناسب اندام که استفاده میکنید، برنامههای ویزیت پزشک یا ویدیوهایی که در فضای مجازی تماشا میکنید، تا پستهای اینستاگرامی که دوست دارید و آنها را لایک میکنید، خریدهای خواربارفروشی که آنلاین انجام میدهید، بازیهایی که بازی میکنید، تعطیلاتی که در آن هتلها را آنلاین رزرو میکنید (طراحی سایت هتل) تا هر اطلاعاتی که در فضای مجازی به وب سایتها و یا اپلیکیشنهای مختلف میدهید، داده تولید می کنید. بیشتر اوقات، این دادهها توسط مشاغل برای درک بهتر کاربرانشان و ارائه محتوای سفارشی شده به آنها تجزیه و تحلیل میشود.
دادههای بزرگ یا کلان دادهها تقریباً در تمام صنایع اصلی برای ساده کردن عملیات و کاهش هزینههای کلی استفاده میشود.
برای مثال، بیگ دیتا یا دادههای کلان در مراقبتهای بهداشتی اهمیت فزایندهای پیدا میکنند - تشخیص زودهنگام بیماریها، کشف داروهای جدید و برنامههای درمانی سفارشی برای بیماران، همگی نمونههایی از کاربردهای کلان داده در مراقبتهای بهداشتی هستند.
جمعآوری و تجزیه و تحلیل دادههای بسیار (مثلاً دادههای مربوط به هزاران بیمار) کاری پیچیده و عظیمی است. برای انجام تجزیه و تحلیل دادههای بزرگ، دانشمندان داده به ابزارهای کلان داده نیاز دارند، زیرا ابزارها و پایگاه های داده سنتی کافی نیستند.
انواع بیگ دیتا (کلان داده - big data)
دادههای ساختاریافته، بدون ساختار و نیمه ساختاریافته همه از انواع بیگ دیتا یا کلان دادهها هستند. بسیاری از کلان دادههای امروزی بدون ساختار هستند، از جمله فیلمها، عکسها، صفحات وب و محتوای چند رسانهای. هر نوع داده بزرگ به مجموعه متفاوتی از ابزارهای کلان داده برای ذخیره سازی و پردازش نیاز دارد.
مبحث داده های ساخت یافته در بیگ دیتا (کلان داده - big data)
دادههای ساخت یافته به صورت منظم و ثابت در قالب جداول و ستونها ذخیره میشوند.
پایگاه دادههای رابطهای برای ذخیره دادههای ساختاریافته مناسب هستند. توسعه دهندگان از زبان پرس و جو ساخت یافته (SQL) برای پردازش و بازیابی دادههای ساخت یافته استفاده میکنند.
در اینجا نمونهای از دادههای ساخت یافته با جزئیات سفارش چند مشتری آورده شده است:
BillDate | BillAmount | CustomerID | OrderID |
---|---|---|---|
17-04-2021 17:00:56 | $250 | CUST00001234 | ORD334567 |
17-04-2021 17:00:56 | $300 | CUST00009856 | ORD334568 |
17-04-2021 17:01:57 | $100 | CUST00001234 | ORD334569 |
جدول Order اشارهای به قسمت CustomerID دارد که به جزئیات مشتری ذخیره شده در جدول دیگری به نام مشتری اشاره دارد.
مبحث داده های نیمه ساختار یافته در بیگ دیتا (کلان داده - big data)
دادههای نیمه ساختار یافته ساختار یافته هستند اما ساختار یافته صلبی نیستند. این دادهها به شکل جدول و ستون نیستند. برخی از نمونه دادههای نیمه ساختار یافته، دادههای برنامههای تلفن همراه مانند، ایمیلها، گزارشها و دستگاههای IoT هستند. JSON و XML فرمتهای رایج برای دادههای نیمه ساختار یافته هستند. مانند مثال زیر:
{
"customerID": "CUST0001234",
"name" : "Ben Kinsley",
"address": {
"street": "piccadilly",
"zip" : "W1J9LL",
"city" : "London",
"state" : "England"
},
"orders": [{
"orderid":"ORD334567",
"billamount":"$250",
"billdate":"17-04-2021 17:00:56"
}, {
"orderid":"ORD334569",
"billamount":"$100",
"billdate":"17-04-2021 17:01:57"
}]
}
دادهها در اینجا ساختار طبیعیتری دارند و درک آنها آسانتر است. MongoDB نمونه خوبی برای ذخیره سازی دادههای نیمه ساختار یافته است.
داده های چند ساختاری/بدون ساختار در کلان داده (بیگ دیتا - big data)
دادههای چند ساختاری خام هستند و فرمتهای مختلفی دارند. این نوع دادهها میتوانند حاوی دادههای حسگر، گزارشهای وب، دادههای رسانههای اجتماعی، فایلهای صوتی، ویدیوها و تصاویر، اسناد، فایلهای متنی، دادههای باینری و غیره باشند. این دادهها ساختار خاصی ندارند و به همین دلیل به عنوان دادههای بدون ساختار طبقه بندی میشوند. به عنوان مثال میتوان به فایلهای متنی، فایلهای صوتی و تصاویری اشاره کرد.
ذخیره و پردازش دادههای بدون ساختار به دلیل فرمتهای متنوع آن دشوار است. با این حال، پایگاههای داده غیر رابطهای، مانند MongoDB، میتوانند به راحتی فرمتهای مختلف دادههای بزرگ را ذخیره و پردازش کنند.
اگر در آینده نیاز دارید موارد زیادی در اینترنت پایش کنید بهتر است سایت خود را به صورت اختصاصی توسط یک زبان برنامه نویسی یا فریم ورک خوب طراحی کنید برای مطالعه بیشتر به این لینک رجوع کنید: طراحی سایت اختصاصی
سه V دادههای کلان (بیگ دیتا - big data)
کلان داده (بیگ دیتا) سه ویژگی متمایز دارند که با حرف V شروع میشوند و به The three V مشهور است:
حجم (Volume)
دادهها «بزرگ» نیستند، مگر اینکه در مقادیر واقعاً عظیم ارائه شوند. تنها یک سفر خطوط هوایی بین کشوری میتواند ۲۴۰ ترابایت داده پرواز تولید کند. حسگرهای اینترنت اشیا در یک طبقه کارخانه واحد میتوانند هزاران فید داده همزمان تولید کنند. نمونههای رایج دیگر دادههای بزرگ، فید دادههای توییتر، کلیک صفحه وب و برنامههای تلفن همراه هستند.
سرعت (Velocity)
حجم عظیم دادههای بزرگ به این معنی است که باید با سرعت رعد و برق و سریع پردازش شوند تا نتیجه در بازههای زمانی مفید به دست آید. بر این اساس، نرمافزار معاملات سهام برای ثبت تغییرات بازار در عرض بازه زمانی میکروثانیه طراحی شده است. بازیهای آنلاین به طور همزمان به میلیونها کاربر خدمات ارائه میکنند و هر یک از آنها در هر ثانیه چندین عمل مختلف انجام میدهند. و دستگاههای اینترنت اشیا مقادیر عظیمی از داده را در زمان واقعی ذخیره و اجرا میکنند.
تنوع (Variety)
کلان داده در اشکال مختلفی مانند متنی، صوتی، تصویری، مکانی و سه بعدی وجود دارند که هیچ یک از آنها را نمیتوان با پایگاه داده های رابطهای سنتی که در بالا گفته شد ذخیره کرد. این سیستمهای قدیمیتر برای حجم کمتری از دادههای ساختاریافته طراحی شدهاند و فقط روی یک سرور اجرا میشوند و محدودیتهای واقعی را بر روی سرعت و ظرفیت اعمال میکنند. پایگاه دادههای کلان داده مدرن مانند MongoDB طوری مهندسی شدهاند که به راحتی نیاز به تنوع را برآورده کنند.
امروزه اعلاوه بر سه V بالا، Vهای دیگری هم به این سیستم اضافه شدهاند که عبارتند از:
- دقت(Veracity) - دقت دادههای بزرگ
- ارزش(Value) - ارزش تجاری که با تجزیه و تحلیل کلان دادهها به دست میآید.
- تنوع(Variability) - انواع مختلف داده و تغییرات در دادههای بزرگ در طول زمان.
نسخه Beta (بتا) چیست؟ و چرا در هر نوع نرم افزاری نسخه بندی داریم
تاریخچه کلان داده یا بیگ دیتا (big data)
بیگ دیتا از زمانی که این اصطلاح در سال 1980 توسط جامعه شناس چارلز تیلی ابداع شد، مسیر طولانی را طی کرده است.
بسیاری از محققان و کارشناسان یک انفجار اطلاعاتی را در قرن بیست و یکم پیشبینی میکردند. در اواخر دهه 1990، تحلیلگران و محققان شروع به صحبت بیشتر در مورد اینکه دادههای بزرگ (big data) چیست و آن را در مقالات تحقیقاتی خود ذکر کردند.
در سال 2001، داگلاس لین، تحلیلگر صنعت در گارتنر، سه V را در تعریف کلان داده معرفی کرد: حجم(Volume)، سرعت(Velocity) و تنوع(Variety).
سال 2006 نقطه عطف دیگری با توسعه Hadoop، سیستم ذخیره سازی و پردازش توزیع شده بود. از آن زمان، پیشرفتهای مداومی در ابزارهای کلان داده برای تجزیه و تحلیل وجود داشته است.
امروزه تجزیه و تحلیل دادههای بزرگ بسیار پیشرفته شده است، حداقل 53 درصد از شرکتها از دادههای بزرگ برای ایجاد بینش، صرفهجویی در هزینهها و افزایش درآمد استفاده میکنند. بازیگران زیادی در بازار وجود دارند و پایگاههای داده مدرن (دیتابیس ابری یا پایگاه داده ابری) در حال تکامل هستند تا بینش های بسیار بهتری از دادههای بزرگ به دست آورند.
چرا دادههای بزرگ یا کلان داده (big data) مهم است؟
دادههای بزرگ برای به دست آوردن بینشهای عملی برای بهبود فرآیند و درآمد استفاده میشود. تجزیه و تحلیل کلان دادهها میتواند به موارد زیر کمک کند:
- بهینه سازی هزینه : از طریق تجزیه و تحلیل دادههای بزرگ، شرکتها میتوانند استراتژیهای تجاری خود را بهبود بخشند، بهرهوری را با مدیریت بلایا قبل از وقوع آنها افزایش دهند و به جای نگرانی در مورد جنبههای عملیاتی، بیشتر بر تجارت تمرکز کنند، بنابراین هزینه کلی را کاهش میدهند.
- محصولات و خدمات نوآورانه : از طریق فناوریهای کلان داده، کسبوکارها میتوانند ترجیحات مشتری را بهتر درک کنند و استراتژیهای بازاریابی (قیف فروش در بازاریابی چیست؟) خود را بر این اساس شکل دهند. این آنها را قادر میسازد تا محصولات و خدمات بهتری را در آینده ارائه دهند.
- تصمیم گیری بهتر و سریعتر : با کمک ابزارهای کلان داده مانند Spark، Hadoop، پایگاههای داده NoSQL مانند MongoDB، ابزارهای تجسمی مانند نمودارها و دیگر ابزارها، تحلیلگران میتوانند بینشهای سریعتری و راهحلهای بهتری از کلان دادهها دریافت کنند. این به تصمیمگیری سریع برای تجارت کمک میکند.
بیگ دیتا (کلان داده - big data) برای چه اهدافی استفاده میشود؟
بیگ دیتا میتواند به طیف وسیعی از فعالیتهای تجاری از تجربه مشتری گرفته تا تجزیه و تحلیل بپردازد. در زیر چند نمونه کاربرد آورده شده است:
انطباق و حفاظت از کلاهبرداری : بیگ دیتا به شما امکان می دهد الگوهای استفاده مرتبط با کلاهبرداری را شناسایی کنید و مقادیر زیادی از اطلاعات را بسیار سریعتر تجزیه و تحلیل کنید و گزارش نظارتی را سرعت بخشیده و ساده کنید.
- یادگیری ماشین : کلان داده یا بیگ دیتا (big data) یک عامل کلیدی برای الگوریتمهایی است که به ماشینها و نرمافزارها یاد میدهند چگونه از تجربیات خود بیاموزند، تا بتوانند سریعتر عمل کنند، به دقت بالاتری دست یابند و بینشهای جدید و غیرمنتظره را کشف کنند.
- توسعه محصول : شرکتها طیفی از ورودیهای کلان داده را تحلیل و مدلسازی میکنند تا تقاضای مشتری را پیشبینی کنند و پیشبینی کنند که چه نوع محصولات و ویژگیهای جدید به احتمال زیاد برای آنها مناسب است.
- تعمیرات قابل پیشبینی : تولیدکنندگان با استفاده از الگوریتمهای پیچیده، ورودیهای حسگر اینترنت اشیا و سایر مجموعههای داده بزرگ را برای ردیابی عملکرد دستگاه و کشف سرنخهایی از مشکلات قریبالوقوع ارزیابی میکنند. هدف، تعیین فواصل ایدهآل برای نگهداری پیشگیرانه برای بهینهسازی عملکرد تجهیزات و به حداکثر رساندن زمان کار است.
- بهبود بهرهوری و به حداقل رساندن هزینهها : تولیدکنندگان برای تقویت برتری خود در بازارهای رقابتی کم حاشیه، از بیگ دیتا برای بهبود کیفیت و خروجی و در عین حال به حداقل رساندن ضایعات استفاده میکنند. سازمانهای دولتی میتوانند از رسانههای اجتماعی برای شناسایی و نظارت بر شیوع بیماریهای عفونی استفاده کنند. خرده فروشان به طور معمول کمپینها، SKUهای موجودی، و امتیاز قیمت را با نظارت بر نرخ کلیک وب تنظیم میکنند که تغییرات پنهان در رفتار مصرف کننده را آشکار میکند.
در پروژه های بزرگ باید با مدیریت پروژه و ابزارهای آن آشنایی کاملی داشته باشید
ابزارهای بیگ دیتا (کلان داده - big data)
ابزارهای کلان داده یا بیگ دیتا برای جمعآوری، تبدیل و تجزیه و تحلیل دادههای بزرگ استفاده میشوند، زیرا ابزارهای سنتی و پایگاههای داده رابطهای دیگر برای مدیریت آن کافی نیستند. برخی از بهترین ابزارهای کلان داده عبارتند از:
- Apache Spark : Spark یک چارچوب منبع باز است که عمدتاً برای پردازش دادههای جریانی محبوب است. به دلیل محاسبات درون حافظه، میتواند مقادیر زیادی از دادههای بلادرنگ را خیلی سریع پردازش کند.
- MongoDB : MongoDB یک پایگاه داده NoSQL است. اسکیمای انعطاف پذیری دارد. MongoDB حجم عظیمی از دادهها را در قالبی طبیعی قابل عبور ذخیره میکند و آن را به انتخاب خوبی برای ذخیره، پرسوجو و تجزیه و تحلیل دادههای بزرگ تبدیل میکند. MongoDB پایگاه داده را به عنوان یک سرویس کاملاً مدیریت شده با ویژگی هایی مانند رمزگذاری دادهها، امنیت، تجزیه و تحلیل پیشرفته ارائه میدهد.
- Apache Hadoop : چارچوبی که نحوه مشاهده تجزیه و تحلیل دادههای بزرگ را تغییر داد، Hadoop هنوز به طور گسترده برای پردازش دسته ای سریعتر دادهها استفاده میشود.
- Kafka : کافکا یک چارچوب متن باز است که میتواند حجم عظیمی از رویدادها را مدیریت کند. توان عملیاتی بالایی را به سیستمها ارائه میدهد و تحمل خطا بالایی دارد. کافکا برای پردازش جریان، منبع رویداد، و ساخت خطوط ردیابی فعالیت استفاده میشود.
- R : R یک ابزار آماری کلان داده محبوب است که میتواند تجزیه و تحلیلهای آماری پیشرفتهای را انجام دهد. R نمودارهای پیشرفته و ویژگیهای نمودار را برای تجسم آسان دادهها فراهم میکند.
وقتی با دیتاساینس کار میکنید بهتره بازار کار علم داده با چند مثال را هم ببینید و خودتون رو برای این بازار آماده کنید
از کلان داده یا بیگ دیتا (big data) در کجاها استفاده میشود؟
تقریباً همه صنایع به نوعی از دادههای بزرگ استفاده میکنند. این شامل همه موارد زیر میشود:
- کلان داده در مراقبت های بهداشتی : مدارک پزشکی الکترونیکی (EMR) به ردیابی سوابق بیمار و بیمارستان، تشخیص بیماریها در مراحل اولیه، کشف داروهای جدید، حمایت از تحقیقات زیست پزشکی و نظارت بر سلامت از طریق دستگاههای اینترنت اشیا کمک میکند.
- کلان داده در بانکداری و مالی : دادههای بزرگ برای تشخیص و پیشگیری از تقلب، شناسایی مشتریان وفادار و ایجاد امنیت بهتر استفاده میشود.
- کلان داده در بازاریابی و خرده فروشی : برای درک رفتار مشتری، پشتیبانی از تقسیمبندی مشتری، توصیه محصولات و خدمات، و ارائه بازاریابی هدفمند، خرده فروشان و سایر بازاریابان اغلب به تجزیه و تحلیل دادههای بزرگ روی میآورند.
کلان داده همچنین در تولید، تدارکات، بیمه، آموزش، سرگرمی و بسیاری از بخشهای دیگر کاربرد دارد.
کمی بیشتر در مورد علم داده یا دیتا ساینس (data science) چیست؟ بدانیم