التنقيب في البيانات

التنقيب في البيانات، كيف يعمل؟

التنقيب في البيانات هو عملية فهم البيانات من خلال تنظيف البيانات الخام ، وإيجاد الأنماط ، وإنشاء النماذج ، واختبار تلك النماذج. يتضمن الإحصائيات والتعلم الآلي وأنظمة قواعد البيانات. غالبًا ما يتضمن التنقيب عن البيانات مشاريع بيانات متعددة ، لذلك من السهل الخلط بينها وبين التحليلات وحوكمة البيانات وعمليات البيانات الأخرى. سيحدد هذا الدليل التنقيب في البيانات ، ويشارك فوائده وتحدياته ، ويستعرض كيفية عمل التنقيب في البيانات. التنقيب عن البيانات له تاريخ طويل. ظهرت مع الحوسبة في الستينيات حتى الثمانينيات. تاريخياً ، كان التنقيب عن البيانات عملية ترميز يدوية مكثفة – ولا يزال ينطوي على قدرة الترميز والمتخصصين المطلعين لتنظيف ومعالجة وتفسير نتائج استخراج البيانات اليوم. يحتاج المتخصصون في البيانات إلى معرفة إحصائية وبعض المعرفة بلغة البرمجة لإكمال تقنيات استخراج البيانات بدقة. على سبيل المثال ، فيما يلي بعض الأمثلة عن كيفية استخدام الشركات لـ R للإجابة على أسئلة البيانات الخاصة بهم.

التنقيب عن البيانات ليس تحليلات البيانات على وجه التحديد

كما تمت مناقشته ، قد يتم الخلط بين التنقيب في البيانات ومشاريع البيانات الأخرى. تتضمن عملية التنقيب عن البيانات مشاريع مثل تنظيف البيانات والتحليل الاستكشافي ، ولكنها ليست فقط تلك الممارسات. يقوم متخصصو التنقيب عن البيانات بتنظيف البيانات وإعدادها ، وإنشاء النماذج ، واختبار تلك النماذج مقابل الفرضيات ، ونشر تلك النماذج للتحليلات أو مشاريع ذكاء الأعمال. بعبارة أخرى ، تعد التحليلات وتنظيف البيانات جزءًا من التنقيب في البيانات ، لكنها ليست سوى أجزاء من الكل.

فوائد التنقيب في البيانات

يعد استخراج البيانات أكثر فاعلية عند نشره بشكل استراتيجي لخدمة هدف تجاري أو الإجابة على أسئلة العمل أو البحث أو ليكون جزءًا من حل لمشكلة ما. يساعد التنقيب عن البيانات في إجراء تنبؤات دقيقة ، والتعرف على الأنماط والقيم المتطرفة ، وغالبًا ما يُعلم التنبؤ. علاوة على ذلك ، يساعد التنقيب في البيانات المؤسسات على تحديد الفجوات والأخطاء في العمليات ، مثل الاختناقات في سلاسل التوريد أو الإدخال غير المناسب للبيانات.

كيف يعمل التنقيب عن البيانات

دائمًا ما تكون الخطوة الأولى في التنقيب عن البيانات هي جمع البيانات. يمكن لمؤسسات اليوم جمع السجلات والسجلات وبيانات زوار موقع الويب وبيانات التطبيق وبيانات المبيعات والمزيد كل يوم. يعد جمع البيانات ورسم الخرائط خطوة أولى جيدة في فهم حدود ما يمكن فعله بالبيانات المعنية وطرحها عليها. تعد العملية القياسية عبر الصناعة لاستخراج البيانات (CRISP-DM) بمثابة دليل ممتاز لبدء عملية استخراج البيانات. تم إنشاء هذا المعيار منذ عقود ولا يزال نموذجًا شائعًا للمؤسسات التي بدأت للتو.

مراحل CRISP-DM الخمسة

يشتمل CRISP-DM على سير عمل من خمس مراحل. تم تصميمه ليكون مرنًا ؛ يُسمح لفرق البيانات وتشجع على العودة إلى المرحلة السابقة إذا لزم الأمر. يوفر النموذج أيضًا فرصًا لمنصات البرامج التي تساعد في أداء بعض هذه المهام أو زيادتها.

1. فهم الأعمال

تبدأ مشاريع التنقيب عن البيانات الشاملة بتحديد أهداف المشروع ونطاقه أولاً. سيطرح أصحاب المصلحة في الأعمال سؤالاً أو يذكرون مشكلة يمكن أن يجيب عليها التنقيب عن البيانات أو يحلها.

2. فهم البيانات

بمجرد فهم مشكلة العمل ، فقد حان الوقت لجمع البيانات ذات الصلة بالسؤال والتعرف على مجموعة البيانات. غالبًا ما تأتي هذه البيانات من مصادر متعددة ، بما في ذلك البيانات المنظمة والبيانات غير المنظمة. قد تتضمن هذه المرحلة بعض التحليلات الاستكشافية للكشف عن بعض الأنماط الأولية. في نهاية هذه المرحلة ، اختار فريق التنقيب عن البيانات مجموعة فرعية من البيانات للتحليل والنمذجة.

3. إعداد البيانات

تبدأ هذه المرحلة بمزيد من العمل المكثف. يتضمن إعداد البيانات إعداد مجموعة البيانات النهائية ، والتي تشمل جميع البيانات ذات الصلة اللازمة للإجابة على سؤال العمل. سيحدد أصحاب المصلحة الأبعاد والمتغيرات لاستكشاف وإعداد مجموعة البيانات النهائية لإنشاء النموذج.

4. النمذجة

في هذه المرحلة ، ستحدد تقنيات النمذجة المناسبة للبيانات المحددة. يمكن أن تشمل هذه التقنيات التجميع ، أو النماذج التنبؤية ، أو التصنيف ، أو التقدير ، أو الجمع. استخدمت فرونت هيلث النمذجة الإحصائية والتحليلات التنبؤية لتقرير ما إذا كان سيتم توسيع برامج الرعاية الصحية لتشمل السكان الآخرين. قد تضطر إلى العودة إلى مرحلة إعداد البيانات إذا اخترت أسلوب النمذجة الذي يتطلب تحديد متغيرات أخرى أو إعداد بعض المصادر المختلفة.

5. التقييم

بعد إنشاء النماذج ، تحتاج إلى اختبارها وقياس مدى نجاحها في الإجابة على السؤال المحدد في المرحلة الأولى. قد يجيب النموذج على جوانب أشياء لم يتم أخذها في الحسبان ، وقد تحتاج إلى تعديل النموذج أو تحرير السؤال. تم تصميم هذه المرحلة للسماح لك بإلقاء نظرة على التقدم المحرز حتى الآن والتأكد من أنها على المسار الصحيح لتحقيق أهداف العمل. إذا لم يكن الأمر كذلك ، فقد تكون هناك حاجة للعودة إلى الخطوات السابقة قبل أن يصبح المشروع جاهزًا لمرحلة النشر.

اشترك فى القائمة البريدية

عن الكاتب

شارك على وسائل التواصل

اترك تعليقاً

لن يتم نشر عنوان بريدك الإلكتروني. الحقول الإلزامية مشار إليها بـ *