تنقيب البيانات Data Mining

فى ظل التقدم التكنولوجى هذه اليوم. فاالعالم اليوم يحتوي على كميات هائلة من البيانات فى انتظار من يستغلها. تنقيب البيانات او تعدين البيانات او Data Mining  هو تحليل البيانات والبحث عن انماط وعلاقات بين البيانات وبعضها. يهدف ذلك إلى استخراج المعرفة والتى بدورها تفيد صانعى القرار.

تنقيب البيانات لايشمل فقط استخراج البيانات ولكن هناك الكثير من الخطوات الاخرى مثل تنقية البيانات وتحويل البيانات و اكتشاف الانماط واستعرضها.

مجال تنقيب البيانات ليس علمًا قائم بذاته بل هم مزيج بين الكثير من التقنيات الحديثة.

استخدامات تنقيب البيانات Data Mining

  • تحليل الاسواق
  • الكشف عن الغش -مثلًا فى البنوك-
  • المحافظة على العملاء للشركات
  • مراقبة الإنتاج
  • استكشاف العلوم -مثلًا العلوم الطبية-

مكونات نظم تنقيب البيانات

تنقيب البيانات

تنقيب البيانات ليس علمًا منفصل بل مزيج من العلوم والتقنيات الاخرى الموجودة حاليًا كالتالى:

كيفية القيام باستخراج البيانات

عملية التنقيب فى البيانات تشمل ستة مراحل كالتالى:

فهم الأعمال Business understanding

الخطوة الاولى هى فهم كيفية عمل المؤسسة التى تقوم تحتاج إلى Data mining , فى هذه المرحلة يجب وضع خطة شاملة تشمل الجداول الزمنية وتوزيع الاداور وغيرها.

فهم البيانات Data understanding

يتم تجميع البيانات من المصادر المختلفة -مثلًا قواعد بيانات الشركة وقواعد بيانات خارجية- يتم دمج هذه البيانات مع بعضها وعرض بادوات عرض البيانات للتأكد من انها تحقق الهدف من المشروع.

اعداد البيانات Data preparation

فى هذه المرحلة يتم تطهير البيانات ويتم اضافة البيانات المفقودة لضمان جودة النتائج.

الوقت اللازم لعملية تحليل البيانات يكون معتمد على كمية البيانات فى المشروع وكذلك عدد المصادر التى تم تجميع البيانات منها.

لاختصار زمن تحليل البيانات قد نستخدم النظم الموزعة او distributed systems  فى نظم ادارة قواعد البيانات DBMS لتحقيق هذا الغرض واسراع المعالجة.

نمذجة البيانات Data Modeling

يتم تستخدم النماذج الرياضية للعثور على أنماط في البيانات باستخدام أدوات البيانات المتطورة.

مرحلة التقييم Evaluation

يتم تقييم النتائج ومقارنتها بأهداف المشروع لتحديد ما إذا كان ينبغي نشرها ام لا.

مرحلة النشر Deployment

في المرحلة الاخيرة، يتم مشاركة نتائج تنقيب البيانات للاستفادة منها فى العمل العادى للشركة.

يمكن ان تحتوي الشركة على قسم business intelligence للحصول على هذه النتائج من مصدر واحد موثوق.

تطبيقات على التنقيب فى البيانات Data Mining

تحليل واستهداف الاسواق

يستخدم تجار التجزئة تنقيب البيانات لفهم عملائهم بشكل أفضل. فيتيح لهم تنقيب البيانات تحسين مجموعات السوق وتخصيص العروض الترويجية بشكل افضل وتقديم عروض ترويجية مناسبة لمختلف المستهلكين.

ادارة الائتمان فى البنوك

تنشر البنوك نماذج لاستخراج البيانات للتنبؤ بقدرة المقترض على الاقتراض وسداد الديون. باستخدام مجموعة متنوعة من المعلومات الديموغرافية والشخصية ، تقوم هذه النماذج تلقائيًا بتحديد سعر الفائدة بناءً على مستوى المخاطرة المحددة للعميل. فكلما زادت المخاطر زاد سعر الفائدة .

كشف الاحتيال والوقاية منه

تقوم المؤسسات المالية بتنفيذ نماذج لاستخراج البيانات لاكتشاف المعاملات الاحتيالية وإيقافها تلقائيًا. يحدث هذا النوع من البرامج وراء الكواليس مع كل معاملة وأحيانًا دون أن يعرف المستهلك عنها شيئًا. من خلال تتبع عادات الإنفاق ، تكتشف هذه النماذج المعاملات الشاذة وتوقف الدفع على الفور حتى يتحقق العملاء من عمليات الشراء هذه. يمكن أن تعمل خوارزميات التنقيب عن البيانات بشكل اتوماتيكى لحماية المستهلكين من المعاملات الاحتيالية من خلال رسالة بريد إلكتروني أو إشعار نصي لتأكيد عملية الشراء.

الرعاية الصحية

يستخدم أخصائيو الرعاية الصحية نماذج إحصائية للتنبؤ باحتمال إصابة المريض بظروف صحية مختلفة بناءً على عوامل الخطر. يمكن نمذجة البيانات الديموغرافية والأسرية والجينية لمساعدة المرضى على إجراء تغييرات لمنع او تقليل ظهور مشاكل صحية معينة. تم نشر هذه النماذج مؤخرًا في البلدان النامية للمساعدة في تشخيص المرضى وتحديد أولوياتهم قبل وصول الأطباء إلى الموقع لبدء العلاج.

تصفية الرسائل المزعجة فى البريد

يتم استخدام تنقيب البيانات أيضًا لمكافحة تدفق البريد الإلكتروني العشوائي والبرامج الضارة. يمكن للأنظمة تحليل الخصائص المشتركة لملايين الرسائل الخبيثة لتحديث وتطوير برامج الأمان. إلى جانب الكشف ، يمكن لهذا البرنامج المتخصص أن يخطو خطوة أبعد ويحذف هذه الرسائل قبل أن تصل حتى إلى صندوق الوارد الخاص بالمستخدم.

أنظمة التوصية Recommendation Systems

تستخدم حاليًا أنظمة التوصية على نطاق واسع بين تجار التجزئة على الإنترنت. تعد نمذجة التنبؤ بسلوك المستهلك الآن محورًا أساسيًا للعديد من المؤسسات وتعتبر ضرورية للتنافس. فقد قامت شركات مثل Amazon و Macy ببناء نماذج خاصة بها لاستخراج البيانات للتنبؤ بالمنتاجات التى يحتاجها الزبون وتعزيز تجربة العملاء.

كما قدمت شركة Netflix الشهيرة جائزة بقيمة مليون دولار لخوارزمية من شأنها أن تزيد بشكل كبير من دقة نظام التوصية الخاصة بهم. النموذج الفائز يحسن دقة التوصية بأكثر من 8٪.

تحليل المشاعر Sentiment Analysis

تحليل مشاعر المستخدمين من بيانات منصفات التواصل الاجتماعي هو تطبيق شائع لتنقيب البيانات فمثلًا يستخدم تقنية تسمى التنقيب عن النص. هذه هي الطريقة المستخدمة لفهم كيف تشعر مجموعة كاملة من الناس تجاه موضوع ما. يتضمن التنقيب عن النص استخدام مدخلات من مواقع التواصل الاجتماعي أو أي شكل آخر من أشكال المحتوى العام لاكتساب رؤى أساسية نتيجة للتعرف على الأنماط الإحصائية.

إذا خطونا خطوة إلى الأمام ، يمكن استخدام تقنيات معالجة اللغة الطبيعية (NLP) للعثور على المعنى السياقي وراء اللغة البشرية المستخدمة.

تحديات تعدين البيانات

في حين أن عملية التعدين قوية ومتعددة الاستخدامات ، إلا أن التعقيد المتزايد للبيانات الضخمة يعوقها. عندما تجمع الشركات كميات كبيرة من البيانات كل يوم ، يحتاج صناع القرار إلى طرق لاستخراج وتحليل واكتساب نظرة ثاقبة من مستودعهم الوفير للبيانات.

التكلفة المتزايدة

مع استمرار سرعة زيادة حجم البيانات وتنوعها ، يجب على الشركات توسيع نطاق هذه النماذج وتطبيقها في جميع أنحاء المؤسسة. تتطلب الاستفادة الكاملة لتنقيب البيانات استثمارات كبيرة في البنية التحتية الحاسوبية وقدرة المعالجة. فيجب على المؤسسات شراء وصيانة أجهزة الكمبيوتر والخوادم والبرامج القوية المصممة للتعامل مع كميات كبيرة ومتنوعة من البيانات.

جودة البيانات

البيانات فى كثير من الاحيان تأتى مع قيم مفقودة تكون مطلوبة ليعمل الخوارزمية بكفاءة على الخوازمية معالجة هذه المشكلة.

عدم تجانس البيانات

مع اختلاف اشكال البيانات التى قد تكون نص او فيديو او صور او انفوجرافيك وغيرها من انواع بيانات اخرى اصبحت مهمة التنقيب فى البيانات اكثر صعوبة , فعلى خوازميات التنقيب فى البيانات التعامل مع مثل هذه الصيغ للبيانات.

الخصوصية والأمن للبيانات

أجبرت متطلبات التخزين المتزايدة للبيانات العديد من الشركات على التحول نحو الحوسبة والتخزين السحابي. في حين مكنت السحابة العديد من التطورات الحديثة في استخراج البيانات ، إلا أن طبيعة الخدمة تخلق تهديدات كبيرة للأمان والخصوصية. فيجب على المؤسسات حماية بياناتها للحفاظ على ثقة شركائها وعملائها.

مصادر مفيدة


كتب بواسطة عمرو العربى

مؤسس مطور

التعليقات

اترك تعليقك

لن يتم نشر عنوان بريدك الإلكتروني. الحقول الإلزامية مشار إليها بـ *

*