لمحة عن البيانات الضخمة Big Data - صفحات

لمحة عن البيانات الضخمة Big Data

هل تسائلت يومًا ما عن عدد مرات البحث التي يتلقاها Google شهريًا؟ ماذا عن عدد الصور التي تُنشر على فيس بوك؟
الإجابات هي: 100 مليار عملية بحث و 50 مليار صورة! 

يا لها من بيانات ضخمة، صحيح؟

تعريف البيانات الضخمة Big Data

هو مصطلح يصف الحجم الضخم للبيانات -المهيكلة وغير المهيكلة على حد سواء- التي تغمر الشركات على أساس يومي (عادةً ما تُقاس بالبيتا بايت petabyte (ألف تيرا بايت) أو الايكسا بايت exabyte (مليون تيرابيات)).
لكن الأمر لا يتعلق بحجم تلك البيانات إنما بما تفعله الشركات بها. حيث تحرص الشركات على تحليل البيانات الضخمة بحثًا عن رؤى تقودها نحو اتخاذ قرارات أفضل.

فكر في بعض أكبر شركات التكنولوجيا في العالم. تشكل بياناتهم مصدرًا مهمًا من القيمة التي يقدمونها، والتي يعملون على تحليلها باستمرار لإنتاج مزيد من الكفاءة وتطوير منتجات جديدة.

أدت الطفرات التكنولوجية مؤخرًا إلى جعل تخزين وتحليل البيانات أكثر سهولة وأقل تكلفة من أي وقت مضى.

أنواع البيانات الضخمة

تنقسم البيانات الضخمة إلى 3 أنواع:

  • منظمة
  • غير منظمة
  • شبه منظمة

 

البيانات المنظمة

يُطلق على أي بيانات يمكن تخزينها والوصول إليها ومعالجتها في شكل تنسيق ثابت بيانات "منظمة".
على مدار سنوات، تمكنت الشركات الكبرى من تطوير تقنيات ناجحة للعمل مع مثل هذا النوع من البيانات (حيث يكون التنسيق معروفًا مسبقًا) وأيضًا استخلاص القيمة منه. ومع ذلك، يتوقع الخبراء حدوث مشكلات عندما ينمو حجم مثل هذه البيانات إلى حد كبير (الحجم الذي يمكننا التعامل معه اليوم هو: عدة "زيتابايت zettabyte")

بالنظر إلى هذه الأرقام، يمكن للمرء أن يفهم بسهولة سبب تسمية البيانات الضخمة ويتخيل التحديات التي ينطوي عليها تخزينها ومعالجتها.

مثال على البيانات المنظمة: جداول الموظفين الذي يضمّ (أسمائهم - جنسهم - القسم الذي يعملون فيه.. إلخ)

البيانات غير المنظمة

تُصنّف أي بيانات ذات شكل أو بنية غير معروفة على أنها بيانات غير منظمة.
بالإضافة إلى الحجم الضخم، فإن البيانات غير المنظمة تشكل تحديات متعددة من حيث معالجتها لاستخلاص القيمة منها. من الأمثلة النموذجية على البيانات غير المنظمة مصدر بيانات غير متجانس يحتوي على مجموعة من الملفات النصية البسيطة والصور ومقاطع الفيديو وما إلى ذلك. تمتلك المؤسسات اليوم ثروة من البيانات المتاحة معهم ولكن للأسف، لا يعرفون كيفية استخلاص القيمة منها بشكلها الخام.

مثال على البيانات غير المنظمة: نتائج البحث في "بحث غوغل Google Search"

البيانات شبه المنظمة

يمكن أن تحتوي البيانات شبه المنظمة على كلا شكلي البيانات. يمكننا أن نرى البيانات شبه منظمة كمنظومة في شكل لكنها في الواقع غير معرّفة (على سبيل المثال. تعريف جدول في نظام إدارة قواعد البيانات).

 

مثال على البيانات شبه المنظمة: البيانات الشخصية المخزنة في ملف (XML)

<rec><name>Prashant Rao</name><sex>Male</sex><age>35</age></rec>
<rec><name>Seema R.</name><sex>Female</sex><age>41</age></rec>
<rec><name>Satish Mane</name><sex>Male</sex><age>29</age></rec>
<rec><name>Subrato Roy</name><sex>Male</sex><age>26</age></rec>
<rec><name>Jeremiah J.</name><sex>Male</sex><age>35</age></rec>

خصائص البيانات الضخمة

يمكن وصف البيانات الضخمة بالخصائص التالية:

  • الحجم.
  • التنوع.
  • التسارع.
  • التباين.

الحجم

يرتبط اسم البيانات الضخمة بحد ذاته بالحجم الهائل. يلعب حجم البيانات دورًا مهمًا للغاية في تحديد قيمة البيانات. أيضًا، ما يُحدد ما إن كانت بيانات معينة بالفعل بيانات كبيرة أم لا هو حجمها. ومن ثم، فإن "الحجم" هو إحدى السمات التي يجب مراعاتها أثناء التعامل مع البيانات الضخمة.

التنوع

يشير التنوع إلى المصادر غير المتجانسة وطبيعة البيانات، سواء كانت منظمة أو غير منظمة. في الماضي، كانت جداول البيانات وقواعد البيانات هي المصادر الوحيدة للبيانات التي اهتمت بها معظم التطبيقات. اليوم، يتم أيضًا مراعاة البيانات التي تأتي في شكل رسائل بريد إلكتروني وصور ومقاطع فيديو وأجهزة العرض وملفات PDF والصوت وما إلى ذلك في تطبيقات التحليل. يطرح هذا التنوع من البيانات غير المنظمة بعض المشكلات المتعلقة بالتخزين والتعدين وتحليل البيانات.

التسارع

يشير مصطلح "التسارع" إلى سرعة توليد البيانات. ومدى سرعة إنشاء البيانات ومعالجتها لتلبية المتطلبات، وهو بهذا يحدد الإمكانات الحقيقية للبيانات.

تتعلق سرعة البيانات الضخمة بالسرعة التي تتدفق بها البيانات من مصادر مثل العمليات التجارية، وسجلات التطبيقات، والشبكات، ومواقع التواصل الاجتماعي، وأجهزة الاستشعار، والأجهزة المحمولة، وما إلى ذلك.

التباين

يشير مصطلح (التباين) إلى عدم الاتساق الذي يمكن أن تظهره البيانات في بعض الأحيان، مما يعيق عملية القدرة على التعامل مع البيانات وإدارتها بفعالية.

فوائد معالجة البيانات الضخمة

تجلب القدرة على معالجة البيانات الضخمة مزايا متعددة، على سبيل المثال:

  • يمكن للشركات الاستفادة من الذكاء الاصطناعي للمصادر الخارجية أثناء اتخاذ القرارات: يتيح الوصول إلى البيانات الاجتماعية من محركات البحث والمواقع مثل الفيسبوك و تويتر للمؤسسات تحسين استراتيجيات الشركة.
  • تحسين خدمة العملاء: يتم استبدال أنظمة ملاحظات العملاء التقليدية بأنظمة جديدة مصممة بتقنيات البيانات الضخمة. في هذه الأنظمة الجديدة، يتم استخدام البيانات الضخمة وتقنيات معالجة اللغة الطبيعية لقراءة وتقييم استجابات المستهلكين.
  • التحديد المسابق للمخاطر التي يتعرض لها المنتج/الخدمة.
  • كفاءة تشغيلية أفضل.

 

تحديات البيانات الضخمة 

لا يمكن لأي منظمة أن تعمل بدون بيانات هذه الأيام. مع وجود كميات هائلة من البيانات التي يتم إنشاؤها كل ثانية من المعاملات التجارية وأرقام المبيعات وسجلات العملاء وأصحاب المصلحة، فإن البيانات هي الوقود الذي يدفع الشركات. وكما أسلفنا، تتراكم كل هذه البيانات في مجموعة بيانات ضخمة يشار إليها باسم البيانات الضخمة.

هذه البيانات تحتاج إلى تحليل لتعزيز عملية صنع القرار. ولكن، هناك بعض التحديات التي تواجهها الشركات فيما يتعلق بالبيانات الضخمة. والتي سنناقشها ونقترح بعض السبل للتغلب عليها.

1. الافتقار لفهم البيانات الضخمة على نحوٍ سليم

تفشل الشركات في اتخاذ مبادرات اتجاه البيانات الضخمة بسبب قصور الفهم. قد يجهل الموظفون ما هي البيانات وأساليب تخزينها أو معالجتها وأهميتها ومصادرها. بالطبع يعرف متخصصو البيانات أسرار المجال، لكن قد لا يمتلك الأشخاص العاديون -إن صحّت التسمية- صورة واضحة.
على سبيل المثال، إذا لم يفهم الموظفون أهمية تخزين البيانات، فقد لا يحتفظون بنسخة احتياطية من بياناتهم الحساسة. أو قد لا يستخدمون قواعد البيانات بشكل صحيح للتخزين. نتيجة لذلك، عندما تكون تلك البيانات المهمة مطلوبة، يعجزون عن استرجاعها بسهولة.

اقرأ أيضًا: الهندسة الاجتماعية: إلى أي حد هي خطرة؟ وكيف يمكنك حماية نفسك منها؟

 

كيف تتغلب على هذا التحدي؟

عبر عقد ورش عمل وندوات حول البيانات الضخمة في الشركات للجميع. يجب تنظيم برامج التدريب الأساسية لجميع الموظفين الذين يتعاملون مع البيانات بانتظام ويشكلون جزءًا من مشاريع البيانات الضخمة. علاوة عن غرس الحد الأدنى الأساسي لمفاهيم البيانات في جميع مستويات المنظمة.

 

2. مشاكل تضاعف البيانات

أحد التحديات الأكثر أهمية للبيانات الضخمة هو تخزين كل هذه المجموعات الضخمة من البيانات بشكل صحيح. كمية البيانات المخزنة في مراكز البيانات وقواعد بيانات الشركات تتزايد بسرعة. نظرًا لأن مجموعات البيانات هذه تنمو بشكل كبير بمرور الوقت، يصبح من الصعب للغاية التعامل معها.

معظم بيانات اليوم نجدها غير منظمة وتأتي من المستندات ومقاطع الفيديو والتسجيلات الصوتية والملفات النصية ومصادر أخرى. هذا يعني أنه لا يمكنك العثور عليها في قواعد البيانات.

اقرأ أيضًا: لمحة عن عالم واجهات المستخدم UX وتجربة المستخدم UI

 

كيف تتغلب على هذا التحدي؟

من أجل التعامل مع مجموعات البيانات الضخمة هذه، تختار الشركات التقنيات الحديثة، مثل الضغط "Compression"، والتصنيف "Tiering"، وإلغاء البيانات المكررة "Deduplication". يُستخدم الضغط لتقليل عدد وحدات البت في البيانات، وبالتالي تقليل حجمها الكلي. وإلغاء البيانات المكررة -كما يظهر اسمها- هو عملية إزالة البيانات المكررة وغير المرغوب فيها من مجموعة البيانات.

في حين يسمح تصنيف البيانات للشركات بتخزين البيانات في طبقات تخزين مختلفة. وهو ما يضمن أن البيانات الموجودة في مساحة التخزين هي الأكثر ملاءمة. يمكن أن تكون طبقات البيانات عبارة عن تخزين سحابي (سحابة عامة - سحابة خاصة)، أو ذاكرة وميضية "Flash memory"، اعتمادًا على حجم البيانات وأهميتها.
تختار الشركات أيضًا أدوات البيانات الضخمة، مثل Hadoop و NoSQL وغيرها من التقنيات.

وهو ما يقودنا إلى تحدي البيانات الضخمة الثالث.

 

3. الارتباك في تحديد أداة البيانات الضخمة المناسبة

غالبًا ما يسود التردد الأجواء أثناء اختيار أفضل أداة لتحليل البيانات الضخمة وتخزينها: هل HBase أو Cassandra أفضل تقنية لتخزين البيانات؟ هل Hadoop MapReduce جيد بما فيه الكفاية أم سيكون Spark خيارًا أفضل لتحليلات البيانات وتخزينها؟

هذه الأسئلة تزعج الشركات وأحيانًا لا تتمكن من العثور على إجابات. ينتهي بهم الأمر إلى اتخاذ قرارات سيئة واختيار تقنية غير مناسبة. نتيجة لذلك، يضيع المال والوقت والجهود وساعات العمل.

اقرأ أيضًا: كيف أكون أكثر إنتاجية عند العمل من المنزل؟ [10 نصائح ذهبية]

 

كيف تتغلب على هذا التحدي؟

أفضل طريقة للقيام بذلك هي طلب المساعدة المهنية. يمكنك إما توظيف محترفين ذوي خبرة يعرفون الكثير عن هذه الأدوات.

 

4. ندرة المتخصصين في البيانات

للتعامل مع البيانات الضخمة وأدواتها، تحتاج الشركات إلى متخصصي البيانات المحترفين. يشمل هؤلاء: علماء البيانات ومحللي البيانات ومهندسي البيانات الذين يتمتعون بالخبرة في العمل مع الأدوات وإدراك مجموعات البيانات الضخمة.

تواجه الشركات مشكلة نقص المتخصصين في البيانات الضخمة. هذا لأن أدوات معالجة البيانات قد تطورت بسرعة، ولكن في معظم الحالات، تكون المشكلة في مجاراة المحترفين لتطور الأدوات. وهو ما يستلزم اتخاذ خطوات عملية لسد هذه الفجوة.

تعرّف على دوراتنا لإدارة قواعد البيانات: MysqlSQL - Oracle

 

كيف تتغلب على هذا التحدي؟

تستثمر الشركات المزيد من الأموال في توظيف المهنيين المحترفين، وهذا غير كافٍ! إذ يجب عليهم أيضًا تقديم برامج تدريبية للموظفين الحاليين لتحقيق أقصى استفادة منهم.
خطوة أخرى مهمة اتخذتها المنظمات هي شراء حلول تحليلات البيانات التي يتم تشغيلها بواسطة الذكاء الاصطناعي/التعلم الآلي. يمكن تشغيل هذه الأدوات بواسطة محترفين ليسوا خبراء في علوم البيانات ولكن لديهم بعض المعرفة الأساسية. تساعد هذه الخطوة الشركات على توفير الكثير من المال للتوظيف.

 

5. تأمين البيانات

يعد تأمين المجموعات الضخمة من البيانات أحد التحديات الهائلة للبيانات الضخمة. غالبًا ما تكون الشركات مشغولة جدًا في فهم مجموعات بياناتها وتخزينها وتحليلها لدرجة أنها تؤجل أمان البيانات لأوقات لاحقة. غني عن القول أنها ليست بالخطوة الذكية لأن مستودعات البيانات غير المحمية يمكن أن تصبح أرضًا خصبة للمتسللين.

يمكن أن تخسر الشركات ما يصل إلى 3.7 مليون دولار بسبب سجلٍ مسروق أو خرق للبيانات!

لا تقع في هذا الفخ، وتعرّف على الأمن السيبراني (cybersecurity): تعريفه - أطر العمل - الوظائف المُتاحة مع رواتبها

 

كيف تتغلب على هذا التحدي؟

تقوم الشركات بتوظيف المزيد من المتخصصين في الأمن السيبراني لحماية بياناتهم. تشمل الخطوات الأخرى المتخذة لتأمين البيانات ما يلي:

  • تشفير البيانات.
  • عزل البيانات.
  • التحكم في الهوية والوصول.
  • حلول أمن نقطة النهاية.
  • المراقبة في الوقت الحقيقي.
  • استخدم أدوات أمان البيانات الضخمة، مثل IBM Guardian

 

6. دمج البيانات من مصادر متنوعة

ترد البيانات للمؤسسات من مجموعة متنوعة من المصادر، مثل صفحات الشبكات الاجتماعية وتطبيقات تخطيط موارد المؤسسات وسجلات العملاء والتقارير المالية ورسائل البريد الإلكتروني والعروض التقديمية والتقارير التي أنشأها الموظفون. يعد الجمع بين كل هذه البيانات لإعداد التقارير مهمة صعبة.

هذا مجال غالبًا ما تتجاهله الشركات. لكن دمج البيانات أمر بالغ الأهمية للتحليل وإعداد التقارير وذكاء الأعمال، لذلك يجب أن يكون مثاليًا.

اقرأ أيضًا: ما هو فايربيز Firebase؟ وما الغاية منه؟

كيف تتغلب على هذا التحدي؟

يتعين على الشركات حل مشكلات تكامل البيانات الخاصة بها عن طريق شراء الأدوات المناسبة. بعض من أفضل أدوات تكامل البيانات مذكورة أدناه:

في الختام

من أجل استخدام البيانات الضخمة على أفضل وجه، يتعين على الشركات أن تبدأ في فعل الأشياء بشكل مختلف. وهذا يعني تعيين موظفين أفضل، وتغيير الإدارة، ومراجعة سياسات الأعمال الحالية والتقنيات المستخدمة.

لتعزيز عملية صنع القرار، يمكن للشركات تعيين مدير بيانات رئيسي (وهي خطوة اتخذتها العديد من شركات Fortune 500).

 

المصادر:

 

التعليقات

يجب تسجيل الدخول أو التسجيل لتتمكّن من التعليق