عودة

ما هي قواعد البيانات المتجهة؟

By Sean Chen, 10 نوفمبر، 2023

官網文章_向量資料庫 (1).png



هذه السلسلة من المقالات بعنوان "دع AI يشرح AI"، تم كتابتها بالكامل بواسطة نماذج اللغة الكبيرة مثل GPT-4 تحت إشراف بشري. تهدف هذه السلسلة إلى تقديم المعرفة المتعلقة بالذكاء الاصطناعي بطريقة مبسطة يمكن لجميع العاملين من خلفيات مختلفة استيعابها بسهولة. الجزء الأول يشرح أهمية المعرفة من الناحية التجارية، بينما يشرح الجزء الثاني التفاصيل التقنية بشكل أعمق.



عندما يواجه العمل ظهور عصر البيانات الضخمة، تصبح قواعد البيانات المتجهة بمثابة منارة في عالم البيانات غير المهيكلة، تضيء الطريق للبحث السريع عن المعلومات. ستأخذك هذه المقالة في جولة لفهم كيفية عمل هذه التقنية وما تعنيه وتأثيرها على عالم الأعمال.

مبدأ وأساس قواعد البيانات المتجهة

تستخدم قواعد البيانات المتجهة "المتجهات" في الرياضيات لتخزين المعلومات. دعونا نأخذ مثالاً من الحياة اليومية لتوضيح ذلك: افترض أن لديك العديد من الكرات الصغيرة ذات الألوان المختلفة في غرفتك، كل كرة تمثل نوعًا من البيانات. الآن، تريد وضع الكرات على رف الكتب في مواقع محددة، وهذه المواقع يجب أن تعكس خصائص لون كل كرة. لذا، قررت استخدام دفتر "خريطة الألوان" لمساعدتك في العثور على موقع كل كرة. في هذا الدفتر، يتم وضع الكرات ذات الألوان المتشابهة بالقرب من بعضها البعض؛ بينما توضع الكرات ذات الألوان المختلفة بعيدًا قليلاً.

قواعد البيانات المتجهة تعمل بنفس المبدأ، حيث تقوم أولاً بتحويل أنواع مختلفة من البيانات (مثل النصوص، الصور أو الصوت) إلى متجهات رياضية (مثل الكرات المذكورة سابقًا). هذه المتجهات لها مواقعها الخاصة في فضاء متعدد الأبعاد، تمامًا مثل الكرات على رف الكتب. عندما تريد العثور بسرعة على البيانات الأكثر تشابهًا مع بيانات معينة، ستساعدك قاعدة البيانات المتجهة في العثور على المتجهات الأقرب في هذا الفضاء المتعدد الأبعاد (كما لو كنت تبحث عن الكرات ذات الألوان الأكثر تشابهًا).

ببساطة، يتم تجريد خصائص البيانات إلى نقاط في الفضاء باستخدام الطرق الرياضية، ثم يتم حساب المسافات بين هذه النقاط للعثور بسرعة على البيانات المتشابهة.

لماذا هي مهمة

تخيل أنك في مكتبة كبيرة تبحث عن كتاب معين، إذا كانت جميع الكتب مرتبة فقط حسب المؤلف أو العنوان، فقد تحتاج إلى قضاء الكثير من الوقت في البحث. ولكن إذا كانت الكتب مرتبة حسب "صلة المحتوى"، فإن الكتاب الذي تريده سيكون مع الكتب ذات الموضوعات المشابهة، مما يجعل البحث أسرع بكثير. هذا هو السبب في أهمية قواعد البيانات المتجهة: يمكنها تحسين كفاءة البحث وتحليل كميات كبيرة من البيانات بشكل كبير.

كيفية الاستخدام

عند استخدام قواعد البيانات المتجهة، يجب أولاً أن يكون لديك مجموعة من البيانات، مثل النصوص أو الصور أو الصوت. يتم تحويل هذه البيانات إلى "متجهات" باستخدام "نموذج تعلم الآلة". ثم يتم تخزين هذه المتجهات في قاعدة البيانات المتجهة. عندما يقدم المستخدم استعلامًا، يتم تحويل هذا الاستعلام أيضًا إلى متجه، وتقوم قاعدة البيانات بسرعة بالعثور على المتجهات الأقرب إلى هذا الاستعلام، وبالتالي العثور على المعلومات التي يحتاجها المستخدم.

التطبيقات

تستخدم قواعد البيانات المتجهة من قبل الشركات التي تحتاج إلى معالجة كميات كبيرة من البيانات في مختلف الصناعات. يشمل ذلك شركات التكنولوجيا، المؤسسات المالية، مؤسسات الرعاية الصحية، وحتى تجار التجزئة. أي منظمة تحتاج إلى "العثور بسرعة على المعلومات المطلوبة من بحر البيانات غير المهيكلة" قد تستخدم قواعد البيانات المتجهة.

المزايا

تتمثل مزايا قواعد البيانات المتجهة في كفاءتها العالية ودقتها. يمكنها معالجة واسترجاع كميات كبيرة من البيانات المعقدة بسرعة، وهو ما يكون غالبًا مستحيلًا عند استخدام قواعد البيانات التقليدية. بالإضافة إلى ذلك، فإن قواعد البيانات المتجهة ممتازة في معالجة الاستعلامات الغامضة، وهو أمر بالغ الأهمية لتطبيقات تعلم الآلة والذكاء الاصطناعي.

التحديات

تحتاج إلى موارد حسابية كبيرة، خاصة عند معالجة مجموعات بيانات كبيرة جدًا. ثانيًا، تتطلب معرفة متخصصة عالية لإعدادها وصيانتها. وأخيرًا، تعتبر خصوصية البيانات وأمانها نقطة اعتبار مهمة.

بعد الحصول على فهم أساسي لقواعد البيانات المتجهة، دعونا ننتقل إلى استخدام الرسوم البيانية والحالات العملية لفهم كيفية عمل قواعد البيانات المتجهة بشكل أكثر تحديدًا!

مقدمة لقواعد البيانات المتجهة من خلال الرسوم البيانية

سنبدأ بمخطط مفاهيمي أساسي لشرح كيفية عمل قواعد البيانات المتجهة، ثم ننتقل إلى تحليل حالة عملية محددة. فيما يلي وصف لهذين الجزئين:

شرح المخطط البياني لمبدأ العمل

  1. مخطط تحويل المتجهات: يعرض هذا المخطط كيفية تحويل البيانات النصية أو الصور أو الصوت إلى متجهات.
  2. مخطط فضاء المتجهات: في فضاء متعدد الأبعاد، يمثل كل نقطة متجهًا، ويعرض هذا المخطط كيف يتم تجميع هذه النقاط بناءً على التشابه. يمكننا استخدام نقاط بألوان مختلفة لتمثيل فئات بيانات مختلفة.
  3. مخطط عملية معالجة الاستعلام: من إدخال المستخدم للاستعلام إلى الحصول على النتيجة، يعرض هذا المخطط عملية الاسترجاع بأكملها. سيتضمن إدخال استعلام المستخدم، عملية تحويله إلى متجه، عملية المطابقة في قاعدة البيانات، وأخيرًا النتائج المشابهة التي يتم إرجاعها للمستخدم.


تحليل حالة عملية محددة

افترض أن هناك شركة تجارة إلكترونية ترغب في تحسين دقة وكفاءة نظام "توصية المنتجات" الخاص بها، بهدف أن يتمكن المستخدم من العثور بسرعة على المنتجات الأكثر صلة عند البحث.

خطوات تنفيذ الحالة:

  1. جمع البيانات: تجمع الشركة البيانات من قاعدة بيانات منتجاتها، بما في ذلك أوصاف المنتجات، الصور، وتقييمات العملاء.
  2. تحويل المتجهات: باستخدام نموذج تعلم الآلة، يتم تحويل وصف وصور كل منتج إلى متجهات.
  3. إنشاء قاعدة البيانات المتجهة: يتم تخزين هذه المتجهات في قاعدة البيانات المتجهة، وإنشاء نظام استرجاع سريع.
  4. معالجة استعلام المستخدم: عندما يدخل المستخدم استعلامًا مثل: أحذية رياضية، يقوم النظام بتحويل هذا الاستعلام إلى متجه، والبحث في قاعدة البيانات المتجهة عن المتجهات الأكثر تشابهًا.
  5. إرجاع النتائج: يقوم النظام بتحويل المتجهات الأكثر تشابهًا إلى معلومات المنتجات، وعرضها للمستخدم.

سنستخدم Python لتحويل هذه المفاهيم. دعونا نرى المخطط الأول: مخطط تحويل المتجهات.

في هذا الرسم التوضيحي، يمكننا رؤية ثلاثة أنواع مختلفة من البيانات (نص A، صورة B، صوت C) تم تحويلها إلى متجهات في فضاء ثنائي الأبعاد. كل نقطة تمثل متجهًا، أي التمثيل الرياضي للبيانات الأصلية. هذه العملية هي جوهر إنشاء قاعدة البيانات المتجهة وآلية الاسترجاع.

بعد ذلك، سنرسم المخطط الثاني: مخطط فضاء المتجهات، لعرض كيفية تجميع هذه النقاط (التي أصبحت الآن متجهات) في فضاء متعدد الأبعاد بناءً على التشابه.

vector_space.png

في هذا الرسم التوضيحي لفضاء المتجهات، استخدمنا تقنية t-SNE (التضمين العشوائي الموزع للجار الأقرب)، وهي تقنية شائعة لتقليل الأبعاد، تساعدنا على إسقاط البيانات عالية الأبعاد إلى فضاء ثنائي أو ثلاثي الأبعاد لتسهيل التصور. يعرض هذا المخطط توزيع 100 نقطة بيانات (كانت في الأصل في فضاء 50 بعدًا) بعد تقليل الأبعاد إلى فضاء ثنائي الأبعاد. افترض أن هذه النقاط مقسمة إلى أربع فئات، كل فئة ممثلة بلون مختلف، هذا النوع من التصور يساعد في فهم كيفية عمل قواعد البيانات المتجهة: يمكنها تجميع النقاط المتشابهة (أي المتجهات) معًا بناءً على المسافات النسبية بينها. هذه الخاصية تجعل قواعد البيانات المتجهة قادرة على العثور بسرعة على نقاط "الجيران"، أي تلك النقاط الأكثر تشابهًا مع الاستعلام.

لمحاكاة نظام توصية المنتجات لشركة التجارة الإلكترونية، سنقوم بإنشاء مثال مبسط يتضمن: مجموعة من متجهات المنتجات ومتجه استعلام المستخدم. سنعرض من خلال التصور توزيع هذه المتجهات في فضاء المتجهات وكيفية العثور على "المتجهات الأقرب" لاستعلام المستخدم، لشرح تطبيق قواعد البيانات المتجهة في نظام توصية المنتجات.

تحليل الحالة من خلال التصور

أولاً، سنقوم بإنشاء مجموعة من المتجهات المحاكاة للمنتجات، ثم نحدد متجه استعلام المستخدم. بعد ذلك، سنستخدم مخططًا لعرض كيفية تحديد هذا المتجه في فضاء المتجهات والعثور على المتجهات الأقرب للمنتجات.

لنبدأ هذه العملية.

لنبدأ هذه العملية.

product_rec.png

في هذا المخطط، تمثل النقاط الزرقاء المنتجات المختلفة على منصة التجارة الإلكترونية، كل منتج له متجه خصائص ثنائي الأبعاد. النقطة الحمراء هي استعلام المستخدم، الذي تم تحويله أيضًا إلى متجه ثنائي الأبعاد. استخدمنا بنية بيانات شجرة K-D (KDTree) للعثور بسرعة على المتجهات الأقرب لاستعلام المستخدم.

في المخطط، الخط المتقطع الأسود من متجه استعلام المستخدم (النقطة الحمراء) إلى المتجهات الأقرب للمنتجات يمثل: أن نظام التوصية سيقترح هذه المنتجات للمستخدم بناءً على التشابه بين المتجهات. هذا هو مثال مبسط لتطبيق قواعد البيانات المتجهة في الواقع: يقدم المستخدم استعلامًا، يقوم النظام بتحويل الاستعلام إلى متجه، ويبحث في قاعدة البيانات المتجهة عن المتجهات الأكثر تشابهًا للمنتجات، ومن ثم يوصي بالمنتجات ذات الصلة للمستخدم.

ميزة هذه الطريقة هي سرعة ودقة التوصيات، لأنها تعتمد على الحسابات الرياضية لخصائص المنتجات، وليس فقط على مطابقة الكلمات الرئيسية. التحديات تشمل: كيفية اختيار وتعديل المتجهات لتمثيل خصائص المنتجات بشكل أفضل، وكيفية التعامل مع المنتجات الجديدة أو الاستعلامات الأقل شيوعًا في مشكلة "البداية الباردة" (Cold Start).

الخاتمة

في بيئة الأعمال الحالية التي تعتمد على اتخاذ القرارات بناءً على البيانات، توفر قواعد البيانات المتجهة طريقة فريدة وقوية لمعالجة واسترجاع كميات كبيرة من البيانات متعددة الأبعاد، مما يجعلها خيارًا مثاليًا لتطبيقات الذكاء الاصطناعي وتعلم الآلة. من تحسين صلة نتائج البحث إلى تعزيز توصيات المنتجات الشخصية، أصبحت قواعد البيانات المتجهة بسرعة أداة قيمة لمهندسي البيانات والمبتكرين التكنولوجيين في مختلف الصناعات. من خلال الرسوم التوضيحية وتحليل الحالات من Appar Technologies، نأمل أن نكون قد وضحنا لك كيفية عمل قواعد البيانات المتجهة ولماذا يمكنها تقديم نتائج سريعة ودقيقة.

تظهر قواعد البيانات المتجهة مدى قوة الأدوات والتطبيقات التي يمكن إنشاؤها عندما يفهم الناس البيانات ويستخدمونها بطرق جديدة. مع استمرار تطور التكنولوجيا، يمكننا أن نتوقع أن تلعب قواعد البيانات المتجهة دورًا أكثر أهمية في معالجة البيانات وتحليلها في المستقبل.


إذا كنت مهتمًا بكيفية إنتاج الذكاء الاصطناعي التوليدي لمقالات عالية الجودة، أو دمج نماذج اللغة الكبيرة في المنتجات أو العمليات الداخلية للشركات، يمكنك التواصل مع خبراء الذكاء الاصطناعي التوليدي في Appar Technologies, hello@appar.com.tw لحجز استشارة.

المزيد من مدونتنا

اتصل بنا

اتصل بنا

دعنا نتحدث عن أفكارك!

انطلق بأعمالك مع شريكك الرقمي المبتكر. سنرد عليك خلال يوم عمل واحد. (GMT+8)