اعتاد البحث أن يكون حول كتابة الكلمات الصحيحة بالترتيب الصحيح. ولكن ليس بعد الآن. على مدار العقدين الماضيين، انتقل استرجاع المعلومات من مطابقة السلاسل إلى فهم المقاصد. ما بدأ كبحث أساسي عن الكلمات الرئيسية أصبح الآن عملية متعددة الطبقات مدعومة بالذكاء الاصطناعي تتضمن التضمين والتحويلات والاستدلال التوليدي.
في هذه المقالة، سنستعرض كيف وصلنا إلى هنا ولماذا تقوم الأنظمة التي تقف وراء محركات البحث اليوم بأكثر من مجرد العثور على المستندات.
الأيام الأولى: الفهارس، والرموز، و TF-IDF
قبل أن تتمكن محركات البحث من "فهم" أي شيء، كان عليها أن تبقي الأمر بسيطًا. كانت الأنظمة المبكرة، مثل نظام كورنيل الذكي في الستينيات، تستخدم بنية تسمى الفهرس المقلوب - وهو في الأساس جدول بحث خيالي يخبرك بمكان ظهور كل كلمة.
كانت العملية تسير على النحو التالي:
- تقسيم المستندات إلى كلمات (الترميز).
- جرّد هذه الكلمات إلى جذورها (الجذع).
- قم بتخزين قائمة بالمستندات التي تحتوي على أي كلمات.
لذلك إذا بحثت عن كلمة "تشغيل"، فقد يبحث النظام عن كلمة "تشغيل" ويعرض لك جميع المستندات التي تتضمنها. لم يكن المحرك يحاول فهم ما تقصده بكلمة "تشغيل". كان فقط يطابق الأحرف.
TF-IDF: محاولة أولى في الملاءمة
لجعل النتائج أكثر ملاءمةً، لجأ المهندسون إلى TF-IDF (تردد المصطلح-تردد المستند العكسي). فقد أعطى درجات أعلى للكلمات التي تظهر كثيرًا في مستند واحد ولكن ليس في كل مكان آخر. وقد ساعد ذلك في رفع المحتوى الأكثر تفرداً وملاءمة.
ولكن هنا تكمن المشكلة - كل هذا كان لا يزال مطابقًا للسلسلة. لم يكن النظام يعرف أن كلمة "سيارة" و"سيارة" تعني الشيء نفسه. إذا لم تستخدم الكلمة الصحيحة، فقد تفوتك النتيجة الصحيحة.
وأدى ذلك إلى هوس دام عقداً كاملاً بالكلمات المفتاحية.
عصر الكلمات المفتاحية تطابق أو تفويت
بمجرد أن أصبحت مُحسّنات محرّكات البحث شيئًا مهمًا، تطوّر النظام بأكمله حول هذا القيد البسيط: يمكن لمحركات البحث أن تطابق فقط ما قدمته لهم. لذا إذا أردت أن تحصل على تصنيف "أفضل كمبيوتر محمول"، كان عليك أن تضع هذه العبارة بالضبط في المحتوى الخاص بك. ربما أكثر من مرة.
أدى ذلك إلى بعض الممارسات المألوفة (والمشكوك فيها):
- حشو الكلمات المفتاحية المطابقة التامة.
- نص مخفي مليء بالمرادفات.
- فقرات مكتوبة للخوارزميات وليس للأشخاص.
نجح الأمر لفترة من الوقت. ولكنه أيضاً أفسد التجربة. كانت نتائج البحث تبدو ثقيلة. تلاعبت الصفحات بالنظام. وعرفت محركات البحث ذلك.
كان يجب أن يتغير شيء ما، وقد تغير بالفعل.
الشقوق في النظام: LSI والخطوات الأولى نحو دلالات الألفاظ
في التسعينيات، بدأ الباحثون في استكشاف الفهرسة الدلالية الكامنة (LSI). وقد حاول ذلك حل مشكلة الترادف من خلال تعيين العلاقات بين الكلمات والمستندات رياضيًا.
كانت الفكرة هي: إذا كانت كلمة "سيارة" و"سيارة" تظهران غالبًا في سياقات متشابهة، فربما يمكن للنظام أن يستنتج التشابه بينهما.
من الناحية النظرية، كانت LSI واعدة. لكنه كان كذلك:
- بطيء.
- حساس للبيانات المشوشة.
- لا يمكن تحديثها بسهولة.
في النهاية، كانت رقعة ذكية وليست اختراقاً حقيقياً.
حدث التقدم الحقيقي عندما توقفت محركات البحث عن التعامل مع الكلمات كرموز وبدأت في التعامل معها كنقاط في الفضاء.
لغة جديدة: التضمينات والبحث في المتجهات
وقد جاء هذا الاختراق بفكرة بسيطة مخادعة: "يجب أن تعرف الكلمة من خلال الصحبة التي تصاحبها".
كان هذا الاقتباس، من عالم اللغويات البريطاني ج. ر. فيرث بذرة ثورة. فبدلاً من مجرد النظر إلى الكلمات، ماذا لو قمنا بتمثيلها على أنها متجهات - نقاط في فضاء متعدد الأبعاد - بناءً على الكلمات التي تظهر حولها غالبًا؟
Word2فيك غيرت كل شيء
في عام 2013، قدمت Google برنامج Word2Vec. لم يفهم فقط أن كلمتي "ملك" و"ملكة" مرتبطتان ببعضهما البعض - بل يمكنه استنتاج علاقات مثل هذه:
متجه("ملك") - متجه("رجل") + متجه("امرأة") ≈ متجه("ملكة")
لم يكن ذلك مبرمجًا. فقد نشأ بشكل طبيعي من التدريب على كميات هائلة من النصوص.
والآن، أصبح لدى محركات البحث طريقة لقياس المعنى. يمكنهم ذلك:
- ابحث عن المرادفات بشكل ديناميكي.
- فهم التشبيهات.
- توسيع نطاق الاستعلامات دون الحاجة إلى معاجم من صنع الإنسان.
من الكلمات إلى الجمل والوثائق
وتبع ذلك نماذج أخرى:
- جلوف (من جامعة ستانفورد) إحصاءات التكرار المشترك العالمية.
- النص السريع (من فيسبوك) تحسين التعامل مع الكلمات النادرة والأخطاء المطبعية.
- Doc2Vec, أداة ترميز الجمل العالميةو الجملة-بيرت يسمح بتضمين جمل أو مستندات كاملة.
وفجأة، لم نعد نبحث عن الكلمات. كنا نبحث عن المعنى.
الترتيب العصبي: الملاءمة تصبح أكثر ذكاءً
البحث المستند إلى التضمين جعل الأمور أفضل، ولكن كان من الصعب أيضًا توسيع نطاقه. لا يمكنك التخلص من كل شيء يعمل مع الفهارس المقلوبة.
لذا اعتمدت محركات البحث الرئيسية استراتيجية هجينة:
- استخدم الطرق المعجمية التقليدية (مثل BM25) لسحب أفضل 1000 نتيجة.
- أعد تصنيفها باستخدام التضمينات والتشابه الدلالي.
هذا يعني أنه يمكن استرداد المحتوى الخاص بك حتى لو لم يتضمن الاستعلام كلماتك المفتاحية بالضبط، طالما أن القصد مطابق.
من من منظور المحتوى، كان هذا تحولاً كبيراً. فقد كان يعني:
- استندت الملاءمة إلى المعنى، وليس مجرد تطابق العبارات.
- الكتابة الجيدة والتفسيرات الواضحة يمكن أن تتفوق على حشو الكلمات المفتاحية المحرجة.
ثم جاءت المتحولون
حتى التضمينات كان لها حدودها. استخدم Word2Vec وGloVe وأصدقاؤه متجهات ثابتة - فكلمة "بنك" لها نفس المتجه سواء كنت تقصد "بنك النهر" أو "حساب مصرفي".
المحولات أصلحت ذلك.
تم تقديمه في عام 2017 من قبل فاسواني وآخرون، وقد استخدمت بنية المحول الانتباه الذاتي لفهم الكلمات الأكثر أهمية في الجملة - في كلا الاتجاهين. كان لكل كلمة تمثيل فريد بناءً على سياقها.
ثم جاء "بيرت".
تسمح BERT (تمثيلات التشفير ثنائية الاتجاه من المحولات) لـ Google بفهم السياق الكامل لاستعلام البحث.
لذا، إذا بحثت "هل يمكنك الحصول على دواء لشخص ما في الصيدلية؟"، يمكن أن يفهم "بيرت" أن كلمة "لشخص ما" غيرت المعنى تمامًا. قبل BERT، ربما فات Google هذا الفارق الدقيق.
كما ساعدت في:
- الاسترجاع المستند إلى المقطع.
- تسليط الضوء على المقتطفات.
- وضوح النية في الاستعلامات الطويلة.
لم يكن BERT نهاية الطريق، ولكنه وضع خط أساس جديد.
من الاسترجاع إلى التوليد: الدخول إلى LLMs
بينما كانت شركة BERT تعمل على تحسين كيفية فهم المحركات لاستفساراتك، كان هناك تيار آخر من الابتكارات يعيد تشكيل ما يمكن أن تفعله المحركات بالنتائج.
لم يتم تصميم النماذج التوليدية، مثل عائلة GPT، لاسترجاع المعلومات فقط. بل صُممت لإنتاجها.
التوليد المعزّز للاسترجاع (RAG) هو النموذج الذي يقف وراء العديد من أنظمة الذكاء الاصطناعي الحالية:
- أولاً، استرجع المستندات ذات الصلة باستخدام البحث الكثيف.
- بعد ذلك، قم بإنشاء إجابة طليقة مدركة للسياق باستخدام نموذج لغوي كبير.
لم يعد الأمر يتعلق فقط بإيجاد المستند الصحيح بعد الآن. بل يتعلق الأمر بمزج الحقائق من مصادر متعددة وتقديمها بشكل محادثة.
ماذا يعني هذا لمنشئي المحتوى؟
- قد يتم استخدام المحتوى الخاص بك، أو الاستشهاد به، أو إعادة صياغته، حتى لو لم يتم ربطك به.
- يجب أن تظهر في مرحلة الاسترجاع، وإلا لن يستخدمك النموذج في التوليد.
البحث متعدد الوسائط: ما وراء النص
هناك تحول كبير آخر يحدث، وهو أكثر من مجرد كلمات.
يتم تدريب نموذج MUM (النموذج الموحّد متعدد المهام) من Google عبر:
- النص.
- الصور.
- مقاطع الفيديو.
- الصوت.
- اللغات.
وهو ما يعني:
- يمكنك أن تلتقط صورة لأحذية المشي لمسافات طويلة وتسأل عما إذا كانت مناسبة لجبل فوجي في أكتوبر.
- قد يسترجع النظام مقاطع فيديو YouTube، والمدونات، وصفحات المنتجات، وخرائط المسارات - ويفهمها كلها.
هذا يغير اللعبة بالنسبة للبحث:
- النص البديل والنصوص البديلة مهمة أكثر من أي وقت مضى.
- تساعد البيانات المهيكلة الآلات على فهم ماهية المحتوى الخاص بك، وليس فقط ما يقوله.
- بدأت حواجز اللغة في الاختفاء.
الاسترجاع الفعال على نطاق واسع: موفيرا والقفزة التالية
مع ازدياد ذكاء البحث الدلالي، أصبح البحث الدلالي أكثر ذكاءً، أصبح أثقل أيضًا. فتضمين كل مستند، ومقارنة كل استعلام - يتطلب ذلك عملية حسابية جادة.
Muvera، وهو تطور حديث، يحل هذه المشكلة باستخدام ترميزات الأبعاد الثابتة (FDEs). تتيح هذه الأنظمة:
- ضغط النماذج متعددة المتجهات إلى متجهات مفردة سريعة الاستعلام.
- الحفاظ على جودة الترتيب.
- تقليل وقت الاستجابة وتحميل الخادم.
بالنسبة للمستخدمين، هذا يعني نتائج أسرع وأفضل. بالنسبة لمهندسي البحث، إنها بنية أكثر قابلية للتطوير. بالنسبة للشركات، إنه سبب آخر لتحسين المعنى، وليس فقط المطابقة.
دليل اللعب الجديد لرؤية المعلومات
إذا كنت قد اختصرت إلى هذه النقطة، فإليك الصورة الكبيرة: لقد انتقلنا من مطابقة السلسلة إلى مطابقة المعنى، والآن نحن ندخل مرحلة يتم فيها تجميع المحتوى بشكل انتقائي في إجابات مولدة.
للبقاء مرئياً في هذا المشهد الجديد للأشعة تحت الحمراء
- اكتب للمستخدمين وليس للكلمات الرئيسية:: يفوز الوضوح والفائدة.
- هيكلة المحتوى الخاص بك من الناحية الدلالية:: استخدام العناوين، وترميز المخطط، والسياق.
- تغطية المواضيع بعمق:: تؤثر السلطة الموضعية الآن على تضمينات المجال.
- فكّر فيما وراء المقالات:: النص البديل، والتعليقات التوضيحية للفيديو، وملخصات البودكاست كلها مهمة.
- مراقبة النظرة العامة للذكاء الاصطناعي والمخرجات التوليدية:: إذا كنت لا تظهر هناك، فأنت تفوت المحادثة.
موقع Nuoptima في عصر البحث الجديد
في نوبتيمالقد رأينا عن كثب كيف تغيرت قواعد البحث. لقد ولّت أيام مطاردة كثافة الكلمات الرئيسية منذ فترة طويلة. ما يهم الآن هو السياق والقصد والبنية. لهذا السبب نركز على بناء الملاءمة، وليس فقط التصنيفات. نحن لا نساعد العلامات التجارية على الظهور في البحث فحسب، بل نساعدها على الظهور في المكان الذي يهم: في الإجابات التي تُنشئها أنظمة الذكاء الاصطناعي الآن.
مع تحول استرجاع المعلومات نحو الفهم الدلالي، والبحث القائم على المتجهات، والمدخلات متعددة الوسائط، يتطور عملنا معها. نحن نجمع بين تحسين محركات البحث التقنية، وبناء الروابط، واستراتيجية المحتوى مع التركيز على كيفية قيام محركات مثل ChatGPT وGemini وPerplexity بسحب المحتوى وتجميعه. إن GEO ليست كلمة طنانة بالنسبة لنا، بل هي جزء لا يتجزأ من كيفية بناء الرؤية. نحن نرسم خريطة لكيفية تفسير محركات البحث لنطاقك ومؤلفيك ومجموعاتك الموضوعية، ثم نحسِّن من هناك.
الخلاصة؟ نحن نساعد الشركات على التحدث بلغة البحث الجديدة. وسواء أكان ذلك يعني إعادة كتابة صفحات الفئات لتتماشى مع الأحياء المتجهة أو صياغة محتوى طويل ينجو من عملية التلخيص التي يقوم بها الذكاء الاصطناعي، فإننا نركز على شيء واحد: التأكد من وصول رسالتك إلى حيث يتم اتخاذ القرارات.
أفكار أخيرة: البحث لم يعد بحثاً بعد الآن
لقد تطور ما نسميه "البحث" إلى شيء أكبر من ذلك بكثير. إنه ليس مجرد أداة بحث. إنه محرك تفكير. شريك محادثة. مُركّب للمصادر.
محركات البحث اليوم لا تحاول فقط العثور على ما كتبته. فهي تحاول فهم ما قصدته، وما هو ذو صلة، وكيفية تقديمه في شكلٍ تتفاعل معه بالفعل.
بالنسبة لمنشئي المحتوى، ومحسّنات محرّكات البحث، والمسوّقين، يمثل ذلك تحديًا وفرصة في الوقت نفسه. لأن الرؤية الآن لا تتعلق فقط بالترتيب.
يتعلق الأمر بالتضمين في الإجابة.
الأسئلة الشائعة
لأن مطابقة الكلمات الرئيسية تصطدم بالحائط بسرعة. يكون الأمر رائعًا عندما يستخدم المستخدم والمحتوى نفس الكلمات بالضبط، ولكن هذا نادرًا ما يحدث. فالناس يصيغون الأشياء بجميع أنواع الطرق، ويمكن للمرادفات أو الكلمات العامية أو حتى الأخطاء المطبعية أن تتخلص من نظام المطابقة الصارم. يتيح التحول نحو البحث الدلالي للمحركات فهم ما يعنيه المستخدمون، وليس فقط ما يكتبونه.
التضمينات مثل إحداثيات الخريطة للمعنى. فبدلاً من التعامل مع الكلمات كتسميات معزولة، تقوم أنظمة البحث بتحويلها إلى متجهات - نقاط في الفضاء - بناءً على الكلمات التي تظهر بالقرب منها. لذا فإن كلمة "جاكوار" كسيارة تهبط في مكان مختلف تمامًا عن كلمة "جاكوار" الحيوان. وهذا يساعد الأنظمة على فهم السياق ومطابقة الاستعلامات بالنتائج الصحيحة، حتى عندما لا تتطابق الكلمات حرفيًا.
بالتأكيد، ولكن ليس بالمعنى القديم لحشو العبارات الدقيقة. تعمل الكلمات الرئيسية الآن كإشارات ودلائل حول نية المستخدم ومجموعات المواضيع. لقد تحول التركيز من "أين أكرر هذه الكلمة؟" إلى "كيف أبني عمقًا دلاليًا حول هذا المفهوم؟ أصبح الأمر يتعلق بتغطية الموضوع بشكل جيد أكثر من التركيز على تحديد المربعات.
يساعد برنامج BERT Google على فهم المعنى الكامن وراء استعلامات البحث، خاصةً الاستعلامات الطويلة أو الغامضة أو المصاغة على شكل سؤال. ويذهب برنامج MUM إلى أبعد من ذلك - فهو متعدد الوسائط، بمعنى أنه يمكنه فهم الصور والنصوص معًا، ومتعدد اللغات، مما يعني أنه يستخلص الرؤى من المحتوى بأي لغة. يتعلق الأمر كله بتضييق الفجوة بين ما يطلبه الأشخاص وما يريدون معرفته بالفعل.
ابدأ بالكتابة للأشخاص، وليس للخوارزميات. يبدو ذلك واضحًا، لكن من السهل بشكل مدهش الوقوع في فخ الإفراط في التحسين. ركز على الوضوح والبنية والعمق. استخدم العناوين. أجب عن الأسئلة. قدم السياق. وفكر فيما وراء الصفحة - النصوص الصوتية والنصوص البديلة والبيانات المنظمة كلها تغذي الآلات الآن. أنت لا تحاول فقط الترتيب. أنت تحاول أن يتم تضمينك في الإجابة.