جستجوی گوگل یک موتور جستجوی کاملاً خودکار است که از نرمافزاری به نام خزندههای وب استفاده میکند که مرتباً وب را کاوش میکنند تا صفحاتی را برای افزودن به فهرست ما پیدا کنند. در واقع، اکثریت قریب به اتفاق صفحات فهرست شده در نتایج ما به صورت دستی برای گنجاندن در نتایج ارسال نمیشوند، بلکه هنگام کاوش خزندههای وب ما در وب، به طور خودکار پیدا و اضافه میشوند. این سند مراحل نحوه عملکرد جستجو در متن وبسایت شما را توضیح میدهد. داشتن این دانش پایه میتواند به شما در رفع مشکلات خزش، فهرستبندی صفحات و یادگیری نحوه بهینهسازی نحوه نمایش سایت شما در جستجوی گوگل کمک کند.
چند نکته قبل از شروع
قبل از اینکه به جزئیات نحوه کار جستجو بپردازیم، لازم به ذکر است که گوگل برای خزیدن بیشتر در یک سایت یا رتبهبندی بالاتر آن، پولی دریافت نمیکند. اگر کسی خلاف این را به شما میگوید، اشتباه میکند.
گوگل تضمین نمیکند که صفحه شما را کراول، ایندکس یا ارائه دهد، حتی اگر صفحه شما از اصول جستجوی گوگل پیروی کند .
معرفی سه مرحله جستجوی گوگل
جستجوی گوگل در سه مرحله انجام میشود و همه صفحات از هر مرحله عبور نمیکنند:
- خزیدن: گوگل متن، تصاویر و ویدیوها را از صفحاتی که در اینترنت پیدا میکند با برنامههای خودکاری به نام خزنده دانلود میکند.
- فهرستبندی: گوگل متن، تصاویر و فایلهای ویدیویی موجود در صفحه را تجزیه و تحلیل میکند و اطلاعات را در فهرست گوگل، که یک پایگاه داده بزرگ است، ذخیره میکند.
- ارائه نتایج جستجو: وقتی کاربری در گوگل جستجو میکند، گوگل اطلاعاتی را که به عبارت جستجوی کاربر مرتبط است، نمایش میدهد.
خزیدن
مرحله اول، یافتن صفحات موجود در وب است. یک رجیستری مرکزی برای تمام صفحات وب وجود ندارد، بنابراین گوگل باید دائماً به دنبال صفحات جدید و بهروز شده باشد و آنها را به لیست صفحات شناخته شده خود اضافه کند. این فرآیند “کشف URL” نامیده میشود. برخی از صفحات شناخته شده هستند زیرا گوگل قبلاً از آنها بازدید کرده است. صفحات دیگر زمانی کشف میشوند که گوگل پیوندی را از یک صفحه شناخته شده به یک صفحه جدید استخراج میکند: به عنوان مثال، یک صفحه اصلی، مانند یک صفحه دستهبندی، به یک پست وبلاگ جدید پیوند میدهد. صفحات دیگر نیز زمانی کشف میشوند که شما فهرستی از صفحات ( نقشه سایت ) را برای خزش گوگل ارسال میکنید.
وقتی گوگل آدرس اینترنتی یک صفحه را کشف میکند، ممکن است از آن صفحه بازدید کند (یا آن را «خزش» کند) تا بفهمد چه چیزی در آن وجود دارد. ما از مجموعه عظیمی از رایانهها برای خزیدن میلیاردها صفحه در وب استفاده میکنیم. برنامهای که این کار را انجام میدهد، گوگلبات (که با نامهای خزنده، ربات، بات یا عنکبوت نیز شناخته میشود) نامیده میشود. گوگلبات از یک فرآیند الگوریتمی برای تعیین اینکه کدام سایتها را خزش کند، چند وقت یکبار و چند صفحه از هر سایت را واکشی کند، استفاده میکند. خزندههای گوگل همچنین به گونهای برنامهریزی شدهاند که سعی میکنند سایت را خیلی سریع خزش نکنند تا از بارگذاری بیش از حد آن جلوگیری شود. این مکانیسم بر اساس پاسخهای سایت است (به عنوان مثال، خطاهای HTTP 500 به معنای «کند شدن» است ).
با این حال، گوگلبات تمام صفحاتی را که کشف میکند، بررسی نمیکند. ممکن است برخی از صفحات توسط صاحب سایت مجاز به بررسی نباشند ، و برخی دیگر از صفحات ممکن است بدون ورود به سایت قابل دسترسی نباشند.
در طول خزش، گوگل صفحه را رندر میکند و هر جاوا اسکریپتی را که با استفاده از نسخه جدید کروم پیدا کند ، اجرا میکند، مشابه نحوه رندر صفحاتی که مرورگر شما بازدید میکند. رندر کردن مهم است زیرا وبسایتها اغلب برای آوردن محتوا به صفحه به جاوا اسکریپت متکی هستند و بدون رندر کردن، گوگل ممکن است آن محتوا را نبیند.
خزیدن به این بستگی دارد که آیا خزندههای گوگل میتوانند به سایت دسترسی داشته باشند یا خیر. برخی از مشکلات رایج در دسترسی رباتهای گوگل به سایتها عبارتند از:
نمایه سازی
بعد از اینکه یک صفحه خزیده شد، گوگل سعی میکند بفهمد که صفحه در مورد چیست. این مرحله، ایندکس کردن نام دارد و شامل پردازش و تجزیه و تحلیل محتوای متنی و تگها و ویژگیهای کلیدی محتوا، مانند <title>
عناصر و ویژگیهای alt، تصاویر ، ویدیوها و موارد دیگر میشود.
در طول فرآیند ایندکس کردن، گوگل تشخیص میدهد که آیا یک صفحه کپی صفحه دیگری در اینترنت است یا متعارف . متعارف صفحهای است که ممکن است در نتایج جستجو نشان داده شود. برای انتخاب متعارف، ابتدا صفحاتی را که در اینترنت پیدا کردهایم و محتوای مشابهی دارند، در یک گروه قرار میدهیم (که به عنوان خوشهبندی نیز شناخته میشود) و سپس صفحهای را که بیشترین نماینده گروه است انتخاب میکنیم. صفحات دیگر در این گروه، نسخههای جایگزین هستند که ممکن است در زمینههای مختلف ارائه شوند، مانند زمانی که کاربر از یک دستگاه تلفن همراه جستجو میکند یا به دنبال یک صفحه بسیار خاص از آن خوشه است.
گوگل همچنین سیگنالهایی در مورد صفحه کانونی و محتوای آن جمعآوری میکند که ممکن است در مرحله بعدی، جایی که ما صفحه را در نتایج جستجو نمایش میدهیم، استفاده شوند. برخی از سیگنالها شامل زبان صفحه، کشوری که محتوا در آن قرار دارد و قابلیت استفاده از صفحه است.
اطلاعات جمعآوریشده در مورد صفحه کانونی و خوشه آن ممکن است در فهرست گوگل، یک پایگاه داده بزرگ که روی هزاران کامپیوتر میزبانی میشود، ذخیره شود. فهرستبندی تضمینشده نیست؛ هر صفحهای که گوگل پردازش میکند، فهرستبندی نمیشود.
ایندکس شدن همچنین به محتوای صفحه و متادیتای آن بستگی دارد. برخی از مشکلات رایج ایندکس شدن میتواند شامل موارد زیر باشد:
ارائه نتایج جستجو
وقتی کاربری عبارتی را وارد میکند، ماشینهای ما فهرست را برای یافتن صفحات منطبق جستجو میکنند و نتایجی را که به نظر ما بالاترین کیفیت و مرتبطترین نتایج با عبارت مورد نظر کاربر هستند، برمیگردانند. مرتبط بودن توسط صدها عامل تعیین میشود که میتواند شامل اطلاعاتی مانند موقعیت مکانی، زبان و دستگاه کاربر (دسکتاپ یا تلفن) باشد. به عنوان مثال، جستجوی عبارت “تعمیرگاههای دوچرخه” نتایج متفاوتی را برای کاربری در پاریس نسبت به کاربری در هنگ کنگ نشان میدهد.
بر اساس عبارت جستجوی کاربر، ویژگیهای جستجویی که در صفحه نتایج جستجو ظاهر میشوند نیز تغییر میکنند. برای مثال، جستجوی «تعمیرگاههای دوچرخه» احتمالاً نتایج محلی را نشان میدهد و هیچ نتیجه تصویری ندارد ، با این حال، جستجوی «دوچرخه مدرن» احتمالاً نتایج تصویری را نشان میدهد، اما نتایج محلی را نشان نمیدهد. میتوانید رایجترین عناصر رابط کاربری جستجوی وب گوگل را در گالری عناصر بصری ما بررسی کنید .
کنسول جستجو ممکن است به شما بگوید که یک صفحه ایندکس شده است، اما شما آن را در نتایج جستجو نمیبینید. این ممکن است به دلایل زیر باشد:
- محتوای صفحه با سوالات کاربران مرتبط نیست
- کیفیت محتوا پایین است
- Robots
meta
قوانین مانع از خدمت رسانی میشوند