logo_arian(01)

آژانس دیجیتال مارکتینگ آرین

آرین راه ورود شما به بازار دیجیتال

استفادۀ بهینه از بودجه خزش

crawl budget feature

فهرست مطالب

در قسمتِ امروز جمعۀ تخته سفید (Whiteboard Friday)، تام یک مفهوم پیشرفته تر از سئو را توضیح می دهد: بودجه خزش. گوگل مقدار محدودی از زمان برای خزش روی سایت شما دارد، لذا اگر شما مسائل و مشکلاتی با ایندکس شدن دارید، این موضوعی است که شما باید بدان توجه کنید.

نوشتن صوتِ ویدیو (آوانویسی ویدیو)

جمعۀ شما بخیر، طرفداران ماز! و موضوع امروز بودجه خزش است. به نظرم بهتر است همین اول کار بگوییم که این موضوعی است که نسبتاً پیشرفته است و مربوط به وبسایتهای بزرگتر است. به نظرم حتی اگر سایت شما بزرگ نیست، هنوز خیلی چیزها می توانید از این موضوع در خصوص تئوری سئو یاد بگیرید به ویژه وقتی می خواهید برای بودجه خزش تاکتیکهایی بیابید و از آن استفاده کنید یا بتوانید عیب یابی کنید.
اما در اسناد خود گوگل پیشنهاد می شود که شما اگر بیشتر از یک میلیون یا بیشتر از 10000 صفحه دارید که هر روز آپدیت می شوند باید به بودجه خزش توجه کنید. به نظر من اینها حد نصابهای دلبخواهی هستند. من می گویم اگر شما مسائلی با ایندکس شدن سایتتان دارید و صفحاتی در عمق سایت دارید که ایندکس نمی شوند، یا صفحات دیر ایندکس می شوند، در همۀ این موارد بودجۀ خزش مسئله است که شما باید بدان توجه کامل داشته باشید.

 

بودجه خزش چیست؟

خب واقعاً این بودجه خزش چیست؟ بودجه خزش مقدار زمانی است که گوگل می خواهد برای خزش در یک سایت خاص صرف کند. گرچه به نظر می رسد گوگل چیزی است که قدرت کامل دارد، اما منابعی محدود و شبکه ای بسیار وسیع دارد. لذا آنها باید به نوعی کارها را اولویت بندی کرده و مقدار زمان خاصی را به خزش به سایتی خاص اختصاص بدهند.
حال آنها بر اساس این که سایتها نزد کاربرانشان چقدر محبوب هستند و بر اساس تازگی محتوا اولویت بندی می کنند زیرا رباتهای گوگل تشنگی و عطشی برای آدرس ایمیلهای جدید و تازه وارد دارند.
حقیقتاً نمی خواهیم در این ویدیو در این مورد صحبت کنیم که چگونه بودجه خزش خود را افزایش دهید. بلکه می خواهیم بر این امر تمرکز کنیم چگونه از همان بودجه خزشی که دارید نهایت استفاده را ببرید، که در کل کار راحت تری برای انجام دادن است.

بودجه خزش

علل معضلات بودجه خزش

پس چگونه معضلات مربوط به بودجه خزش به وجود می آید؟

جنبه ها (Facets)

حال فکر می کنم که معضل اصلی روی سایتها که منجر به مسائل بودجه خزش می شود در وهلۀ اول جنبه ها هستند.

یک سایت مغازۀ اینترنتی را در نظر بگیرید، فرض کنید که ما یک صفحه لپتاپی داریم. ما احتمالاً بتوانیم آن را توسط سایز فیلتر کنیم. شما یک صفحۀ 15 اینچی و 16 گیگابایت رم دارید. ممکن است ترتیبات (پرموتاسیون) مختلف زیادی وجود داشته باشد که می تواند منجر به تعداد بسیار زیادی آدرس سایت شود، در حالی که درحقیقت ما فقط یک صفحه یا یک دسته بندی داریم که صفحه لپتاپ است.

به همین شکل، بعد از آن آنها می توانند ترتیبی جدید پیدا کنند تا آدرس سایتهای دیگری بسازند که دقیقاً همان کار را می کنند ولی باید جداگانه کرال شوند. به همین نحو، آنها شاید به شکلی متفاوت مرتب شوند. شاید صفحه بندی ای وجود داشته باشد و الی آخر. پس می توانید یک صفحه دسته بندی داشته باشید که تعداد زیادی آدرس سایت می سازد.

صفحات نتایج جستجو

چند مشکل دیگر که به وجود می آیند اغلب صفحات نتایج جستجو هستند از یک جستجوی سایت داخلی هستند که می توانند به ویژه اگر صفحه بندی شوند، می توانند چند آدرس سایت مختلف را بسازند.

صفحات فهرست کننده

اگر به کاربران اجازه بدهید که فهرست یا محتوای خود را آپلود کنند، در آن صورت در طول زمان آن می تواند تعداد زیادی آدرس سایت بسازد. مثلاً پانل شغل یابی یا چیزی شبیه eBay می تواند تعداد زیادی صفحه داشته باشد.

حل معضل بودجه خزش

پس آن ابزارهایی که می توان استفاده کرد تا این مشکلات را حل کرد و بیشترین استفاده را از بودجه خزش خود داشت کدامها هستند؟

به عنوان خط شروع، اگر بخواهیم فکر کنیم که چگونه یک آدرس سایت معمولی با ربات گوگل تعامل می کند، می توانیم بگوییم، آن آدرس سایت نرمال می تواند کرال شود، بله می تواند ایندکس شود بله می تواند Pagerank را عبور دهد. لذا یک آدرس سایت مثل اینها، اگر من به اینها در سایتم لینک دهم و گوگل آن لینک را فالو کند و این صفحات را ایندکس کند، اینها احتمالاً هنوز تاپ ناو (ناوبری بالا یا top navigation، وجود لینکها در بالا و نه در کنار) و ناوبری سایت پهن را روی خود دارند. لذا لینکی که واقعاً به این صفحات عبور داده شده است به نوعی یک حلقۀ بسته می شود. وقتی ما از طریق این همه صفحات مختلف و این همه فیلترهای گوناگون لینک می دهیم، اُفتها و تلفاتی به دلیل رقّت (dilution) وجود خواهد داشت. اما در نهایت، اینجا چرخه می سازیم. هیچ گونه افت سیاه چاله ای در مورد Pagerank که نشت دارد وجود ندارد.

Robots.txt

حال در قطبی مخالف، افراطیترین نوع راه حل برای بودجه خزش که می توانید استفاده کنید فایل robots.txt است.

لذا اگر شما یک صحفه را در robots.txt  مسدود کنید، آنگاه آن قابل کرال شدن نیست. پس عالی شد، مسئله حل شد. خب، نه، زیرا اینجا ضررهایی هست. عملاً، سایتها و صفحاتی که در robots.txt مسدود می شوند می توانند ایندکس شوند. شما گاهی سایتها یا صفحاتی را در موتور جستجو می بینید که توضیح متای آنها نمایش داده نمی شود زیرا صفحه در robots.txt یا این نوع از پیامها مسدود شده است.

لذا عملاً، آنها قادر به ایندکس شدن هستند، اما به لحاظ نقش، آنها اصلاً در رتبه بندی دخیل نیستند. آنها Pagerank را عبور نمی دهند. وقتی ما به صفحه ای مثل این لینک می دهیم، هنوز داریم Pagerank  را عبور می دهیم. ولی اگر در robots.txt مسدود شده باشد، Pagerank  دیگر پیش نمی رود.

لذا ما به نوعی یک نشت یا سیاه چاله ساخته ایم. پس این یک راهکار زمُخت و بی ظرافت است، گرچه انجام دادنش ساده است.

نوفالوی سطح لینک

منظورم از نوفالوی سطح لینک این است که اگر ما لینکهایمان را روی صفحه دسته بندی لپتاپ اصلی گرفتیم، که به این جنبه ها ارجاع می دهد، و ما یک خصلت نوفالو (nofollow) را به صورت داخلی به این لینکها نسبت می دهیم، این کار مزایا و معایبی دارد.

فکر می کنم یک مورد استفاده بهتر برای این، بیشتر در مورد فهرست سازی است. پس فرض کنید که ما یک وبگاه ماشینهای مستعمل راه انداخته ایم، که ما میلیونها فهرستبندی کالا در مورد ماشینهای مستعمل داریم. حال واقعاً نمی خواهیم گوگل وقتش را روی این فهرستبندی های تک تک هدر دهد، که فهرستبندی بستگی به مقیاس و اندازه سایت ما دارد.

اما شاید گاهی یک سلبریتی ماشین خود را آپلود کند یا چیزی شبیه به این، یا یک ماشین خیلی کمیاب آپلود شود و این باعث شود که لینکهای رسانه دریافت شود. حالا نمی خواهیم آن صفحه در robots.txt مسدود شود زیرا آن لینکهای خارجی هستند که در این مورد ما آن را اسراف خواهیم کرد. لذا کاری که شاید ما انجام دهیم این است که در لینکهای داخلی خودمان به آن صفحه لینک را به لحاظ درونی نوفالو می کنیم. پس یعنی آن می تواند خزش شود، ولی فقط اگر پیدا شود، فقط اگر گوگل آن را به طریقی دیگر بیابد، پس از طریق یک لینک خارجی یا چیزی شبیه به آن.

پس اینجا ما به نوعی خانه ای نیمه ساخته داریم. اکنون این روزها نوفالو یک نکته است. به تجربۀ من، گوگل صفحاتی را کرال نمی کند که فقط به آن از طریق نوفالوی داخلی لینک شده است. اگر به طریقی دیگر صفحه را بیابد، قطعاً آن را کرال می کند. اما در کل، این روشی موثر برای محدود کردن بودجه خزش است یا بهتر است بگویم استفاده موثرتر از بودجه خزش. صفحه هنوز می تواند نمایه شود.

آن چیزی است که سعی کردیم در آن مثال به آن برسیم. آن هنوز می تواند Pagerank  را عبور دهد. ما دنبال چیز دیگری بودیم. گرچه شما یک مقدار پیجرنک از طریق لینک نوفالو از دست می دهید. اما آن همچنان یک لینک به حساب می آید، و لذا شما دارید مقداری پیجرنک از دست می دهید که در حالتی دیگر در آن لینک فالو پُمپ می شد.

نوایندکس، نوفالو (no index, nofollow)

نوایندکس و نوفالو، روشن است که این راهکاری بسیار رایج برای صفحاتی مثل اینها در مغازه های اینترنتی است.

اکنون در این مورد، صفحه می تواند کرال شود. ولی وقتی گوگل به آن صفحه می رسد، خصوصیت نو ایندکس آن را کشف می کند، و در طول زمان خیلی کمتر آن را کرال می کند زیرا سودی در کرال کردن صفحه نو ایندکس نیست یا خیلی کم است. لذا همانطور که گفتم، ما اینجا خانه ای نیمه ساخته داریم.

پس، آن نمی تواند ایندکس شود. آن نو ایندکس است. آن Pagerank  را به بیرون عبور نمی دهد. پیجرنک هنوز در این صفحه عبور داده می شود، ولی چون در قسمت هِد یک نوفالو دریافت کرده است، آن Pagerank  را به بیرون پاس نمی دهد. این یک راهکار عالی نیست. ما افتهایی داشته ایم که می بایست اینجا آن را در بودجه کرال کمتر می کردیم.

نو ایندکس، فالو

پس خیلی از مردم فکر کرده اند که خب ، راهکار این مسئله این است که از نو ایندکس فالو به عنوان راهکار درست استفاده کنیم. لذا یک تگ نوایدنکس فالو را در قسمت هد یکی از این صفحات می گذارید، و خب، هرکسی برنده است زیرا ما هنوز همان مقدار از نفع خزشی را دریافت می کنیم. ما هنوز این نوع از صفحه تکراری جدید را ایندکس نمی کنیم که نمی خواهیم ایدنکس کنیم، ولی راهکار Pagerank  ثابت (fixed) است.

چند سال پیش گوگل گفت «ما خودمان این را نمی فهمیم، اما وقتی ما این صفحه را در طول زمان کمتر و کمتر کرال می کنیم، دیگر لینک را نمی بینیم، و آنگاه آن دیگر به حساب نمی آید و مهم نیست.» پس به نوعی گفتند که این کار دیگر به عنوان روشی برای همچنان عبور دادن پیجرنک موثر نیست، و در نهایت مثل نو ایندکس و نوفالو رفتار می شود. لذا همانطور که گفتم، ما اینجا یک راهکار تقریباً معیوب داریم.

کانونی

حال بهترین همه چیز احتمالاً کانونی (canonical) است. با تگ کانونی، آن همچنان در طول زمان، کمی کمتر کرال می شود. آن همچنان نمایه نمی شود، این نسخۀ کانونی است ، عالی ، و همچنان Pagerank  را پاس می کند.

پس آن عالی به نظر می رسد. آن در بسیاری موارد عالی است. ولی این فقط وقتی کار می کند که صفحات تقریباً تکراری (داپلیکیت) هستند که گوگل می خواهد آنها را تکراری ببیند و به کانونی احترام بگذارد. اگر نخواهند آن را به عنوان تکراری ببینند، آنگاه شما شاید مجبورید برگردید و از نو ایندکس استفاده کنید. یا اگر واقعاً فکر می کنید که اصلاً لزومی ندارد که این آدرس سایت وجود داشته باشد، نمی دانم چگونه این ترکیب اشتباه به  وجود آمده است، ولی بسیار بی معنی است.

301

من دیگر به آن لینک نمی دهم. ولی در موردی که برخی مردم هنوز به روشی آن آدرس سایت را پیدا می کنند، می توانیم از 301 به عنوان نوعی از صرفه جویی یا اقتصاد استفاده کنیم که در نهایت خیلی بهتر از کانونی و نوایندکس برای صرفه جویی در بودجه خزش عمل می کند زیرا گوگل حتی مجبور نیست آن صفحه را به ندرت نگاه کند زیرا آن به آسانی تابع 301 است.

آن مسئله ایندکسینگ را حل می کند، و آن Pagerank  را عبور می دهد. ولی مسلم است که تعادل در اینجا این  است که کاربران نیز نمی توانند به این آدرس سایت دسترسی داشته باشند، پس ما باید با آن موافق باشیم.

انجام دادن تاکتیکهای بودجه خزش

برای جمع بندی کلی، ما چگونه می توانیم از این تاکتیکها استفاده کنیم؟ اگر می خواهید پروژۀ بودجه خزش داشته باشید من چه فعالیتهایی را توصیه می کنم؟

یکی از راهکارهایی که زیاد شهودی نیست، سرعت است. همانطور که گفتم، گوگل یک مقدار زمان یا مقداری از منابع را برای کرال یک سایت خاص اختصاص می دهد. لذا اگر سایت شما خیلی سریع است، اگر زمان پاسخ سرور کمی دارید، اگر HTML سبک دارید، آنها به راحتی می توانند در همان مقدار زمان مشخص، در صفحات بیشتری وارد شوند.

گرچه با شهود جور در نمی آید ولی روش بسیار خوبی است. تحلیل لاگ، این روشی سنتی تر است. اغلب اصلاً با شهود جور در می آید کدام صفحه در سایت شما یا کدام مولفه ها واقعاً دارند بودجه خزش شما را می بلعند. تحلیل لاگ روی سایتهای بزرگ اغلب نتایجی غافلگیرکننده ارائه می دهد، لذا گاهی باید آن را در نظر بگیرید. سپس از برخی از این ابزارها استفاده کنید.

لذا می توانیم آدرس سایتهای زائد را که فکر نمی کنیم کاربران حتی به آن نگاه کنند، 301 کنیم. در مورد نسخه هایی که کاربران باید نگاه کنند می توانیم تگ نو ایندکس یا کانونی را در نظر بگیریم. ولی همچنین شاید بخواهیم از لینک دهی به آنها در وهلۀ اول اجتناب کنیم به طوری که ما مقداری از Pagerank  به نسخه های کانونی و نوایندکس را از طریق رقت یا بن بست از دست ندهیم.

robots.txt و نوفالو، همانطور که غیرمستقیم گفتم اینها تاکتیکهایی هستند که می خواهید به  عنوان آخرین راهکار استفاده کنید زیرا آنها منجر به بن بست Pagerank  می شوند. در نهایت، یک نکته جدیدتر و جالبتر که من مدتی پیش از مقاله وبلاگ Ollie H.G. Mason دریافت کردم، که احتمالاً در زیر لینک می دهم، این طور است که اگر شما یک نقشه سایت (sitemap) در سایت دارید که فقط برای آدرس سایتهای تازه و جدید، آدرس سایتهایی که به تازگی تغییر کرده اند استفاده می کنید آنگاه از آنجا که ربات گوگل چنان عطشی برای محتوای تازه دارد، آنها این نقشه سایت را به دفعات بیشتر کرال خواهند کرد. پس می توانید از این تاکتیک استفاده کنید تا بودجه کرال را به سوی آدرس سایتهای جدید سوق دهید که به این نحو همه بَرنده می شوند.

ربات گوگل فقط می خواهد آدرس سایتهای تازه را ببیند. شاید شما فقط بخواهید که ربات گوگل آدرس سایتهای تازه را ببیند. لذا ، شما اگر نقشه سایت دارید که فقط برای این منظور است، آنگاه همه برنده می شوند، و این نکته خوب و آسانی برای انجام دادن است. پس همین. امیدوارم برایتان سودمند باشد. اگر نه، راحت باشید و نکات و مشکلات خود را از طریق تویتر به من اطلاع دهید. دوست دارم ببینم افراد دیگر چه رویکردی به این موضوع دارند.

 

برگرفته از این منبع

موضوعات مرتبط

پیشنهاد میکنیم این مقالات را هم بخوانید

در خبرنامه آرین عضو شوید

هر هفته مقالات بروز را برایتان خواهیم فرستاد

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

درخواست مشاوره

لطفا اطلاعات تماس خود را وارد نمایید.

آژانس دیجیتال مارکتینگ آرین

شنبه تا پنج شنبه 9 - 17 پاسخگوی شما هستیم

پست الکترونیکی: