هنگام پیاده سازی ربات تی اکس تی، بهتر است روش های زیر را در نظر داشته باشید:
هنگام ایجاد تغییرات در ربات تی اکس تی خود مراقب باشید: این فایل این پتانسیل را دارد که بخشهای بزرگی از وبسایت شما را برای موتورهای جستجو غیرقابل دسترس کند.
فایل ربات تی اکس تی باید در ریشه وب سایت شما قرار داشته باشد (به عنوان مثال http://www.example.com/ربات تی ایکس تی).
فایل ربات txt فقط برای دامنه کاملی که در آن قرار دارد، از جمله پروتکل (http یا https) معتبر است.
موتورهای جستجوی مختلف دستورالعمل ها را متفاوت تفسیر می کنند. به طور پیش فرض، اولین دستورالعمل مطابق همیشه برنده است. اما، با Google و Bing، ویژگی برنده است.
تا حد امکان از استفاده از دستورالعمل تاخیر خزیدن برای موتورهای جستجو خودداری کنید.
راهنمای فایل ربات تی اکس تی
یک فایل ربات تی اکس تی به موتورهای جستجو میگوید که قوانین تعامل وب سایت شما چیست. بخش بزرگی از انجام سئو تکنیکال سایت مربوط به ارسال سیگنال های مناسب به موتورهای جستجو است و ربات txt یکی از راه هایی است که می توانید ترجیحات خزیدن خود را به موتورهای جستجو منتقل کنید.
در سال 2019، شاهد پیشرفتهای زیادی در مورد استاندارد ربات تی اکس تی بودیم: گوگل افزونهای را برای پروتکل محرومیت ربات ها پیشنهاد کرد و تجزیهکننده ربات txt خود را منبع باز یا open-source کرد.
در صورت وجود دستورالعملهای سردرگمی، Google در قسمتهای امن اشتباه میکند و فرض میکند که بخشها باید محدود شوند تا نامحدود.
موتورهای جستجو به طور مرتب فایل ربات تی اکس تی یک وب سایت را بررسی می کنند تا ببینند آیا دستورالعملی برای خزیدن در وب سایت وجود دارد یا خیر. به این راهنما، دستورالعمل گفته میشود.
اگر فایل ربات تی اکس تی وجود نداشته باشد یا دستورالعمل های قابل اجرا وجود نداشته باشد، موتورهای جستجو کل وب سایت را می خزند.
اگرچه همه موتورهای جستجوی اصلی به فایل ربات تی اکس تی احترام می گذارند، موتورهای جستجو ممکن است تصمیم بگیرند (بخش هایی از) فایل ربات تی اکس تی شما را نادیده بگیرند. در حالی که دستورالعملهای موجود در فایل ربات txt سیگنالی قوی برای موتورهای جستجو هستند، مهم است که به خاطر داشته باشید که فایل ربات تی ایکس تی مجموعهای از دستورالعملهای اختیاری برای موتورهای جستجو است تا یک دستور.
اصطلاحات مربوط به فایل ربات تی اکس تی
فایل ربات تی اکس تی اجرای استاندارد حذف رباتها است که پروتکل حذف ربات نیز نامیده می شود. چرا باید به ربات تی اکس تی اهمیت دهید؟ ربات تی ایکس تی از نقطه نظر SEO نقش اساسی دارد؛ چرا که به موتورهای جستجو می گوید که چگونه می توانند در وب سایت شما را به بهترین شکل بخزند. با استفاده از فایل ربات تی اکس تی میتوانید از دسترسی موتورهای جستجو به بعضی از بخشهای خاص وبسایت خود جلوگیری کنید، از محتواهای تکراری جلوگیری کنید و به موتورهای جستجو راهنماییهای مفیدی در مورد اینکه چگونه میتوانند وبسایت شما را به طور مؤثرتر بخزند، ارائه دهید. با این حال، هنگام ایجاد تغییرات در ربات txt خود مراقب باشید: این فایل این پتانسیل را دارد که بخشهای بزرگی از وبسایت شما را برای موتورهای جستجو غیرقابل دسترس کند. مدیر سئو ، Gerry White ، میگوید: ربات تی ایکس تی اغلب برای کاهش محتوای تکراری بیش از حد مورد استفاده قرار میگیرد، در نتیجه لینک سازیهای داخلی را از بین میبرد، بنابراین واقعا مراقب آن باشید. توصیه من این است که همیشه از آن برای فایلها یا صفحاتی استفاده کنید که موتورهای جستجو هرگز نباید آنها را ببینند، یا ممکن است خزیدن در آنها باعث ایجاد دردسر برای شما شود! برای مثال نواحی ورود به سیستم که URL های مختلف را شامل میشوند یا نواحی آزمایشی یا مکانهایی که مسیریابی چند وجهی میتواند وجود داشته باشد. مطمئن شوید که فایل ربات تی ایکس تی خود را برای هرگونه مشکل یا تغییر زیر نظر داشته باشید. تکنسین سئو، Paul Shapiro ، میگوید: اکثر مشکلاتی که من با فایل های ربات تی اکس تی می بینم در سه دسته قرار می گیرند:
سوء استفاده از وایلد کارت ها. این موضوع نسبتاً معمول است که قسمتهایی از سایت را مسدود شده ببینید در حالی که قرار بود مسدود شوند! گاهی اوقات، اگر مراقب نباشید، دستورالعمل ها نیز می توانند با یکدیگر تضاد داشته باشند.
شخصی، مانند یک توسعهدهنده، تغییری غیرمعمول ایجاد کرده است (اغلب هنگام ورود کدهای جدید) و بدون اطلاع شما سهواً ربات txt را تغییر داده است.
گنجاندن دستورالعملهایی که به فایل ربات تی اکس تی تعلق ندارند. ربات تی اکس تی برای وب استاندارد است و تقریبا محدود است. من اغلب می بینم که توسعه دهندگان دستورالعمل هایی را ارائه می دهند که به سادگی کار نمی کنند (حداقل برای تعداد زیادی از خزندهها). گاهی اوقات بی ضرر است، گاهی اوقات چندان بدون ضرر نیست!
بیایید با یک مثال این موضوع را روشنتر کنیم: شما یک وبسایت با موضوع تجارت الکترونیک (اصطلاحا یک سایت فروشگاهی) راه اندازی کردید و بازدیدکنندگان میتوانند از یک فیلتر برای جستجوی راحت بین محصولات شما استفاده کنند. این فیلتر صفحاتی را تولید می کند که اساساً همان محتوایی را که صفحات دیگر نشان می دهند، نشان می دهد. این فیلترها برای کاربران عالی هستند، اما موتورهای جستجو را گیج می کند زیرا محتوای تکراری ایجاد می کنند. شما نمی خواهید موتورهای جستجو این صفحات فیلتر شده را ایندکس کنند و وقت ارزشمندشان را روی این URL ها با محتوای فیلتر شده تلف کنند. بنابراین، باید قوانین Disallow را تنظیم کنید تا موتورهای جستجو به این صفحات محصول فیلتر شده دسترسی نداشته باشند. جلوگیری از محتوای تکراری نیز میتواند با استفاده از URL متعارف یا تگ متا روباتها انجام شود، اما اینها به موتورهای جستجو اجازه نمیدهند که فقط صفحات مهم را بخزند. استفاده از URL متعارف یا تگ متا روبات ها مانع از خزیدن موتورهای جستجو در این صفحات نمی شود و فقط از نمایش این صفحات در نتایج جستجو توسط موتورهای جستجو جلوگیری می کند. از آنجایی که موتورهای جستجو زمان محدودی برای خزیدن یک وب سایت دارند، این زمان باید صرف صفحاتی شود که می خواهید در موتورهای جستجو ظاهر شوند. ربات تی اکس تی یک ابزار بسیار ساده است، اما در صورتی که به درستی پیکربندی نشود، می تواند مشکلات زیادی، به خصوص برای وب سایت های بزرگتر، ایجاد کند. اشتباهاتی مانند مسدود کردن کل سایت پس از ارائه یک طراحی جدید یا CMS، یا مسدود نکردن بخش هایی از سایت که باید خصوصی باشد از مشکلاتی است که عدم پیکربندی مناسب ربات txt برای شما ایجاد میکند. برای وبسایتهای بزرگتر، اطمینان از خزیدن کارآمد Google بسیار مهم است و یک فایل ربات تی اکس تی با ساختار مناسب ابزاری ضروری در این فرآیند است. شما باید زمان بگذارید تا بفهمید کدام بخش از سایت شما بهتر است از گوگل دور نگه داشته شود تا آنها تا حد ممکن منابع خود را صرف خزیدن در صفحاتی کنند که واقعا برای شما حائز اهمیت است.
یک فایل ربات تی اکس تی چه شکلی است؟
مثال زیر یک نمونه از فایل ربات تی اکس تی برای یک سایت وردپرسی است:
User-agent: *
Disallow: /wp-admin/
User-agent نشان می دهد که دستورالعمل های زیر برای کدام موتورهای جستجو در نظر گرفته شده است.
* نشان میدهد که دستورالعمل ها برای همه موتورهای جستجو در نظر گرفته شده است.
Dissallow دستورالعملی است که نشان می دهد چه محتوایی برای User-agent قابل دسترسی نیست.
/wp-admin/ یک path یا یک مسیر است که برای User-agent قابل دسترسی نیست.
به طور خلاصه: فایل ربات تی اکس تی به همه موتورهای جستجو می گوید که از فهرست /wp-admin/ خارج شوند.
بیایید اجزای مختلف فایلهای ربات تی اکس تی را با جزئیات بیشتری تجزیه و تحلیل کنیم:
User-agent در ربات تی اکس تی
هر موتور جستجو باید خود را با یک عامل کاربر یا user-agent شناسایی کند. ربات های گوگل به عنوان Googlebot، ربات های یاهو به عنوان Slurp و ربات Bing به عنوان BingBot وغیره شناخته می شوند.
رکورد user-agent شروع گروهی از دستورالعمل ها را تعریف می کند. همه دستورات بین اولین کاربر عامل و عامل کاربر بعدی به عنوان دستورالعمل برای اولین عامل کاربر یا user-agent تلقی می شوند.
دستورالعملها میتوانند در مورد عوامل کاربر خاص اعمال شوند، اما میتوانند برای همه عوامل کاربر نیز قابل اجرا باشند. در آن صورت، یک علامت عام استفاده می شود: User-agent: *.
دستور Disallow در ربات تی اکس تی
شما می توانید به موتورهای جستجو بگویید که به فایل ها، صفحات یا بخش های خاصی از وب سایت شما دسترسی نداشته باشند. این کار با استفاده از دستور Disallow انجام می شود. دستورالعمل Disallow مسیری را دنبال می کند که نباید به آن دسترسی داشت. اگر مسیری تعریف نشده باشد، دستورالعمل نادیده گرفته می شود.
مثال
User-agent: *
Disallow: /wp-admin/
در این مثال، به تمامی موتورهای جستجو دستور داده شده تا وارد دایرکتوری /wp-admin/ نشوند.
دستور Allow در ربات تی ایکس تی
دستورالعمل Allow برای مقابله با یک دستورالعمل Disallow استفاده می شود. دستورالعمل Allow توسط Google و Bing پشتیبانی میشود. با استفاده از دستورالعملهای Allow و Disallow میتوانید به موتورهای جستجو بگویید که میتوانند به یک فایل یا صفحه خاص در یک فهرست دسترسی داشته باشند یا نه؛ اگر دسترسی داشته باشند مجاز و در غیر این صورت غیرمجاز هستند. دستورالعمل Allow مسیری را دنبال می کند که می توان به آن دسترسی داشت. اگر مسیری تعریف نشده باشد، دستورالعمل نادیده گرفته می شود.
مثال
User-agent: *
Allow: /media/terms-and-conditions.pdf
Disallow: /media/
در مثال بالا هیچ یک از موتورهای جستجو اجازهی دسترسی به /media/ مگر برای فایل /media/terms-and-conditions.pdf را ندارند.
نکتهی مهم: هنگام استفادهی همزمان از دستورات Allow و Disallow مطمئن باشید از وایلدکارت ها استفاده نمیکنید؛ چرا که ممکن است دستورالعملهای ناقصی ایجاد کنند.
مثالی از دستورالعمل متناقض
User-agent: *
Allow: /directory
Disallow: *.html
موتورهای جستجو نمی دانند با http://www.domain.com/directory.html چه کنند. برای آنها مشخص نیست که آیا آنها اجازه دسترسی دارند یا خیر. وقتی دستورالعملها برای Google واضح نباشند، با کمترین دستورالعملهای محدودکننده پیش میروند، که در این مورد به این معنی است که آنها در واقع به این URL دسترسی خواهند داشت!!
مشاور سئو، Barry Adams، میگوید:
قوانین غیر مجاز در فایل ربات تی اکس تی سایت فوق العاده قدرتمند هستند، بنابراین باید با احتیاط رفتار کنید. برای برخی از سایتها، جلوگیری از خزیدن الگوهای URL خاص توسط موتورهای جستجو برای فعال کردن صفحات مناسب برای خزیدن و نمایهسازی بسیار مهم است؛ اما استفادهی نادرست از قوانین غیر مجاز میتواند به شدت به سئو سایت آسیب برساند.
یک خط جداگانه برای هر دستورالعمل
هر دستورالعمل باید در یک خط جداگانه باشد، در غیر این صورت ممکن است موتورهای جستجو هنگام تجزیه فایل ربات تی اکس تی دچار سردرگمی شوند.
مثالی از فایل ربات تی اکس تی نادرست
از فایل ربات txt مانند زیر جلوگیری کنید:
User-agent: * Disallow: /directory-1/ Disallow: /directory-2/ Disallow: /directory-3/
David Iwanow میگوید:
ربات تی اکس تی یکی از ویژگی هایی است که من اغلب می بینم که به اشتباه اجرا شده است، در نتیجه چیزی را که می خواستند مسدود کنند، مسدود نمی کند یا بیش از آنچه انتظار داشتند مسدود می کند و تأثیر منفی بر وب سایت آنها دارد. ربات تی اکس تی ابزار بسیار قدرتمندی است اما اغلب اوقات به درستی تنظیم نمی شود.
استفاده از wildcard *
نه تنها می توان از وایلدکارت ها برای تعریف user-agent استفاده کرد، بلکه می توان برای مطابقت با URL ها نیز امیشود از آنها استفاده کرد. وایلدکارتها توسط Google، Bing، Yahoo و Ask پشتیبانی می شود.
مثال
User-agent: *
Disallow: *?
در مثال بالا، هیچ یک از موتورهای جستجو اجازه دسترسی به URL هایی که دارای علامت سوال (؟) هستند، ندارند
Dawn Anderson میگوید:
به نظر می رسد توسعه دهندگان یا صاحبان سایت اغلب فکر می کنند که می توانند از هر گونه ابزار منظمی در یک فایل ربات تی اکس تی استفاده کنند، در حالی که تنها مقدار بسیار محدودی از تطبیق الگو معتبر است - برای مثال وایلدکارت ها (*). به نظر می رسد هر از گاهی بین فایل های .htaccess و فایل های ربات تی اکس تی سردرگمی وجود دارد.
استفاده از علامت دلار $ در انتهای URL
برای نشان دادن انتهای URL، می توانید از علامت دلار ($) در انتهای مسیر استفاده کنید.
مثال
User-agent: *
Disallow: *.php$
در مثال بالا، موتورهای جستجو اجازه دسترسی به همه URL هایی که با .php ختم می شوند را ندارند. آدرسهای اینترنتی مانند https://example.com/page.php?lang=en که دارای پارامتر هستند، غیرمجاز نیست، زیرا نشانی اینترنتی پس از php. به پایان نمی رسد.
اضافه کردن نقشه سایت به ربات تی اکس تی
اگرچه فایل ربات تی اکس تی اختراع شد تا به موتورهای جستجو بگوید در چه صفحاتی خزش نکنند، این فایل همچنین می تواند موتورهای جستجو را به سمت نقشه سایت XML هدایت کند! این موضوع توسط Google، Bing، Yahoo و Ask پشتیبانی می شود.
نقشه سایت XML باید به عنوان یک URL مطلق ارجاع داده شود. URL لازم نیست در همان هاستی باشد که فایل ربات تی اکس تی در آن قرار دارد.
ارجاع به XML در فایل ربات txt یکی از بهترین روش هایی است که به شما توصیه می کنیم همیشه انجام دهید، حتی اگر قبلاً XML خود را در کنسول جستجوی گوگل (Google Search Console) یا ابزار وب مستر بینگ (Bing Webmaster Tools) ارسال کرده باشید. به یاد داشته باشید، همیشه موتورهای جستجوی بیشتری وجود دارند!
لطفاً توجه داشته باشید که می توان به چندین XML در یک فایل ربات تی اکس تی اشاره کرد.
مثال ها
چندین XML تعریف شده در فایل ربات تی اکس تی:
نقشه سایت XML باید به عنوان URL مطلق ارجاع داده شود. URL لازم نیست در همان میزبانی که فایل ربات تی اکس تی قرار دارد باشد.
User-agent: *
Disallow: /wp-admin/
Sitemap: https://www.example.com/sitemap1.xml
Sitemap: https://www.example.com/sitemap2.xml
مثال بالا به همه موتورهای جستجو می گوید که به دایرکتوری /wp-admin/ دسترسی نداشته باشند و دو XML وجود دارد که می توانید آنها را در https://www.example.com/sitemap1.xml و یا در https://www.example.com/sitemap2.xml پیدا کنید.
یک نقشه سایت XML که در فایل ربات تی اکس تی تعریف شده است:
User-agent: *
Disallow: /wp-admin/
Sitemap: https://www.example.com/sitemap_index.xml
مثال بالا به همه موتورهای جستجو می گوید که به دایرکتوری /wp-admin/ دسترسی نداشته باشند و نقشه سایت XML را می توانند در https://www.example.com/sitemap_index.xml پیدا کنند.
کامنتها
کامنت ها قبل از یک # قرار می گیرند و می توانند در ابتدای یک خط یا بعد از یک دستورالعمل در همان خط قرار گیرند. همه چیز بعد از # نادیده گرفته می شود. این نظرات فقط برای انسان است.
مثال I
# Don't allow access to the /wp-admin/ directory for all ربات
User-agent: *
Disallow: /wp-admin/
مثال II
User-agent: * #Applies to all robots
Disallow: /wp-admin/ # Don't allow access to the /wp-admin/ directory.
مثالهای بالا هر دو یک منظور را میرسانند.
تاخیر خزیدن یا Crawl-delay در ربات تی اکس تی
دستورالعمل Crawl-Delay یک دستورالعمل غیر رسمی است که برای جلوگیری از بارگذاری بیش از حد سرورها با درخواست های زیاد استفاده می شود. اگر موتورهای جستجو قادر به بارگذاری بیش از حد سرور هستند، اضافه کردن Crawl-delay به فایل ربات تی اکس تی شما تنها یک راه حل موقت است. واقعیت این است که وب سایت شما در یک محیط میزبانی ضعیف اجرا می شود و/یا وب سایت شما به درستی پیکربندی نشده است و باید در اسرع وقت آن را برطرف کنید.
نمونه ربات txt با Crawl-delay مشخص شده برای Bing
Crawl-Delay و Google
خزندهی Google یا Googlebot، دستورالعمل Crawl-Delay را پشتیبانی نمی کند، بنابراین با تعریف Crawl-Delay برای Google خود را خسته نکنید.
با این حال، گوگل از تعریف نرخ خزیدن (یا "نرخ درخواست" در صورت تمایل) در کنسول جستجوی گوگل یا Google Search Console پشتیبانی می کند.
تنظیم نرخ خزیدن (Crawl Rate) در Google Search Console:
به Google Search Console قدیمی وارد شوید
سایتی که میخواهید برای آن نرخ خزیدن را پیدا کند، وارد کنید.
در اینجا تنها یک تنظیمات وجود دارد که میتوانید آن را تغییر دهید: نرخ خزیدن، با یک نوار لغزنده که در آن میتوانید نرخ خزیدن ترجیحی را تنظیم کنید. بهطور پیشفرض نرخ خزیدن روی
«(Let Google optimize for my site (recommended» یا
"اجازه دهید Google برای سایت من بهینهسازی کند (توصیه میشود)"
تنظیم شده است.
Crawl-Delay و Bing، Yahoo و Yandex
بینگ، یاهو و یاندکس همگی از دستورالعمل Crawl-Delay برای جلوگیری از خزیدن یک وب سایت پشتیبانی می کنند. اما تفاسیر آنها از Crawl-Delay کمی متفاوت است، بنابراین حتما مستندات آنها را بررسی کنید
دستور Crawl-Delay باید درست بعد از دستورات Disallow یا Allow قرار گیرد.
مثال
User-agent: BingBot
Disallow: /private/
Crawl-delay: 10
Crawl-delay و Baidu
Baidu دستورالعمل crawl-delay را پشتیبانی نمی کند، با این حال می توان یک اکانت Baidu Webmaster Tools را ثبت کرد که در آن بتوانید فرکانس خزیدن را مانند کنسول جستجوی Google کنترل کنید.
چه زمانی از فایل ربات تی اکس تی استفاده کنیم؟
توصیه می کنیم همیشه از فایل ربات تی اکس تی استفاده کنید. داشتن آن هیچ ضرری ندارد و همچنین مکانی عالی برای ارائه دستورالعملهای موتورهای جستجو در مورد چگونگی بهتر خزیدن وبسایت شما هستند.
Montse Cano میگوید:
ربات تی اکس تی می تواند برای جلوگیری از خزیدن و ایندکس شدن برخی مناطق یا اسناد در سایت شما مفید باشد. سایت استیجینگ یا فایلهای پیدیاف مثالهایی هستند که میتوان به آن اشاره کرد. آنچه را که باید توسط موتورهای جستجو ایندکس شوند به دقت برنامه ریزی کنید و توجه داشته باشید که محتوایی که از طریق ربات تی اکس تی غیرقابل دسترسی است، در صورتی که از سایر قسمت های وب سایت به آن لینک داده شده باشد، ممکن است همچنان توسط خزنده های موتورهای جستجو پیدا شود.
بهترین روشهای ربات تی اکس تی
بهترین روشهای ربات تی اکس تی به شرح زیر طبقه بندی می شوند:
مکان و نام فایل
ترتیب اولویت
تنها یک گروه از دستورالعمل ها برای هر ربات
تا حد ممکن دقیق باشید
دستورالعملهایی برای همهی رباتها در حالی که دستورالعملهای یک ربات خاص را نیز شامل میشود
فایل ربات تی اکس تی برای هر دامنه و زیردامنه.
دستورالعمل های متناقض: ربات تی اکس تی در مقابل کنسول جستجوی Google
فایل ربات تی اکس تی خود را نظارت کنید
از noindex در ربات تی اکس تی خود استفاده نکنید
جلوگیری از UTF-8 BOM در فایل ربات تی اکس تی
مکان و نام فایل
فایل ربات تی اکس تی باید همیشه در ریشه یک وب سایت (در فهرست سطح بالای هاست) قرار گیرد و نام فایل ربات تی اکس تی را داشته باشد، به عنوان مثال: https://www.example.com/ربات تی اکس تی . توجه داشته باشید که URL فایل ربات تی اکس تی مانند هر URL دیگری به حروف بزرگ و کوچک حساس است.
اگر فایل ربات تی اکس تی در مکان پیشفرض یافت نشود، موتورهای جستجو فرض میکنند که هیچ دستورالعملی وجود ندارد و در وبسایت شما میخزند.
ترتیب اولویت
توجه به این نکته مهم است که موتورهای جستجو فایلهای ربات تی اکس تی را متفاوت مدیریت میکنند. به طور پیش فرض، اولین دستورالعمل مطابق همیشه برنده است.
با این حال، برای گوگل و بینگ، تمایزات و ویژگیها برنده هستند. به عنوان مثال: اگر طول کاراکتر Allow بیشتر از Disallow باشد، دستور Allow بر دستورالعمل Disallow پیروز می شود.
مثال I
User-agent: *
Allow: /about/company/
Disallow: /about/
در مثال بالا، همه موتورهای جستجو، از جمله گوگل و بینگ، به جز دایرکتوری فرعی /about/company/، اجازه دسترسی به فهرست /about/ را ندارند.
مثال II
User-agent: *
Disallow: /about/
Allow: /about/company/
در مثال بالا، هیچ یک از موتورهای جستجو به جز گوگل و بینگ، اجازه دسترسی به فهرست /about/ را ندارند. این دستور شامل دایرکتوری /about/company/ میشود.
Google و Bing مجاز به دسترسی هستند، زیرا دستورالعمل Allow طولانی تر از دستورالعمل Disallow است.
تنها یک گروه از دستورالعمل ها برای هر ربات
شما فقط می توانید یک گروه از دستورالعمل ها را در هر موتور جستجو تعریف کنید. داشتن چندین گروه از دستورالعمل ها برای یک موتور جستجو باعث سردرگمی آنها می شود.
تا حد ممکن دقیق باشید
دستور Disallow در موارد منطبق جزئی نیز فعال می شود. هنگام تعریف دستورالعمل Disallow تا حد امکان خاص باشید تا از عدم اجازه دسترسی ناخواسته به فایل ها جلوگیری کنید.
مثال
User-agent: *
Disallow: /directory
/directory
/directory/
/directory-name-1
/directory-name.html
/directory-name.php
/directory-name.pdf
مثال بالا اجازهی دسترسی موتورهای جستجو به را نمیدهد.
دستورالعملهایی برای همه رباتها در حالی که دستورالعملهای یک ربات خاص را نیز شامل میشود
برای یک ربات، تنها یک گروه از دستورالعملها معتبر است. اگر دستورالعملهای در نظر گرفته شده برای همه رباتها، از دستورالعملهای مربوط به یک ربات خاص پیروی کنند، تنها دستورالعملهای خاص هستند که مورد توجه قرار خواهند گرفت. برای اینکه یک ربات خاص نیز دستورالعملهای مربوط به همهی ربات ها را دنبال کند، باید این دستورالعمل ها را برای رباتهای خاص نیز تکرار کنید.
مثال
User-agent: *
Disallow: /secret/
Disallow: /test/
Disallow: /not-launched-yet/
User-agent: googlebot
Disallow: /not-launched-yet/
در مثال بالا هیچ یک از موتورهای جستجو به غیر از Google اجازهی دسترسی به /secret/ و /test/ و /not-launched-yet/ داده نشده است.
اگر نمیخواهید googlebot به /secret/ و /not-launched-yet/ دسترسی پیدا کند، باید این دستورالعملها را بهطور خاص برای googlebot تکرار کنید:
User-agent: *
Disallow: /secret/
Disallow: /test/
Disallow: /not-launched-yet/
User-agent: googlebot
Disallow: /secret/
Disallow: /not-launched-yet/
لطفاً توجه داشته باشید که فایل ربات تی اکس تی شما برای عموم در دسترس است. غیرمجاز کردن بخشهای وبسایت در آنجا میتواند بهعنوان یک نقطه ضعف برای حمله توسط افرادی با اهداف مخرب استفاده شود.
Patrick Stox می گوید
ربات تی اکس تی می تواند خطرناک باشد. شما نه تنها به موتورهای جستجو می گویید که نمی خواهید کجا نگاه کنند، بلکه به مردم می گویید اسرار خود را کجا پنهان می کنید.
فایل ربات تی اکس تی برای هر دامنه یا زیردامنه.
دستورالعملهای ربات تی اکس تی فقط برای دامنه یا زیر دامنهای که فایل در آن میزبانی میشود اعمال میشود.
مثال
http://example.com/ربات تی اکس تی برای http://example.com معتبر است، اما برای http://www.example.com یا https://example.com معتبر نیست.
بهترین روش این است که فقط یک فایل ربات تی اکس تی در دامنه یا زیردامنهی خود در دسترس باشد.
اگر چندین فایل ربات تی اکس تی در دسترس دارید، حتماً مطمئن شوید که وضعیت HTTP 404 را برمیگردانند یا آنها را به فایل canonical ربات تی اکس تی 301 هدایت کنید.
دستورالعمل های متناقض: ربات تی اکس تی در مقابل کنسول جستجوی Google
در صورتی که فایل ربات تی اکس تی شما با تنظیمات تعریف شده در Google Search Console مغایرت داشته باشد، گوگل اغلب استفاده از تنظیمات تعریف شده در GSC را به جای دستورالعمل های تعریف شده در فایل ربات تی اکس تی انتخاب می کند.
فایل ربات تی اکس تی خود را نظارت کنید
نظارت بر فایل ربات تی اکس تی برای تغییرات بسیار مهم است. امروزه، ما شاهد مشکلات زیادی هستیم که در آن دستورالعملهای نادرست و تغییرات ناگهانی در فایل ربات تی اکس تی باعث ایجاد مشکلات عمده در سئو میشوند.
این امر به ویژه در هنگام راهاندازی ویژگیهای جدید یا یک وبسایت جدید که در یک محیط آزمایشی آماده شده است صادق است، زیرا این موارد اغلب حاوی فایل ربات تی اکس تی زیر هستند:
User-agent: *
Disallow: /
از noindex در ربات تی اکس تی خود استفاده نکنید
برای سالها، گوگل آشکارا از استفاده از دستورالعمل غیررسمی noindex جلوگیری میکرد. با این حال، از 1 سپتامبر 2019، گوگل به طور کامل از آن پشتیبانی نمی کند.
دستورالعمل غیر رسمی noindex هرگز در بینگ کار نکرد، همانطور که فردریک دوبوت در این توییت تایید کرد:
بهترین راه برای سیگنال دادن به موتورهای جستجو مبنی بر اینکه صفحات نباید ایندکس شوند، استفاده از تگ متا روبات یا X-Robots-Tag است.
جلوگیری از UTF-8 BOM در فایل ربات تی اکس تی
BOM مخفف byte order mark، یک کاراکتر نامرئی است که در ابتدای یک فایل که برای نشان دادن رمزگذاری Unicode یک فایل متنی استفاده می شود.
در حالی که گوگل بیان میکند که علامت سفارش بایت یونیکد اختیاری در ابتدای فایل ربات تی اکس تی را نادیده میگیرد، توصیه میکنیم از "UTF-8 BOM" جلوگیری کنید زیرا مشاهده کردهایم که باعث ایجاد مشکلاتی در تفسیر فایل ربات تی اکس تی با موتورهای جستجو میشود.
حتی اگر گوگل می گوید که می تواند با آن مقابله کند، همچنان دو دلیل برای جلوگیری از UTF-8 BOM وجود دارد:
شما نمی خواهید هیچ ابهامی در مورد اولویتهای شما در مورد خزیدن در موتورهای جستجو وجود داشته باشد.
موتورهای جستجوی دیگری نیز وجود دارند که ممکن است آنطور که گوگل ادعا می کند بخشنده نباشند.
نمونه های ربات تی اکس تی
در این بخش طیف گسترده ای از نمونههای فایل ربات تی اکس تی را پوشش خواهیم داد:
به همه رباتها اجازه دسترسی به همه چیز را بدهید
دسترسی همهی رباتها به همه چیز را ممنوع کنید
هیچ یک از رباتهای Google دسترسی ندارند
همه رباتهای Google، به غیر از Googlebot-news، دسترسی ندارند
Googlebot و Slurp هیچ گونه دسترسیای ندارند
همهی رباتها به دو فهرست دسترسی ندارند
همهی رباتها به یک فایل خاص دسترسی ندارند
Googlebot به /admin/ و Slurp به /private/ دسترسی ندارد
فایل ربات تی اکس تی برای WordPress
فایل ربات تی اکس تی برای Magento
به همه رباتها اجازه دسترسی به همه چیز را بدهید
راه های متعددی وجود دارد که به موتورهای جستجو بگویید می توانند به همه فایل ها دسترسی داشته باشند:
User-agent: *
Disallow:
یا داشتن فایل ربات تی اکس تی خالی یا اصلاً ربات تی اکس تی نداشتن.
دسترسی همهی رباتها به همه چیز را ممنوع کنید
مثال ربات تی اکس تی زیر به همه موتورهای جستجو می گوید که به کل سایت دسترسی نداشته باشند:
User-agent: *
Disallow: /
لطفاً توجه داشته باشید که فقط یک کاراکتر اضافی می تواند تفاوت را ایجاد کند.
هیچ یک از رباتهای Google دسترسی ندارند
User-agent: googlebot
Disallow: /
لطفاً توجه داشته باشید که هنگام غیرمجاز کردن Googlebot، این مورد برای همهی Googlebot ها صدق می کند. این موضوع شامل تمام رباتهای گوگل مانند اخبار (googlebot-news) و تصاویر (googlebot-images) میشود.
همه رباتهای Google، به غیر از Googlebot news، دسترسی ندارند.
User-agent: googlebot
Disallow: /
User-agent: googlebot-news
Disallow:
Googlebot و Slurp هیچ گونه دسترسیای ندارند.
User-agent: Slurp
User-agent: googlebot
Disallow: /
همهی رباتها به دو فهرست دسترسی ندارند.
User-agent: *
Disallow: /admin/
Disallow: /private/
همهی رباتها به یک فایل خاص دسترسی ندارند.
User-agent: *
Disallow: /directory/some-pdf.pdf
Googlebot به /admin/ و Slurp به /private/ دسترسی ندارد.
User-agent: googlebot
Disallow: /admin/
User-agent: Slurp
Disallow: /private/
فایل ربات تی اکس تی برای WordPress
فایل ربات تی اکس تی زیر به طور خاص برای وردپرس بهینه شده است، با این فرض:
شما نمی خواهید بخش مدیریت شما خزیده شود.
شما نمی خواهید صفحات نتایج جستجوی داخلی شما خزیده شوند.
شما نمی خواهید صفحات tag و نویسنده شما خزیده شوند.
شما نمی خواهید صفحه 404 شما خزیده شود.
User-agent: *
Disallow: /wp-admin/ #block access to admin section
Disallow: /wp-login.php #block access to admin section
Disallow: /search/ #block access to internal search result pages
Disallow: *?s=* #block access to internal search result pages
Disallow: *?p=* #block access to pages for which permalinks fails
Disallow: *&p=* #block access to pages for which permalinks fails
Disallow: *&preview=* #block access to preview pages
Disallow: /tag/ #block access to tag pages
Disallow: /author/ #block access to author pages
Disallow: /404-error/ #block access to 404 page
Sitemap: https://www.example.com/sitemap_index.xml
لطفاً توجه داشته باشید که این فایل ربات تی اکس تی در بیشتر موارد کار می کند، اما همیشه باید آن را تنظیم کرده و آزمایش کنید تا مطمئن شوید که دقیقاً در موقعیت شما به درستی عمل می کند.
فایل ربات تی اکس تی برای Magento
فایل ربات تی اکس تی زیر به طور خاص برای Magento بهینهسازی شده است و نتایج جستجوی داخلی، صفحات ورود به سیستم، شناسههای جلسه و مجموعههای نتایج فیلتر شده را که حاوی معیارهای قیمت، رنگ، متریال و اندازه هستند، برای خزندهها غیرقابل دسترس میسازد.
User-agent: *
Disallow: /catalogsearch/
Disallow: /search/
Disallow: /customer/account/login/
Disallow: /*?SID=
Disallow: /*?PHPSESSID=
Disallow: /*?price=
Disallow: /*&price=
Disallow: /*?color=
Disallow: /*&color=
Disallow: /*?material=
Disallow: /*&material=
Disallow: /*?size=
Disallow: /*&size=
Sitemap: https://www.example.com/sitemap_index.xml
لطفاً توجه داشته باشید که این فایل ربات تی اکس تی برای اکثر فروشگاههای Magento کار میکند، اما همیشه باید آن را تنظیم کرده و آزمایش کنید تا مطمئن شوید که دقیقاً در موقعیت شما به درستی عمل می کند.
Dawn Anderson میگوید: من همچنان همیشه به دنبال مسدود کردن نتایج جستجوی داخلی در ربات تی اکس تی در هر سایتی هستم زیرا این نوع URL های جستجو فضاهایی بی نهایت و بی پایان هستند. پتانسیل بسیار زیادی برای Googlebot وجود دارد که در دام خزنده قرار گیرد.
محدودیت های فایل ربات تی اکس تی چیست؟ 🤖
فایل ربات تی اکس تی حاوی دستورالعمل ها است
حتی اگر ربات تی اکس تی توسط موتورهای جستجو مورد احترام قرار میگیرد، اما هنوز یک دستورالعمل است و نه یک دستور. صفحاتی که هنوز در نتایج جستجو ظاهر می شوند . صفحاتی که به دلیل ربات تی اکس تی برای موتورهای جستجو غیر قابل دسترسی هستند، اما لینکهایی به آنها وجود دارند، همچنان می توانند در نتایج جستجو ظاهر شوند اگر از صفحه ای که در آن خزیده شده است لینک داده شده باشد.
یک نکتهی حرفه ای!
حذف این URL ها از گوگل با استفاده از ابزار حذف URL کنسول جستجوی گوگل امکان پذیر است. حتما توجه داشته باشید که این URL ها فقط به طور موقت "پنهان" خواهند بود. برای اینکه آنها از صفحات نتایج گوگل خارج نشوند، باید هر 180 روز یک بار درخواستی برای پنهان کردن URL ها ارسال کنید. Fili Wiese میگوید: از ربات تی اکس تی برای بلاک کردن بک لینک های وابسته نامطلوب و احتمالا مضر استفاده کنید. از ربات تی اکس تی برای جلوگیری از ایندکس شدن محتوا توسط موتورهای جستجو استفاده نکنید، زیرا این امر به ناچار شکست خواهد خورد. درعوض در صورت لزوم، دستورالعمل روبات ها را noindex اعمال کنید. فایل ربات تی اکس تی حداکثر تا 24 ساعت در حافظه پنهان ذخیره می شود! گوگل اعلام کرده است که فایل ربات تی اکس تی به طور کلی تا 24 ساعت در حافظه پنهان (Cache) نگهداری می شود. هنگام ایجاد تغییرات در فایل ربات تی اکس تی، مهم است که این نکته را در نظر بگیرید. مشخص نیست که دیگر موتورهای جستجو چگونه با کش (Cache) کردن ربات تی اکس تی برخورد می کنند، اما به طور کلی بهتر است از ذخیره فایل ربات تی اکس تی خودداری کنید تا موتورهای جستجو بیش از حد لازم برای دریافت تغییرات زمان نگذارند. اندازه فایل ربات تی اکس تی
برای فایلهای ربات تی اکس تی، موتور جستجوگر Google در حال حاضر از محدودیت اندازه فایل 500 کیلو بایت (512 کیلوبایت) پشتیبانی میکند. هر محتوایی بیش از این مقدار ممکن است نادیده گرفته شود. مشخص نیست که آیا سایر موتورهای جستجو دارای حداکثر اندازه فایل برای فایل های ربات تی اکس تی هستند یا خیر.
سوالات متداول درباره ربات تی اکس تی
ربات تی اکس تی چگونه است؟
در اینجا نمونه ای از محتوای ربات تی اکس تی آمده است:
User-agent:*
Disallow:
این دستور به همهی خزندهها می گوید که می توانند به همه چیز دسترسی داشته باشند.
Disallow all در ربات تی اکس تی چه کاری انجام می دهد؟
هنگامی که یک ربات تی اکس تی را روی "Disallow all" تنظیم می کنید، در اصل به همهی خزنده ها می گویید که از آن دوری کنند. هیچ خزنده ای از جمله گوگل اجازه دسترسی به سایت شما را ندارد. این بدان معناست که آنها قادر به خزیدن، ایندکس و رتبه بندی سایت شما نخواهند بود. این موضوع منجر به کاهش شدید ترافیک ارگانیک خواهد شد.
Allow all در ربات تی اکس تی چه کاری انجام می دهد؟
وقتی یک ربات تی اکس تی را روی "Allow all" تنظیم می کنید، به هر خزنده می گویید که می تواند به هر URL در سایت دسترسی داشته باشد. هیچ قاعده ای برای تعامل وجود ندارد. لطفاً توجه داشته باشید که این موضوع معادل داشتن ربات تی اکس تی خالی یا به طور کلی نداشتن ربات تی اکس تی است.
ربات تی اکس تی چقدر برای سئو مهم است؟
به طور کلی فایل ربات تی اکس تی برای اهداف سئو بسیار مهم است. برای وبسایتهای بزرگتر، ربات تی اکس تی برای ارائه دستورالعملهای بسیار واضح به موتورهای جستجو در مورد محتوایی که نباید دسترسی داشته باشند، ضروری است.
راهنمای فایل ربات تی اکس تی
یک فایل ربات تی اکس تی به موتورهای جستجو میگوید که قوانین تعامل وب سایت شما چیست. بخش بزرگی از انجام سئو تکنیکال سایت مربوط به ارسال سیگنال های مناسب به موتورهای جستجو است و ربات txt یکی از راه هایی است که می توانید ترجیحات خزیدن خود را به موتورهای جستجو منتقل کنید.
در سال 2019، شاهد پیشرفتهای زیادی در مورد استاندارد ربات تی اکس تی بودیم: گوگل افزونهای را برای پروتکل محرومیت ربات ها پیشنهاد کرد و تجزیهکننده ربات txt خود را منبع باز یا open-source کرد.
در صورت وجود دستورالعملهای سردرگمی، Google در قسمتهای امن اشتباه میکند و فرض میکند که بخشها باید محدود شوند تا نامحدود.
موتورهای جستجو به طور مرتب فایل ربات تی اکس تی یک وب سایت را بررسی می کنند تا ببینند آیا دستورالعملی برای خزیدن در وب سایت وجود دارد یا خیر. به این راهنما، دستورالعمل گفته میشود.
اگر فایل ربات تی اکس تی وجود نداشته باشد یا دستورالعمل های قابل اجرا وجود نداشته باشد، موتورهای جستجو کل وب سایت را می خزند.
اگرچه همه موتورهای جستجوی اصلی به فایل ربات تی اکس تی احترام می گذارند، موتورهای جستجو ممکن است تصمیم بگیرند (بخش هایی از) فایل ربات تی اکس تی شما را نادیده بگیرند. در حالی که دستورالعملهای موجود در فایل ربات txt سیگنالی قوی برای موتورهای جستجو هستند، مهم است که به خاطر داشته باشید که فایل ربات تی ایکس تی مجموعهای از دستورالعملهای اختیاری برای موتورهای جستجو است تا یک دستور.
اصطلاحات مربوط به فایل ربات تی اکس تی
فایل ربات تی اکس تی اجرای استاندارد حذف رباتها است که پروتکل حذف ربات نیز نامیده می شود.
چرا باید به ربات تی اکس تی اهمیت دهید؟
ربات تی ایکس تی از نقطه نظر SEO نقش اساسی دارد؛ چرا که به موتورهای جستجو می گوید که چگونه می توانند در وب سایت شما را به بهترین شکل بخزند.
با استفاده از فایل ربات تی اکس تی میتوانید از دسترسی موتورهای جستجو به بعضی از بخشهای خاص وبسایت خود جلوگیری کنید، از محتواهای تکراری جلوگیری کنید و به موتورهای جستجو راهنماییهای مفیدی در مورد اینکه چگونه میتوانند وبسایت شما را به طور مؤثرتر بخزند، ارائه دهید.
با این حال، هنگام ایجاد تغییرات در ربات txt خود مراقب باشید: این فایل این پتانسیل را دارد که بخشهای بزرگی از وبسایت شما را برای موتورهای جستجو غیرقابل دسترس کند.
مدیر سئو ، Gerry White ، میگوید:
ربات تی ایکس تی اغلب برای کاهش محتوای تکراری بیش از حد مورد استفاده قرار میگیرد، در نتیجه لینک سازیهای داخلی را از بین میبرد، بنابراین واقعا مراقب آن باشید. توصیه من این است که همیشه از آن برای فایلها یا صفحاتی استفاده کنید که موتورهای جستجو هرگز نباید آنها را ببینند، یا ممکن است خزیدن در آنها باعث ایجاد دردسر برای شما شود! برای مثال نواحی ورود به سیستم که URL های مختلف را شامل میشوند یا نواحی آزمایشی یا مکانهایی که مسیریابی چند وجهی میتواند وجود داشته باشد. مطمئن شوید که فایل ربات تی ایکس تی خود را برای هرگونه مشکل یا تغییر زیر نظر داشته باشید.
تکنسین سئو، Paul Shapiro ، میگوید:
اکثر مشکلاتی که من با فایل های ربات تی اکس تی می بینم در سه دسته قرار می گیرند:
سوء استفاده از وایلد کارت ها. این موضوع نسبتاً معمول است که قسمتهایی از سایت را مسدود شده ببینید در حالی که قرار بود مسدود شوند! گاهی اوقات، اگر مراقب نباشید، دستورالعمل ها نیز می توانند با یکدیگر تضاد داشته باشند.
شخصی، مانند یک توسعهدهنده، تغییری غیرمعمول ایجاد کرده است (اغلب هنگام ورود کدهای جدید) و بدون اطلاع شما سهواً ربات txt را تغییر داده است.
گنجاندن دستورالعملهایی که به فایل ربات تی اکس تی تعلق ندارند. ربات تی اکس تی برای وب استاندارد است و تقریبا محدود است. من اغلب می بینم که توسعه دهندگان دستورالعمل هایی را ارائه می دهند که به سادگی کار نمی کنند (حداقل برای تعداد زیادی از خزندهها). گاهی اوقات بی ضرر است، گاهی اوقات چندان بدون ضرر نیست!
بیایید با یک مثال این موضوع را روشنتر کنیم:
شما یک وبسایت با موضوع تجارت الکترونیک (اصطلاحا یک سایت فروشگاهی) راه اندازی کردید و بازدیدکنندگان میتوانند از یک فیلتر برای جستجوی راحت بین محصولات شما استفاده کنند. این فیلتر صفحاتی را تولید می کند که اساساً همان محتوایی را که صفحات دیگر نشان می دهند، نشان می دهد. این فیلترها برای کاربران عالی هستند، اما موتورهای جستجو را گیج می کند زیرا محتوای تکراری ایجاد می کنند.
شما نمی خواهید موتورهای جستجو این صفحات فیلتر شده را ایندکس کنند و وقت ارزشمندشان را روی این URL ها با محتوای فیلتر شده تلف کنند. بنابراین، باید قوانین Disallow را تنظیم کنید تا موتورهای جستجو به این صفحات محصول فیلتر شده دسترسی نداشته باشند.
جلوگیری از محتوای تکراری نیز میتواند با استفاده از URL متعارف یا تگ متا روباتها انجام شود، اما اینها به موتورهای جستجو اجازه نمیدهند که فقط صفحات مهم را بخزند.
استفاده از URL متعارف یا تگ متا روبات ها مانع از خزیدن موتورهای جستجو در این صفحات نمی شود و فقط از نمایش این صفحات در نتایج جستجو توسط موتورهای جستجو جلوگیری می کند. از آنجایی که موتورهای جستجو زمان محدودی برای خزیدن یک وب سایت دارند، این زمان باید صرف صفحاتی شود که می خواهید در موتورهای جستجو ظاهر شوند.
ربات تی اکس تی یک ابزار بسیار ساده است، اما در صورتی که به درستی پیکربندی نشود، می تواند مشکلات زیادی، به خصوص برای وب سایت های بزرگتر، ایجاد کند. اشتباهاتی مانند مسدود کردن کل سایت پس از ارائه یک طراحی جدید یا CMS، یا مسدود نکردن بخش هایی از سایت که باید خصوصی باشد از مشکلاتی است که عدم پیکربندی مناسب ربات txt برای شما ایجاد میکند. برای وبسایتهای بزرگتر، اطمینان از خزیدن کارآمد Google بسیار مهم است و یک فایل ربات تی اکس تی با ساختار مناسب ابزاری ضروری در این فرآیند است.
شما باید زمان بگذارید تا بفهمید کدام بخش از سایت شما بهتر است از گوگل دور نگه داشته شود تا آنها تا حد ممکن منابع خود را صرف خزیدن در صفحاتی کنند که واقعا برای شما حائز اهمیت است.
یک فایل ربات تی اکس تی چه شکلی است؟
مثال زیر یک نمونه از فایل ربات تی اکس تی برای یک سایت وردپرسی است:
User-agent: *
Disallow: /wp-admin/
User-agent نشان می دهد که دستورالعمل های زیر برای کدام موتورهای جستجو در نظر گرفته شده است.
* نشان میدهد که دستورالعمل ها برای همه موتورهای جستجو در نظر گرفته شده است.
Dissallow دستورالعملی است که نشان می دهد چه محتوایی برای User-agent قابل دسترسی نیست.
/wp-admin/ یک path یا یک مسیر است که برای User-agent قابل دسترسی نیست.
به طور خلاصه: فایل ربات تی اکس تی به همه موتورهای جستجو می گوید که از فهرست /wp-admin/ خارج شوند.
بیایید اجزای مختلف فایلهای ربات تی اکس تی را با جزئیات بیشتری تجزیه و تحلیل کنیم:
User-agent در ربات تی اکس تی
هر موتور جستجو باید خود را با یک عامل کاربر یا user-agent شناسایی کند. ربات های گوگل به عنوان Googlebot، ربات های یاهو به عنوان Slurp و ربات Bing به عنوان BingBot وغیره شناخته می شوند.
رکورد user-agent شروع گروهی از دستورالعمل ها را تعریف می کند. همه دستورات بین اولین کاربر عامل و عامل کاربر بعدی به عنوان دستورالعمل برای اولین عامل کاربر یا user-agent تلقی می شوند.
دستورالعملها میتوانند در مورد عوامل کاربر خاص اعمال شوند، اما میتوانند برای همه عوامل کاربر نیز قابل اجرا باشند. در آن صورت، یک علامت عام استفاده می شود: User-agent: *.
دستور Disallow در ربات تی اکس تی
شما می توانید به موتورهای جستجو بگویید که به فایل ها، صفحات یا بخش های خاصی از وب سایت شما دسترسی نداشته باشند. این کار با استفاده از دستور Disallow انجام می شود. دستورالعمل Disallow مسیری را دنبال می کند که نباید به آن دسترسی داشت. اگر مسیری تعریف نشده باشد، دستورالعمل نادیده گرفته می شود.
مثال
User-agent: *
Disallow: /wp-admin/
در این مثال، به تمامی موتورهای جستجو دستور داده شده تا وارد دایرکتوری /wp-admin/ نشوند.
دستور Allow در ربات تی ایکس تی
دستورالعمل Allow برای مقابله با یک دستورالعمل Disallow استفاده می شود. دستورالعمل Allow توسط Google و Bing پشتیبانی میشود. با استفاده از دستورالعملهای Allow و Disallow میتوانید به موتورهای جستجو بگویید که میتوانند به یک فایل یا صفحه خاص در یک فهرست دسترسی داشته باشند یا نه؛ اگر دسترسی داشته باشند مجاز و در غیر این صورت غیرمجاز هستند. دستورالعمل Allow مسیری را دنبال می کند که می توان به آن دسترسی داشت. اگر مسیری تعریف نشده باشد، دستورالعمل نادیده گرفته می شود.
مثال
User-agent: *
Allow: /media/terms-and-conditions.pdf
Disallow: /media/
در مثال بالا هیچ یک از موتورهای جستجو اجازهی دسترسی به /media/ مگر برای فایل /media/terms-and-conditions.pdf را ندارند.
نکتهی مهم: هنگام استفادهی همزمان از دستورات Allow و Disallow مطمئن باشید از وایلدکارت ها استفاده نمیکنید؛ چرا که ممکن است دستورالعملهای ناقصی ایجاد کنند.
مثالی از دستورالعمل متناقض
User-agent: *
Allow: /directory
Disallow: *.html
موتورهای جستجو نمی دانند با http://www.domain.com/directory.html چه کنند. برای آنها مشخص نیست که آیا آنها اجازه دسترسی دارند یا خیر. وقتی دستورالعملها برای Google واضح نباشند، با کمترین دستورالعملهای محدودکننده پیش میروند، که در این مورد به این معنی است که آنها در واقع به این URL دسترسی خواهند داشت!!
مشاور سئو، Barry Adams، میگوید:
قوانین غیر مجاز در فایل ربات تی اکس تی سایت فوق العاده قدرتمند هستند، بنابراین باید با احتیاط رفتار کنید. برای برخی از سایتها، جلوگیری از خزیدن الگوهای URL خاص توسط موتورهای جستجو برای فعال کردن صفحات مناسب برای خزیدن و نمایهسازی بسیار مهم است؛ اما استفادهی نادرست از قوانین غیر مجاز میتواند به شدت به سئو سایت آسیب برساند.
یک خط جداگانه برای هر دستورالعمل
هر دستورالعمل باید در یک خط جداگانه باشد، در غیر این صورت ممکن است موتورهای جستجو هنگام تجزیه فایل ربات تی اکس تی دچار سردرگمی شوند.
مثالی از فایل ربات تی اکس تی نادرست
از فایل ربات txt مانند زیر جلوگیری کنید:
User-agent: * Disallow: /directory-1/ Disallow: /directory-2/ Disallow: /directory-3/
David Iwanow میگوید:
ربات تی اکس تی یکی از ویژگی هایی است که من اغلب می بینم که به اشتباه اجرا شده است، در نتیجه چیزی را که می خواستند مسدود کنند، مسدود نمی کند یا بیش از آنچه انتظار داشتند مسدود می کند و تأثیر منفی بر وب سایت آنها دارد. ربات تی اکس تی ابزار بسیار قدرتمندی است اما اغلب اوقات به درستی تنظیم نمی شود.
استفاده از wildcard *
نه تنها می توان از وایلدکارت ها برای تعریف user-agent استفاده کرد، بلکه می توان برای مطابقت با URL ها نیز امیشود از آنها استفاده کرد. وایلدکارتها توسط Google، Bing، Yahoo و Ask پشتیبانی می شود.
مثال
User-agent: *
Disallow: *?
در مثال بالا، هیچ یک از موتورهای جستجو اجازه دسترسی به URL هایی که دارای علامت سوال (؟) هستند، ندارند
Dawn Anderson میگوید:
به نظر می رسد توسعه دهندگان یا صاحبان سایت اغلب فکر می کنند که می توانند از هر گونه ابزار منظمی در یک فایل ربات تی اکس تی استفاده کنند، در حالی که تنها مقدار بسیار محدودی از تطبیق الگو معتبر است - برای مثال وایلدکارت ها (*). به نظر می رسد هر از گاهی بین فایل های .htaccess و فایل های ربات تی اکس تی سردرگمی وجود دارد.
استفاده از علامت دلار $ در انتهای URL
برای نشان دادن انتهای URL، می توانید از علامت دلار ($) در انتهای مسیر استفاده کنید.
مثال
User-agent: *
Disallow: *.php$
در مثال بالا، موتورهای جستجو اجازه دسترسی به همه URL هایی که با .php ختم می شوند را ندارند. آدرسهای اینترنتی مانند https://example.com/page.php?lang=en که دارای پارامتر هستند، غیرمجاز نیست، زیرا نشانی اینترنتی پس از php. به پایان نمی رسد.
اضافه کردن نقشه سایت به ربات تی اکس تی
اگرچه فایل ربات تی اکس تی اختراع شد تا به موتورهای جستجو بگوید در چه صفحاتی خزش نکنند، این فایل همچنین می تواند موتورهای جستجو را به سمت نقشه سایت XML هدایت کند! این موضوع توسط Google، Bing، Yahoo و Ask پشتیبانی می شود.
نقشه سایت XML باید به عنوان یک URL مطلق ارجاع داده شود. URL لازم نیست در همان هاستی باشد که فایل ربات تی اکس تی در آن قرار دارد.
ارجاع به XML در فایل ربات txt یکی از بهترین روش هایی است که به شما توصیه می کنیم همیشه انجام دهید، حتی اگر قبلاً XML خود را در کنسول جستجوی گوگل (Google Search Console) یا ابزار وب مستر بینگ (Bing Webmaster Tools) ارسال کرده باشید. به یاد داشته باشید، همیشه موتورهای جستجوی بیشتری وجود دارند!
لطفاً توجه داشته باشید که می توان به چندین XML در یک فایل ربات تی اکس تی اشاره کرد.
مثال ها
چندین XML تعریف شده در فایل ربات تی اکس تی:
نقشه سایت XML باید به عنوان URL مطلق ارجاع داده شود. URL لازم نیست در همان میزبانی که فایل ربات تی اکس تی قرار دارد باشد.
User-agent: *
Disallow: /wp-admin/
Sitemap: https://www.example.com/sitemap1.xml
Sitemap: https://www.example.com/sitemap2.xml
مثال بالا به همه موتورهای جستجو می گوید که به دایرکتوری /wp-admin/ دسترسی نداشته باشند و دو XML وجود دارد که می توانید آنها را در https://www.example.com/sitemap1.xml و یا در https://www.example.com/sitemap2.xml پیدا کنید.
یک نقشه سایت XML که در فایل ربات تی اکس تی تعریف شده است:
User-agent: *
Disallow: /wp-admin/
Sitemap: https://www.example.com/sitemap_index.xml
مثال بالا به همه موتورهای جستجو می گوید که به دایرکتوری /wp-admin/ دسترسی نداشته باشند و نقشه سایت XML را می توانند در https://www.example.com/sitemap_index.xml پیدا کنند.
کامنتها
کامنت ها قبل از یک # قرار می گیرند و می توانند در ابتدای یک خط یا بعد از یک دستورالعمل در همان خط قرار گیرند. همه چیز بعد از # نادیده گرفته می شود. این نظرات فقط برای انسان است.
مثال I
# Don't allow access to the /wp-admin/ directory for all ربات
User-agent: *
Disallow: /wp-admin/
مثال II
User-agent: * #Applies to all robots
Disallow: /wp-admin/ # Don't allow access to the /wp-admin/ directory.
مثالهای بالا هر دو یک منظور را میرسانند.
تاخیر خزیدن یا Crawl-delay در ربات تی اکس تی
دستورالعمل Crawl-Delay یک دستورالعمل غیر رسمی است که برای جلوگیری از بارگذاری بیش از حد سرورها با درخواست های زیاد استفاده می شود. اگر موتورهای جستجو قادر به بارگذاری بیش از حد سرور هستند، اضافه کردن Crawl-delay به فایل ربات تی اکس تی شما تنها یک راه حل موقت است. واقعیت این است که وب سایت شما در یک محیط میزبانی ضعیف اجرا می شود و/یا وب سایت شما به درستی پیکربندی نشده است و باید در اسرع وقت آن را برطرف کنید.
نمونه ربات txt با Crawl-delay مشخص شده برای Bing
Crawl-Delay و Google
خزندهی Google یا Googlebot، دستورالعمل Crawl-Delay را پشتیبانی نمی کند، بنابراین با تعریف Crawl-Delay برای Google خود را خسته نکنید. با این حال، گوگل از تعریف نرخ خزیدن (یا "نرخ درخواست" در صورت تمایل) در کنسول جستجوی گوگل یا Google Search Console پشتیبانی می کند.
تنظیم نرخ خزیدن (Crawl Rate) در Google Search Console:
به Google Search Console قدیمی وارد شوید
سایتی که میخواهید برای آن نرخ خزیدن را پیدا کند، وارد کنید.
در اینجا تنها یک تنظیمات وجود دارد که میتوانید آن را تغییر دهید: نرخ خزیدن، با یک نوار لغزنده که در آن میتوانید نرخ خزیدن ترجیحی را تنظیم کنید. بهطور پیشفرض نرخ خزیدن روی
«(Let Google optimize for my site (recommended» یا
"اجازه دهید Google برای سایت من بهینهسازی کند (توصیه میشود)"
تنظیم شده است.
Crawl-Delay و Bing، Yahoo و Yandex
بینگ، یاهو و یاندکس همگی از دستورالعمل Crawl-Delay برای جلوگیری از خزیدن یک وب سایت پشتیبانی می کنند. اما تفاسیر آنها از Crawl-Delay کمی متفاوت است، بنابراین حتما مستندات آنها را بررسی کنید
دستور Crawl-Delay باید درست بعد از دستورات Disallow یا Allow قرار گیرد.
مثال
User-agent: BingBot
Disallow: /private/
Crawl-delay: 10
Crawl-delay و Baidu
Baidu دستورالعمل crawl-delay را پشتیبانی نمی کند، با این حال می توان یک اکانت Baidu Webmaster Tools را ثبت کرد که در آن بتوانید فرکانس خزیدن را مانند کنسول جستجوی Google کنترل کنید.
چه زمانی از فایل ربات تی اکس تی استفاده کنیم؟
توصیه می کنیم همیشه از فایل ربات تی اکس تی استفاده کنید. داشتن آن هیچ ضرری ندارد و همچنین مکانی عالی برای ارائه دستورالعملهای موتورهای جستجو در مورد چگونگی بهتر خزیدن وبسایت شما هستند.
Montse Cano میگوید:
ربات تی اکس تی می تواند برای جلوگیری از خزیدن و ایندکس شدن برخی مناطق یا اسناد در سایت شما مفید باشد. سایت استیجینگ یا فایلهای پیدیاف مثالهایی هستند که میتوان به آن اشاره کرد. آنچه را که باید توسط موتورهای جستجو ایندکس شوند به دقت برنامه ریزی کنید و توجه داشته باشید که محتوایی که از طریق ربات تی اکس تی غیرقابل دسترسی است، در صورتی که از سایر قسمت های وب سایت به آن لینک داده شده باشد، ممکن است همچنان توسط خزنده های موتورهای جستجو پیدا شود.
بهترین روشهای ربات تی اکس تی
بهترین روشهای ربات تی اکس تی به شرح زیر طبقه بندی می شوند:
مکان و نام فایل
ترتیب اولویت
تنها یک گروه از دستورالعمل ها برای هر ربات
تا حد ممکن دقیق باشید
دستورالعملهایی برای همهی رباتها در حالی که دستورالعملهای یک ربات خاص را نیز شامل میشود
فایل ربات تی اکس تی برای هر دامنه و زیردامنه.
دستورالعمل های متناقض: ربات تی اکس تی در مقابل کنسول جستجوی Google
فایل ربات تی اکس تی خود را نظارت کنید
از noindex در ربات تی اکس تی خود استفاده نکنید
جلوگیری از UTF-8 BOM در فایل ربات تی اکس تی
مکان و نام فایل
فایل ربات تی اکس تی باید همیشه در ریشه یک وب سایت (در فهرست سطح بالای هاست) قرار گیرد و نام فایل ربات تی اکس تی را داشته باشد، به عنوان مثال: https://www.example.com/ربات تی اکس تی . توجه داشته باشید که URL فایل ربات تی اکس تی مانند هر URL دیگری به حروف بزرگ و کوچک حساس است.
اگر فایل ربات تی اکس تی در مکان پیشفرض یافت نشود، موتورهای جستجو فرض میکنند که هیچ دستورالعملی وجود ندارد و در وبسایت شما میخزند.
ترتیب اولویت
توجه به این نکته مهم است که موتورهای جستجو فایلهای ربات تی اکس تی را متفاوت مدیریت میکنند. به طور پیش فرض، اولین دستورالعمل مطابق همیشه برنده است.
با این حال، برای گوگل و بینگ، تمایزات و ویژگیها برنده هستند. به عنوان مثال: اگر طول کاراکتر Allow بیشتر از Disallow باشد، دستور Allow بر دستورالعمل Disallow پیروز می شود.
مثال I
User-agent: *
Allow: /about/company/
Disallow: /about/
در مثال بالا، همه موتورهای جستجو، از جمله گوگل و بینگ، به جز دایرکتوری فرعی /about/company/، اجازه دسترسی به فهرست /about/ را ندارند.
مثال II
User-agent: *
Disallow: /about/
Allow: /about/company/
در مثال بالا، هیچ یک از موتورهای جستجو به جز گوگل و بینگ، اجازه دسترسی به فهرست /about/ را ندارند. این دستور شامل دایرکتوری /about/company/ میشود.
Google و Bing مجاز به دسترسی هستند، زیرا دستورالعمل Allow طولانی تر از دستورالعمل Disallow است.
تنها یک گروه از دستورالعمل ها برای هر ربات
شما فقط می توانید یک گروه از دستورالعمل ها را در هر موتور جستجو تعریف کنید. داشتن چندین گروه از دستورالعمل ها برای یک موتور جستجو باعث سردرگمی آنها می شود.
تا حد ممکن دقیق باشید
دستور Disallow در موارد منطبق جزئی نیز فعال می شود. هنگام تعریف دستورالعمل Disallow تا حد امکان خاص باشید تا از عدم اجازه دسترسی ناخواسته به فایل ها جلوگیری کنید.
مثال
User-agent: *
Disallow: /directory
/directory
/directory/
/directory-name-1
/directory-name.html
/directory-name.php
/directory-name.pdf
مثال بالا اجازهی دسترسی موتورهای جستجو به را نمیدهد.
دستورالعملهایی برای همه رباتها در حالی که دستورالعملهای یک ربات خاص را نیز شامل میشود
برای یک ربات، تنها یک گروه از دستورالعملها معتبر است. اگر دستورالعملهای در نظر گرفته شده برای همه رباتها، از دستورالعملهای مربوط به یک ربات خاص پیروی کنند، تنها دستورالعملهای خاص هستند که مورد توجه قرار خواهند گرفت. برای اینکه یک ربات خاص نیز دستورالعملهای مربوط به همهی ربات ها را دنبال کند، باید این دستورالعمل ها را برای رباتهای خاص نیز تکرار کنید.
مثال
User-agent: *
Disallow: /secret/
Disallow: /test/
Disallow: /not-launched-yet/
User-agent: googlebot
Disallow: /not-launched-yet/
در مثال بالا هیچ یک از موتورهای جستجو به غیر از Google اجازهی دسترسی به /secret/ و /test/ و /not-launched-yet/ داده نشده است.
اگر نمیخواهید googlebot به /secret/ و /not-launched-yet/ دسترسی پیدا کند، باید این دستورالعملها را بهطور خاص برای googlebot تکرار کنید:
User-agent: *
Disallow: /secret/
Disallow: /test/
Disallow: /not-launched-yet/
User-agent: googlebot
Disallow: /secret/
Disallow: /not-launched-yet/
لطفاً توجه داشته باشید که فایل ربات تی اکس تی شما برای عموم در دسترس است. غیرمجاز کردن بخشهای وبسایت در آنجا میتواند بهعنوان یک نقطه ضعف برای حمله توسط افرادی با اهداف مخرب استفاده شود.
Patrick Stox می گوید
ربات تی اکس تی می تواند خطرناک باشد. شما نه تنها به موتورهای جستجو می گویید که نمی خواهید کجا نگاه کنند، بلکه به مردم می گویید اسرار خود را کجا پنهان می کنید.
فایل ربات تی اکس تی برای هر دامنه یا زیردامنه.
دستورالعملهای ربات تی اکس تی فقط برای دامنه یا زیر دامنهای که فایل در آن میزبانی میشود اعمال میشود.
مثال
http://example.com/ربات تی اکس تی برای http://example.com معتبر است، اما برای http://www.example.com یا https://example.com معتبر نیست.
بهترین روش این است که فقط یک فایل ربات تی اکس تی در دامنه یا زیردامنهی خود در دسترس باشد.
اگر چندین فایل ربات تی اکس تی در دسترس دارید، حتماً مطمئن شوید که وضعیت HTTP 404 را برمیگردانند یا آنها را به فایل canonical ربات تی اکس تی 301 هدایت کنید.
دستورالعمل های متناقض: ربات تی اکس تی در مقابل کنسول جستجوی Google
در صورتی که فایل ربات تی اکس تی شما با تنظیمات تعریف شده در Google Search Console مغایرت داشته باشد، گوگل اغلب استفاده از تنظیمات تعریف شده در GSC را به جای دستورالعمل های تعریف شده در فایل ربات تی اکس تی انتخاب می کند.
فایل ربات تی اکس تی خود را نظارت کنید
نظارت بر فایل ربات تی اکس تی برای تغییرات بسیار مهم است. امروزه، ما شاهد مشکلات زیادی هستیم که در آن دستورالعملهای نادرست و تغییرات ناگهانی در فایل ربات تی اکس تی باعث ایجاد مشکلات عمده در سئو میشوند.
این امر به ویژه در هنگام راهاندازی ویژگیهای جدید یا یک وبسایت جدید که در یک محیط آزمایشی آماده شده است صادق است، زیرا این موارد اغلب حاوی فایل ربات تی اکس تی زیر هستند:
User-agent: *
Disallow: /
از noindex در ربات تی اکس تی خود استفاده نکنید
برای سالها، گوگل آشکارا از استفاده از دستورالعمل غیررسمی noindex جلوگیری میکرد. با این حال، از 1 سپتامبر 2019، گوگل به طور کامل از آن پشتیبانی نمی کند.
دستورالعمل غیر رسمی noindex هرگز در بینگ کار نکرد، همانطور که فردریک دوبوت در این توییت تایید کرد: بهترین راه برای سیگنال دادن به موتورهای جستجو مبنی بر اینکه صفحات نباید ایندکس شوند، استفاده از تگ متا روبات یا X-Robots-Tag است.
جلوگیری از UTF-8 BOM در فایل ربات تی اکس تی
BOM مخفف byte order mark، یک کاراکتر نامرئی است که در ابتدای یک فایل که برای نشان دادن رمزگذاری Unicode یک فایل متنی استفاده می شود. در حالی که گوگل بیان میکند که علامت سفارش بایت یونیکد اختیاری در ابتدای فایل ربات تی اکس تی را نادیده میگیرد، توصیه میکنیم از "UTF-8 BOM" جلوگیری کنید زیرا مشاهده کردهایم که باعث ایجاد مشکلاتی در تفسیر فایل ربات تی اکس تی با موتورهای جستجو میشود. حتی اگر گوگل می گوید که می تواند با آن مقابله کند، همچنان دو دلیل برای جلوگیری از UTF-8 BOM وجود دارد: ۱- شما نمی خواهید هیچ ابهامی در مورد اولویتهای شما در مورد خزیدن در موتورهای جستجو وجود داشته باشد. ۲- موتورهای جستجوی دیگری نیز وجود دارند که ممکن است آنطور که گوگل ادعا می کند بخشنده نباشند.
نمونه های ربات تی اکس تی
در این بخش طیف گسترده ای از نمونههای فایل ربات تی اکس تی را پوشش خواهیم داد:
به همه رباتها اجازه دسترسی به همه چیز را بدهید
دسترسی همهی رباتها به همه چیز را ممنوع کنید
هیچ یک از رباتهای Google دسترسی ندارند
همه رباتهای Google، به غیر از Googlebot-news، دسترسی ندارند
Googlebot و Slurp هیچ گونه دسترسیای ندارند
همهی رباتها به دو فهرست دسترسی ندارند
همهی رباتها به یک فایل خاص دسترسی ندارند
Googlebot به /admin/ و Slurp به /private/ دسترسی ندارد
فایل ربات تی اکس تی برای WordPress
فایل ربات تی اکس تی برای Magento
به همه رباتها اجازه دسترسی به همه چیز را بدهید
راه های متعددی وجود دارد که به موتورهای جستجو بگویید می توانند به همه فایل ها دسترسی داشته باشند:
User-agent: *
Disallow:
یا داشتن فایل ربات تی اکس تی خالی یا اصلاً ربات تی اکس تی نداشتن.
دسترسی همهی رباتها به همه چیز را ممنوع کنید
مثال ربات تی اکس تی زیر به همه موتورهای جستجو می گوید که به کل سایت دسترسی نداشته باشند:
User-agent: *
Disallow: /
لطفاً توجه داشته باشید که فقط یک کاراکتر اضافی می تواند تفاوت را ایجاد کند.
هیچ یک از رباتهای Google دسترسی ندارند
User-agent: googlebot
Disallow: /
لطفاً توجه داشته باشید که هنگام غیرمجاز کردن Googlebot، این مورد برای همهی Googlebot ها صدق می کند. این موضوع شامل تمام رباتهای گوگل مانند اخبار (googlebot-news) و تصاویر (googlebot-images) میشود.
همه رباتهای Google، به غیر از Googlebot news، دسترسی ندارند.
User-agent: googlebot
Disallow: /
User-agent: googlebot-news
Disallow:
Googlebot و Slurp هیچ گونه دسترسیای ندارند.
User-agent: Slurp
User-agent: googlebot
Disallow: /
همهی رباتها به دو فهرست دسترسی ندارند.
User-agent: *
Disallow: /admin/
Disallow: /private/
همهی رباتها به یک فایل خاص دسترسی ندارند.
User-agent: *
Disallow: /directory/some-pdf.pdf
Googlebot به /admin/ و Slurp به /private/ دسترسی ندارد.
User-agent: googlebot
Disallow: /admin/
User-agent: Slurp
Disallow: /private/
فایل ربات تی اکس تی برای WordPress
فایل ربات تی اکس تی زیر به طور خاص برای وردپرس بهینه شده است، با این فرض:
شما نمی خواهید بخش مدیریت شما خزیده شود.
شما نمی خواهید صفحات نتایج جستجوی داخلی شما خزیده شوند.
شما نمی خواهید صفحات tag و نویسنده شما خزیده شوند.
شما نمی خواهید صفحه 404 شما خزیده شود.
User-agent: *
Disallow: /wp-admin/ #block access to admin section
Disallow: /wp-login.php #block access to admin section
Disallow: /search/ #block access to internal search result pages
Disallow: *?s=* #block access to internal search result pages
Disallow: *?p=* #block access to pages for which permalinks fails
Disallow: *&p=* #block access to pages for which permalinks fails
Disallow: *&preview=* #block access to preview pages
Disallow: /tag/ #block access to tag pages
Disallow: /author/ #block access to author pages
Disallow: /404-error/ #block access to 404 page
Sitemap: https://www.example.com/sitemap_index.xml
لطفاً توجه داشته باشید که این فایل ربات تی اکس تی در بیشتر موارد کار می کند، اما همیشه باید آن را تنظیم کرده و آزمایش کنید تا مطمئن شوید که دقیقاً در موقعیت شما به درستی عمل می کند.
فایل ربات تی اکس تی برای Magento
فایل ربات تی اکس تی زیر به طور خاص برای Magento بهینهسازی شده است و نتایج جستجوی داخلی، صفحات ورود به سیستم، شناسههای جلسه و مجموعههای نتایج فیلتر شده را که حاوی معیارهای قیمت، رنگ، متریال و اندازه هستند، برای خزندهها غیرقابل دسترس میسازد.
User-agent: *
Disallow: /catalogsearch/
Disallow: /search/
Disallow: /customer/account/login/
Disallow: /*?SID=
Disallow: /*?PHPSESSID=
Disallow: /*?price=
Disallow: /*&price=
Disallow: /*?color=
Disallow: /*&color=
Disallow: /*?material=
Disallow: /*&material=
Disallow: /*?size=
Disallow: /*&size=
Sitemap: https://www.example.com/sitemap_index.xml
لطفاً توجه داشته باشید که این فایل ربات تی اکس تی برای اکثر فروشگاههای Magento کار میکند، اما همیشه باید آن را تنظیم کرده و آزمایش کنید تا مطمئن شوید که دقیقاً در موقعیت شما به درستی عمل می کند.
Dawn Anderson میگوید:
من همچنان همیشه به دنبال مسدود کردن نتایج جستجوی داخلی در ربات تی اکس تی در هر سایتی هستم زیرا این نوع URL های جستجو فضاهایی بی نهایت و بی پایان هستند. پتانسیل بسیار زیادی برای Googlebot وجود دارد که در دام خزنده قرار گیرد.
محدودیت های فایل ربات تی اکس تی چیست؟
فایل ربات تی اکس تی حاوی دستورالعمل ها است
حتی اگر ربات تی اکس تی توسط موتورهای جستجو مورد احترام قرار میگیرد، اما هنوز یک دستورالعمل است و نه یک دستور.
صفحاتی که هنوز در نتایج جستجو ظاهر می شوند
صفحاتی که به دلیل ربات تی اکس تی برای موتورهای جستجو غیر قابل دسترسی هستند، اما لینکهایی به آنها وجود دارند، همچنان می توانند در نتایج جستجو ظاهر شوند اگر از صفحه ای که در آن خزیده شده است لینک داده شده باشد.
یک نکتهی حرفه ای!
حذف این URL ها از گوگل با استفاده از ابزار حذف URL کنسول جستجوی گوگل امکان پذیر است. حتما توجه داشته باشید که این URL ها فقط به طور موقت "پنهان" خواهند بود. برای اینکه آنها از صفحات نتایج گوگل خارج نشوند، باید هر 180 روز یک بار درخواستی برای پنهان کردن URL ها ارسال کنید.
Fili Wiese میگوید:
از ربات تی اکس تی برای بلاک کردن بک لینک های وابسته نامطلوب و احتمالا مضر استفاده کنید. از ربات تی اکس تی برای جلوگیری از ایندکس شدن محتوا توسط موتورهای جستجو استفاده نکنید، زیرا این امر به ناچار شکست خواهد خورد. درعوض در صورت لزوم، دستورالعمل روبات ها را noindex اعمال کنید.
فایل ربات تی اکس تی حداکثر تا 24 ساعت در حافظه پنهان ذخیره می شود!
گوگل اعلام کرده است که فایل ربات تی اکس تی به طور کلی تا 24 ساعت در حافظه پنهان (Cache) نگهداری می شود. هنگام ایجاد تغییرات در فایل ربات تی اکس تی، مهم است که این نکته را در نظر بگیرید.
مشخص نیست که دیگر موتورهای جستجو چگونه با کش (Cache) کردن ربات تی اکس تی برخورد می کنند، اما به طور کلی بهتر است از ذخیره فایل ربات تی اکس تی خودداری کنید تا موتورهای جستجو بیش از حد لازم برای دریافت تغییرات زمان نگذارند.
اندازه فایل ربات تی اکس تی
برای فایلهای ربات تی اکس تی، موتور جستجوگر Google در حال حاضر از محدودیت اندازه فایل 500 کیلو بایت (512 کیلوبایت) پشتیبانی میکند. هر محتوایی بیش از این مقدار ممکن است نادیده گرفته شود.
مشخص نیست که آیا سایر موتورهای جستجو دارای حداکثر اندازه فایل برای فایل های ربات تی اکس تی هستند یا خیر.
سوالات متداول درباره ربات تی اکس تی
🤖 مثال
ربات تی اکس تی چگونه است؟
در اینجا نمونه ای از محتوای ربات تی اکس تی آمده است:
User-agent:*
Disallow:
این دستور به همهی خزندهها می گوید که می توانند به همه چیز دسترسی داشته باشند.
Disallow all در ربات تی اکس تی چه کاری انجام می دهد؟
هنگامی که یک ربات تی اکس تی را روی "Disallow all" تنظیم می کنید، در اصل به همهی خزنده ها می گویید که از آن دوری کنند. هیچ خزنده ای از جمله گوگل اجازه دسترسی به سایت شما را ندارد. این بدان معناست که آنها قادر به خزیدن، ایندکس و رتبه بندی سایت شما نخواهند بود. این موضوع منجر به کاهش شدید ترافیک ارگانیک خواهد شد.
Allow all در ربات تی اکس تی چه کاری انجام می دهد؟
وقتی یک ربات تی اکس تی را روی "Allow all" تنظیم می کنید، به هر خزنده می گویید که می تواند به هر URL در سایت دسترسی داشته باشد. هیچ قاعده ای برای تعامل وجود ندارد. لطفاً توجه داشته باشید که این موضوع معادل داشتن ربات تی اکس تی خالی یا به طور کلی نداشتن ربات تی اکس تی است.
ربات تی اکس تی چقدر برای سئو مهم است؟
به طور کلی فایل ربات تی اکس تی برای اهداف سئو بسیار مهم است. برای وبسایتهای بزرگتر، ربات تی اکس تی برای ارائه دستورالعملهای بسیار واضح به موتورهای جستجو در مورد محتوایی که نباید دسترسی داشته باشند، ضروری است.
توضیحات ربات تی اکس تی چیست و چه کاربرد هایی دارد؟