متا تگ ربات تی اکس تی چیست؟ + کاربرد آن در سئو سایت

هنگام پیاده سازی ربات تی اکس تی، بهتر است روش های زیر را در نظر داشته باشید:

هنگام ایجاد تغییرات در ربات تی اکس تی خود مراقب باشید: این فایل این پتانسیل را دارد که بخش‌های بزرگی از وب‌سایت شما را برای موتورهای جستجو غیرقابل دسترس کند.

فایل ربات تی اکس تی باید در ریشه وب سایت شما قرار داشته باشد (به عنوان مثال http://www.example.com/ربات تی ایکس تی).

فایل ربات txt فقط برای دامنه کاملی که در آن قرار دارد، از جمله پروتکل (http یا https) معتبر است.

موتورهای جستجوی مختلف دستورالعمل ها را متفاوت تفسیر می کنند. به طور پیش فرض، اولین دستورالعمل مطابق همیشه برنده است. اما، با Google و Bing، ویژگی برنده است.

تا حد امکان از استفاده از دستورالعمل تاخیر خزیدن برای موتورهای جستجو خودداری کنید.

راهنمای فایل ربات تی اکس تی

یک فایل ربات تی اکس تی به موتورهای جستجو می‌گوید که قوانین تعامل وب سایت شما چیست. بخش بزرگی از انجام سئو تکنیکال سایت مربوط به ارسال سیگنال های مناسب به موتورهای جستجو است و ربات txt یکی از راه هایی است که می توانید ترجیحات خزیدن خود را به موتورهای جستجو منتقل کنید.

در سال 2019، شاهد پیشرفت‌های زیادی در مورد استاندارد ربات تی اکس تی بودیم: گوگل افزونه‌ای را برای پروتکل محرومیت ربات ‌ها پیشنهاد کرد و تجزیه‌کننده ربات txt خود را منبع باز یا open-source کرد.

در صورت وجود دستورالعمل‌های سردرگمی، Google در قسمت‌های امن اشتباه می‌کند و فرض می‌کند که بخش‌ها باید محدود شوند تا نامحدود.

موتورهای جستجو به طور مرتب فایل ربات تی اکس تی یک وب سایت را بررسی می کنند تا ببینند آیا دستورالعملی برای خزیدن در وب سایت وجود دارد یا خیر. به این راهنما، دستورالعمل گفته می‌شود.

اگر فایل ربات تی اکس تی وجود نداشته باشد یا دستورالعمل های قابل اجرا وجود نداشته باشد، موتورهای جستجو کل وب سایت را می خزند.

اگرچه همه موتورهای جستجوی اصلی به فایل ربات تی اکس تی احترام می گذارند، موتورهای جستجو ممکن است تصمیم بگیرند (بخش هایی از) فایل ربات تی اکس تی شما را نادیده بگیرند. در حالی که دستورالعمل‌های موجود در فایل ربات txt سیگنالی قوی برای موتورهای جستجو هستند، مهم است که به خاطر داشته باشید که فایل ربات تی ایکس تی مجموعه‌ای از دستورالعمل‌های اختیاری برای موتورهای جستجو است تا یک دستور.

اصطلاحات مربوط به فایل ربات تی اکس تی

فایل ربات تی اکس تی اجرای استاندارد حذف ربات‌ها است که پروتکل حذف ربات نیز نامیده می شود. چرا باید به ربات تی اکس تی اهمیت دهید؟ ربات تی ایکس تی از نقطه نظر SEO نقش اساسی دارد؛ چرا که به موتورهای جستجو می گوید که چگونه می توانند در وب سایت شما را به بهترین شکل بخزند. با استفاده از فایل ربات تی اکس تی می‌توانید از دسترسی موتورهای جستجو به بعضی از بخش‌های خاص وب‌سایت خود جلوگیری کنید، از محتواهای تکراری جلوگیری کنید و به موتورهای جستجو راهنمایی‌های مفیدی در مورد اینکه چگونه می‌توانند وب‌سایت شما را به طور مؤثرتر بخزند، ارائه دهید. با این حال، هنگام ایجاد تغییرات در ربات txt خود مراقب باشید: این فایل این پتانسیل را دارد که بخش‌های بزرگی از وب‌سایت شما را برای موتورهای جستجو غیرقابل دسترس کند. مدیر سئو ، Gerry White ، می‌گوید: ربات تی ایکس تی اغلب برای کاهش محتوای تکراری بیش از حد مورد استفاده قرار می‌گیرد، در نتیجه لینک سازی‌های داخلی را از بین می‌برد، بنابراین واقعا مراقب آن باشید. توصیه من این است که همیشه از آن برای فایل‌ها یا صفحاتی استفاده کنید که موتورهای جستجو هرگز نباید آن‌ها را ببینند، یا ممکن است خزیدن در آن‌ها باعث ایجاد دردسر برای شما شود! برای مثال نواحی ورود به سیستم که URL های مختلف را شامل می‌شوند یا نواحی آزمایشی یا مکان‌هایی که مسیریابی چند وجهی می‌تواند وجود داشته باشد. مطمئن شوید که فایل ربات تی ایکس تی خود را برای هرگونه مشکل یا تغییر زیر نظر داشته باشید. تکنسین سئو، Paul Shapiro ، می‌گوید: اکثر مشکلاتی که من با فایل های ربات تی اکس تی می بینم در سه دسته قرار می گیرند:

سوء استفاده از وایلد کارت ها. این موضوع نسبتاً معمول است که قسمت‌هایی از سایت را مسدود شده ببینید در حالی که قرار بود مسدود شوند! گاهی اوقات، اگر مراقب نباشید، دستورالعمل ها نیز می توانند با یکدیگر تضاد داشته باشند.
شخصی، مانند یک توسعه‌دهنده، تغییری غیرمعمول ایجاد کرده است (اغلب هنگام ورود کدهای جدید) و بدون اطلاع شما سهواً ربات txt را تغییر داده است.
گنجاندن دستورالعمل‌هایی که به فایل ربات تی اکس تی تعلق ندارند. ربات تی اکس تی برای وب استاندارد است و تقریبا محدود است. من اغلب می بینم که توسعه دهندگان دستورالعمل هایی را ارائه می دهند که به سادگی کار نمی کنند (حداقل برای تعداد زیادی از خزنده‌ها). گاهی اوقات بی ضرر است، گاهی اوقات چندان بدون ضرر نیست!
بیایید با یک مثال این موضوع را روشن‌تر کنیم: شما یک وبسایت با موضوع تجارت الکترونیک (اصطلاحا یک سایت فروشگاهی) راه اندازی کردید و بازدیدکنندگان می‌توانند از یک فیلتر برای جستجوی راحت بین محصولات شما استفاده کنند. این فیلتر صفحاتی را تولید می کند که اساساً همان محتوایی را که صفحات دیگر نشان می دهند، نشان می دهد. این فیلترها برای کاربران عالی هستند، اما موتورهای جستجو را گیج می کند زیرا محتوای تکراری ایجاد می کنند. شما نمی خواهید موتورهای جستجو این صفحات فیلتر شده را ایندکس کنند و وقت ارزشمندشان را روی این URL ها با محتوای فیلتر شده تلف کنند. بنابراین، باید قوانین Disallow را تنظیم کنید تا موتورهای جستجو به این صفحات محصول فیلتر شده دسترسی نداشته باشند. جلوگیری از محتوای تکراری نیز می‌تواند با استفاده از URL متعارف یا تگ متا روبات‌ها انجام شود، اما اینها به موتورهای جستجو اجازه نمی‌دهند که فقط صفحات مهم را بخزند. استفاده از URL متعارف یا تگ متا روبات ها مانع از خزیدن موتورهای جستجو در این صفحات نمی شود و فقط از نمایش این صفحات در نتایج جستجو توسط موتورهای جستجو جلوگیری می کند. از آنجایی که موتورهای جستجو زمان محدودی برای خزیدن یک وب سایت دارند، این زمان باید صرف صفحاتی شود که می خواهید در موتورهای جستجو ظاهر شوند. ربات تی اکس تی یک ابزار بسیار ساده است، اما در صورتی که به درستی پیکربندی نشود، می تواند مشکلات زیادی، به خصوص برای وب سایت های بزرگتر، ایجاد کند. اشتباهاتی مانند مسدود کردن کل سایت پس از ارائه یک طراحی جدید یا CMS، یا مسدود نکردن بخش هایی از سایت که باید خصوصی باشد از مشکلاتی است که عدم پیکربندی مناسب ربات txt برای شما ایجاد می‌کند. برای وب‌سایت‌های بزرگ‌تر، اطمینان از خزیدن کارآمد Google بسیار مهم است و یک فایل ربات تی اکس تی با ساختار مناسب ابزاری ضروری در این فرآیند است. شما باید زمان بگذارید تا بفهمید کدام بخش از سایت شما بهتر است از گوگل دور نگه داشته شود تا آنها تا حد ممکن منابع خود را صرف خزیدن در صفحاتی کنند که واقعا برای شما حائز اهمیت است.

یک فایل ربات تی اکس تی چه شکلی است؟

مثال زیر یک نمونه از فایل ربات تی اکس تی برای یک سایت وردپرسی است:

User-agent: *

Disallow: /wp-admin/

User-agent نشان می دهد که دستورالعمل های زیر برای کدام موتورهای جستجو در نظر گرفته شده است.

* نشان می‌دهد که دستورالعمل ها برای همه موتورهای جستجو در نظر گرفته شده است.

Dissallow دستورالعملی است که نشان می دهد چه محتوایی برای User-agent قابل دسترسی نیست.

/wp-admin/ یک path یا یک مسیر است که برای User-agent قابل دسترسی نیست.

به طور خلاصه: فایل ربات تی اکس تی به همه موتورهای جستجو می گوید که از فهرست /wp-admin/ خارج شوند.

بیایید اجزای مختلف فایل‌های ربات تی اکس تی را با جزئیات بیشتری تجزیه و تحلیل کنیم:

User-agent در ربات تی اکس تی
هر موتور جستجو باید خود را با یک عامل کاربر یا user-agent شناسایی کند. ربات های گوگل به عنوان Googlebot، ربات های یاهو به عنوان Slurp و ربات Bing به عنوان BingBot وغیره شناخته می شوند.

رکورد user-agent شروع گروهی از دستورالعمل ها را تعریف می کند. همه دستورات بین اولین کاربر عامل و عامل کاربر بعدی به عنوان دستورالعمل برای اولین عامل کاربر یا user-agent تلقی می شوند.

دستورالعمل‌ها می‌توانند در مورد عوامل کاربر خاص اعمال شوند، اما می‌توانند برای همه عوامل کاربر نیز قابل اجرا باشند. در آن صورت، یک علامت عام استفاده می شود: User-agent: *.

دستور Disallow در ربات تی اکس تی
شما می توانید به موتورهای جستجو بگویید که به فایل ها، صفحات یا بخش های خاصی از وب سایت شما دسترسی نداشته باشند. این کار با استفاده از دستور Disallow انجام می شود. دستورالعمل Disallow مسیری را دنبال می کند که نباید به آن دسترسی داشت. اگر مسیری تعریف نشده باشد، دستورالعمل نادیده گرفته می شود.

مثال

User-agent: *

Disallow: /wp-admin/

در این مثال، به تمامی موتورهای جستجو دستور داده شده تا وارد دایرکتوری /wp-admin/ نشوند.

دستور Allow در ربات تی ایکس تی
دستورالعمل Allow برای مقابله با یک دستورالعمل Disallow استفاده می شود. دستورالعمل Allow توسط Google و Bing پشتیبانی می‌شود. با استفاده از دستورالعمل‌های Allow و Disallow می‌توانید به موتورهای جستجو بگویید که می‌توانند به یک فایل یا صفحه خاص در یک فهرست دسترسی داشته باشند یا نه؛ اگر دسترسی داشته باشند مجاز و در غیر این صورت غیرمجاز هستند. دستورالعمل Allow مسیری را دنبال می کند که می توان به آن دسترسی داشت. اگر مسیری تعریف نشده باشد، دستورالعمل نادیده گرفته می شود.

مثال

User-agent: *

Allow: /media/terms-and-conditions.pdf

Disallow: /media/

در مثال بالا هیچ یک از موتورهای جستجو اجازه‌ی دسترسی به /media/ مگر برای فایل /media/terms-and-conditions.pdf را ندارند.
نکته‌ی مهم: هنگام استفاده‌ی همزمان از دستورات Allow و Disallow مطمئن باشید از وایلدکارت ها استفاده نمی‌کنید؛ چرا که ممکن است دستورالعمل‌های ناقصی ایجاد کنند.

مثالی از دستورالعمل متناقض

User-agent: *

Allow: /directory

Disallow: *.html

موتورهای جستجو نمی دانند با http://www.domain.com/directory.html چه کنند. برای آنها مشخص نیست که آیا آنها اجازه دسترسی دارند یا خیر. وقتی دستورالعمل‌ها برای Google واضح نباشند، با کمترین دستورالعمل‌های محدودکننده پیش می‌روند، که در این مورد به این معنی است که آنها در واقع به این URL دسترسی خواهند داشت!!

مشاور سئو، Barry Adams، می‌گوید:

قوانین غیر مجاز در فایل ربات تی اکس تی سایت فوق العاده قدرتمند هستند، بنابراین باید با احتیاط رفتار کنید. برای برخی از سایت‌ها، جلوگیری از خزیدن الگوهای URL خاص توسط موتورهای جستجو برای فعال کردن صفحات مناسب برای خزیدن و نمایه‌سازی بسیار مهم است؛ اما استفاده‌ی نادرست از قوانین غیر مجاز می‌تواند به شدت به سئو سایت آسیب برساند.

یک خط جداگانه برای هر دستورالعمل
هر دستورالعمل باید در یک خط جداگانه باشد، در غیر این صورت ممکن است موتورهای جستجو هنگام تجزیه فایل ربات تی اکس تی دچار سردرگمی شوند.

مثالی از فایل ربات تی اکس تی نادرست

از فایل ربات txt مانند زیر جلوگیری کنید:

User-agent: * Disallow: /directory-1/ Disallow: /directory-2/ Disallow: /directory-3/

David Iwanow می‌گوید:

ربات تی اکس تی یکی از ویژگی هایی است که من اغلب می بینم که به اشتباه اجرا شده است، در نتیجه چیزی را که می خواستند مسدود کنند، مسدود نمی کند یا بیش از آنچه انتظار داشتند مسدود می کند و تأثیر منفی بر وب سایت آنها دارد. ربات تی اکس تی ابزار بسیار قدرتمندی است اما اغلب اوقات به درستی تنظیم نمی شود.

استفاده از wildcard *
نه تنها می توان از وایلدکارت ها برای تعریف user-agent استفاده کرد، بلکه می توان برای مطابقت با URL ها نیز امی‌شود از آن‌ها استفاده کرد. وایلدکارت‌ها توسط Google، Bing، Yahoo و Ask پشتیبانی می شود.

مثال

User-agent: *

Disallow: *?

در مثال بالا، هیچ یک از موتورهای جستجو اجازه دسترسی به URL هایی که دارای علامت سوال (؟) هستند، ندارند

Dawn Anderson می‌گوید:

به نظر می رسد توسعه دهندگان یا صاحبان سایت اغلب فکر می کنند که می توانند از هر گونه ابزار منظمی در یک فایل ربات تی اکس تی استفاده کنند، در حالی که تنها مقدار بسیار محدودی از تطبیق الگو معتبر است - برای مثال وایلدکارت ها (*). به نظر می رسد هر از گاهی بین فایل های .htaccess و فایل های ربات تی اکس تی سردرگمی وجود دارد.

استفاده از علامت دلار $ در انتهای URL
برای نشان دادن انتهای URL، می توانید از علامت دلار ($) در انتهای مسیر استفاده کنید.

مثال

User-agent: *

Disallow: *.php$

در مثال بالا، موتورهای جستجو اجازه دسترسی به همه URL هایی که با .php ختم می شوند را ندارند. آدرس‌های اینترنتی مانند https://example.com/page.php?lang=en که دارای پارامتر هستند، غیرمجاز نیست، زیرا نشانی اینترنتی پس از php. به پایان نمی رسد.

اضافه کردن نقشه سایت به ربات تی اکس تی

اگرچه فایل ربات تی اکس تی اختراع شد تا به موتورهای جستجو بگوید در چه صفحاتی خزش نکنند، این فایل همچنین می تواند موتورهای جستجو را به سمت نقشه سایت XML هدایت کند! این موضوع توسط Google، Bing، Yahoo و Ask پشتیبانی می شود.

نقشه سایت XML باید به عنوان یک URL مطلق ارجاع داده شود. URL لازم نیست در همان هاستی باشد که فایل ربات تی اکس تی در آن قرار دارد.

ارجاع به XML در فایل ربات txt یکی از بهترین روش هایی است که به شما توصیه می کنیم همیشه انجام دهید، حتی اگر قبلاً XML خود را در کنسول جستجوی گوگل (Google Search Console) یا ابزار وب مستر بینگ (Bing Webmaster Tools) ارسال کرده باشید. به یاد داشته باشید، همیشه موتورهای جستجوی بیشتری وجود دارند!

لطفاً توجه داشته باشید که می توان به چندین XML در یک فایل ربات تی اکس تی اشاره کرد.

مثال ها

چندین XML تعریف شده در فایل ربات تی اکس تی:

نقشه سایت XML باید به عنوان URL مطلق ارجاع داده شود. URL لازم نیست در همان میزبانی که فایل ربات تی اکس تی قرار دارد باشد.

User-agent: *

Disallow: /wp-admin/

Sitemap: https://www.example.com/sitemap1.xml

Sitemap: https://www.example.com/sitemap2.xml

مثال بالا به همه موتورهای جستجو می گوید که به دایرکتوری /wp-admin/ دسترسی نداشته باشند و دو XML وجود دارد که می توانید آنها را در https://www.example.com/sitemap1.xml و یا در https://www.example.com/sitemap2.xml پیدا کنید.

یک نقشه سایت XML که در فایل ربات تی اکس تی تعریف شده است:

User-agent: *

Disallow: /wp-admin/

Sitemap: https://www.example.com/sitemap_index.xml

مثال بالا به همه موتورهای جستجو می گوید که به دایرکتوری /wp-admin/ دسترسی نداشته باشند و نقشه سایت XML را می توانند در https://www.example.com/sitemap_index.xml پیدا کنند.

کامنت‌ها
کامنت ها قبل از یک # قرار می گیرند و می توانند در ابتدای یک خط یا بعد از یک دستورالعمل در همان خط قرار گیرند. همه چیز بعد از # نادیده گرفته می شود. این نظرات فقط برای انسان است.

مثال I

# Don't allow access to the /wp-admin/ directory for all ربات

User-agent: *

Disallow: /wp-admin/

مثال II

User-agent: * #Applies to all robots

Disallow: /wp-admin/ # Don't allow access to the /wp-admin/ directory.

مثال‌های بالا هر دو یک منظور را می‌رسانند.

تاخیر خزیدن یا Crawl-delay در ربات تی اکس تی

دستورالعمل Crawl-Delay یک دستورالعمل غیر رسمی است که برای جلوگیری از بارگذاری بیش از حد سرورها با درخواست های زیاد استفاده می شود. اگر موتورهای جستجو قادر به بارگذاری بیش از حد سرور هستند، اضافه کردن Crawl-delay به فایل ربات تی اکس تی شما تنها یک راه حل موقت است. واقعیت این است که وب سایت شما در یک محیط میزبانی ضعیف اجرا می شود و/یا وب سایت شما به درستی پیکربندی نشده است و باید در اسرع وقت آن را برطرف کنید.

نمونه ربات txt با Crawl-delay مشخص شده برای Bing

Crawl-Delay و Google

خزنده‌ی Google یا Googlebot، دستورالعمل Crawl-Delay را پشتیبانی نمی کند، بنابراین با تعریف Crawl-Delay برای Google خود را خسته نکنید.

با این حال، گوگل از تعریف نرخ خزیدن (یا "نرخ درخواست" در صورت تمایل) در کنسول جستجوی گوگل یا Google Search Console پشتیبانی می کند.

تنظیم نرخ خزیدن (Crawl Rate) در Google Search Console:

به Google Search Console قدیمی وارد شوید
سایتی که می‌خواهید برای آن نرخ خزیدن را پیدا کند، وارد کنید.
در اینجا تنها یک تنظیمات وجود دارد که می‌توانید آن را تغییر دهید: نرخ خزیدن، با یک نوار لغزنده که در آن می‌توانید نرخ خزیدن ترجیحی را تنظیم کنید. به‌طور پیش‌فرض نرخ خزیدن روی
«(Let Google optimize for my site (recommended» یا

"اجازه دهید Google برای سایت من بهینه‌سازی کند (توصیه می‌شود)"

تنظیم شده است.

Crawl-Delay و Bing، Yahoo و Yandex

بینگ، یاهو و یاندکس همگی از دستورالعمل Crawl-Delay برای جلوگیری از خزیدن یک وب سایت پشتیبانی می کنند. اما تفاسیر آنها از Crawl-Delay کمی متفاوت است، بنابراین حتما مستندات آنها را بررسی کنید

دستور Crawl-Delay باید درست بعد از دستورات Disallow یا Allow قرار گیرد.

مثال

User-agent: BingBot

Disallow: /private/

Crawl-delay: 10

Crawl-delay و Baidu
Baidu دستورالعمل crawl-delay را پشتیبانی نمی کند، با این حال می توان یک اکانت Baidu Webmaster Tools را ثبت کرد که در آن بتوانید فرکانس خزیدن را مانند کنسول جستجوی Google کنترل کنید.

چه زمانی از فایل ربات تی اکس تی استفاده کنیم؟

توصیه می کنیم همیشه از فایل ربات تی اکس تی استفاده کنید. داشتن آن هیچ ضرری ندارد و همچنین مکانی عالی برای ارائه دستورالعمل‌های موتورهای جستجو در مورد چگونگی بهتر خزیدن وب‌سایت شما هستند.

Montse Cano می‌گوید:

ربات تی اکس تی می تواند برای جلوگیری از خزیدن و ایندکس شدن برخی مناطق یا اسناد در سایت شما مفید باشد. سایت استیجینگ یا فایل‌های پی‌دی‌اف مثال‌هایی هستند که می‌توان به آن اشاره کرد. آنچه را که باید توسط موتورهای جستجو ایندکس شوند به دقت برنامه ریزی کنید و توجه داشته باشید که محتوایی که از طریق ربات تی اکس تی غیرقابل دسترسی است، در صورتی که از سایر قسمت های وب سایت به آن لینک داده شده باشد، ممکن است همچنان توسط خزنده های موتورهای جستجو پیدا شود.

بهترین روش‌های ربات تی اکس تی
بهترین روش‌های ربات تی اکس تی به شرح زیر طبقه بندی می شوند:
مکان و نام فایل
ترتیب اولویت
تنها یک گروه از دستورالعمل ها برای هر ربات
تا حد ممکن دقیق باشید
دستورالعمل‌هایی برای همه‌ی ربات‌ها در حالی که دستورالعمل‌های یک ربات خاص را نیز شامل می‌شود
فایل ربات تی اکس تی برای هر دامنه و زیردامنه.
دستورالعمل های متناقض: ربات تی اکس تی در مقابل کنسول جستجوی Google
فایل ربات تی اکس تی خود را نظارت کنید
از noindex در ربات تی اکس تی خود استفاده نکنید
جلوگیری از UTF-8 BOM در فایل ربات تی اکس تی
مکان و نام فایل
فایل ربات تی اکس تی باید همیشه در ریشه یک وب سایت (در فهرست سطح بالای هاست) قرار گیرد و نام فایل ربات تی اکس تی را داشته باشد، به عنوان مثال: https://www.example.com/ربات تی اکس تی . توجه داشته باشید که URL فایل ربات تی اکس تی مانند هر URL دیگری به حروف بزرگ و کوچک حساس است.

اگر فایل ربات تی اکس تی در مکان پیش‌فرض یافت نشود، موتورهای جستجو فرض می‌کنند که هیچ دستورالعملی وجود ندارد و در وب‌سایت شما می‌خزند.

ترتیب اولویت

توجه به این نکته مهم است که موتورهای جستجو فایل‌های ربات تی اکس تی را متفاوت مدیریت می‌کنند. به طور پیش فرض، اولین دستورالعمل مطابق همیشه برنده است.

با این حال، برای گوگل و بینگ، تمایزات و ویژگی‌ها برنده هستند. به عنوان مثال: اگر طول کاراکتر Allow بیشتر از Disallow باشد، دستور Allow بر دستورالعمل Disallow پیروز می شود.

مثال I

User-agent: *

Allow: /about/company/

Disallow: /about/

در مثال بالا، همه موتورهای جستجو، از جمله گوگل و بینگ، به جز دایرکتوری فرعی /about/company/، اجازه دسترسی به فهرست /about/ را ندارند.

مثال II

User-agent: *

Disallow: /about/

Allow: /about/company/

در مثال بالا، هیچ یک از موتورهای جستجو به جز گوگل و بینگ، اجازه دسترسی به فهرست /about/ را ندارند. این دستور شامل دایرکتوری /about/company/ می‌شود.

Google و Bing مجاز به دسترسی هستند، زیرا دستورالعمل Allow طولانی تر از دستورالعمل Disallow است.

تنها یک گروه از دستورالعمل ها برای هر ربات

شما فقط می توانید یک گروه از دستورالعمل ها را در هر موتور جستجو تعریف کنید. داشتن چندین گروه از دستورالعمل ها برای یک موتور جستجو باعث سردرگمی آنها می شود.

تا حد ممکن دقیق باشید

دستور Disallow در موارد منطبق جزئی نیز فعال می شود. هنگام تعریف دستورالعمل Disallow تا حد امکان خاص باشید تا از عدم اجازه دسترسی ناخواسته به فایل ها جلوگیری کنید.

مثال

User-agent: *

Disallow: /directory

/directory

/directory/

/directory-name-1

/directory-name.html

/directory-name.php

/directory-name.pdf

مثال بالا اجازه‌ی دسترسی موتورهای جستجو به را نمی‌دهد.

دستورالعمل‌هایی برای همه ربات‌ها در حالی که دستورالعمل‌های یک ربات خاص را نیز شامل می‌شود
برای یک ربات، تنها یک گروه از دستورالعمل‌ها معتبر است. اگر دستورالعمل‌های در نظر گرفته شده برای همه ربات‌ها، از دستورالعمل‌های مربوط به یک ربات خاص پیروی کنند، تنها دستورالعمل‌های خاص هستند که مورد توجه قرار خواهند گرفت. برای اینکه یک ربات خاص نیز دستورالعمل‌های مربوط به همه‌ی ربات ها را دنبال کند، باید این دستورالعمل ها را برای ربات‌های خاص نیز تکرار کنید.

مثال

User-agent: *

Disallow: /secret/

Disallow: /test/

Disallow: /not-launched-yet/

User-agent: googlebot

Disallow: /not-launched-yet/

در مثال بالا هیچ یک از موتورهای جستجو به غیر از Google اجازه‌ی دسترسی به /secret/ و /test/ و /not-launched-yet/ داده نشده است.

اگر نمی‌خواهید googlebot به /secret/ و /not-launched-yet/ دسترسی پیدا کند، باید این دستورالعمل‌ها را به‌طور خاص برای googlebot تکرار کنید:

User-agent: *

Disallow: /secret/

Disallow: /test/

Disallow: /not-launched-yet/

User-agent: googlebot

Disallow: /secret/

Disallow: /not-launched-yet/

لطفاً توجه داشته باشید که فایل ربات تی اکس تی شما برای عموم در دسترس است. غیرمجاز کردن بخش‌های وب‌سایت در آنجا می‌تواند به‌عنوان یک نقطه ضعف برای حمله توسط افرادی با اهداف مخرب استفاده شود.

Patrick Stox می گوید

ربات تی اکس تی می تواند خطرناک باشد. شما نه تنها به موتورهای جستجو می گویید که نمی خواهید کجا نگاه کنند، بلکه به مردم می گویید اسرار خود را کجا پنهان می کنید.

فایل ربات تی اکس تی برای هر دامنه یا زیردامنه.
دستورالعمل‌های ربات تی اکس تی فقط برای دامنه یا زیر دامنه‌ای که فایل در آن میزبانی می‌شود اعمال می‌شود.

مثال

http://example.com/ربات تی اکس تی برای http://example.com معتبر است، اما برای http://www.example.com یا https://example.com معتبر نیست.

بهترین روش این است که فقط یک فایل ربات تی اکس تی در دامنه یا زیردامنه‌ی خود در دسترس باشد.

اگر چندین فایل ربات تی اکس تی در دسترس دارید، حتماً مطمئن شوید که وضعیت HTTP 404 را برمی‌گردانند یا آنها را به فایل canonical ربات تی اکس تی 301 هدایت کنید.

دستورالعمل های متناقض: ربات تی اکس تی در مقابل کنسول جستجوی Google
در صورتی که فایل ربات تی اکس تی شما با تنظیمات تعریف شده در Google Search Console مغایرت داشته باشد، گوگل اغلب استفاده از تنظیمات تعریف شده در GSC را به جای دستورالعمل های تعریف شده در فایل ربات تی اکس تی انتخاب می کند.

فایل ربات تی اکس تی خود را نظارت کنید
نظارت بر فایل ربات تی اکس تی برای تغییرات بسیار مهم است. امروزه، ما شاهد مشکلات زیادی هستیم که در آن دستورالعمل‌های نادرست و تغییرات ناگهانی در فایل ربات تی اکس تی باعث ایجاد مشکلات عمده در سئو می‌شوند.

این امر به ویژه در هنگام راه‌اندازی ویژگی‌های جدید یا یک وب‌سایت جدید که در یک محیط آزمایشی آماده شده است صادق است، زیرا این موارد اغلب حاوی فایل ربات تی اکس تی زیر هستند:

User-agent: *

Disallow: /

از noindex در ربات تی اکس تی خود استفاده نکنید
برای سال‌ها، گوگل آشکارا از استفاده از دستورالعمل غیررسمی noindex جلوگیری می‌کرد. با این حال، از 1 سپتامبر 2019، گوگل به طور کامل از آن پشتیبانی نمی کند.

دستورالعمل غیر رسمی noindex هرگز در بینگ کار نکرد، همانطور که فردریک دوبوت در این توییت تایید کرد:

بهترین راه برای سیگنال دادن به موتورهای جستجو مبنی بر اینکه صفحات نباید ایندکس شوند، استفاده از تگ متا روبات یا X-Robots-Tag است.

جلوگیری از UTF-8 BOM در فایل ربات تی اکس تی

BOM مخفف byte order mark، یک کاراکتر نامرئی است که در ابتدای یک فایل که برای نشان دادن رمزگذاری Unicode یک فایل متنی استفاده می شود.

در حالی که گوگل بیان می‌کند که علامت سفارش بایت یونیکد اختیاری در ابتدای فایل ربات تی اکس تی را نادیده می‌گیرد، توصیه می‌کنیم از "UTF-8 BOM" جلوگیری کنید زیرا مشاهده کرده‌ایم که باعث ایجاد مشکلاتی در تفسیر فایل ربات تی اکس تی با موتورهای جستجو می‌شود.

حتی اگر گوگل می گوید که می تواند با آن مقابله کند، همچنان دو دلیل برای جلوگیری از UTF-8 BOM وجود دارد:

شما نمی خواهید هیچ ابهامی در مورد اولویت‌های شما در مورد خزیدن در موتورهای جستجو وجود داشته باشد.

موتورهای جستجوی دیگری نیز وجود دارند که ممکن است آنطور که گوگل ادعا می کند بخشنده نباشند.

نمونه های ربات تی اکس تی
در این بخش طیف گسترده ای از نمونه‌های فایل ربات تی اکس تی را پوشش خواهیم داد:

به همه ربات‌ها اجازه دسترسی به همه چیز را بدهید
دسترسی همه‌ی ربات‌ها به همه چیز را ممنوع کنید
هیچ یک از ربات‌های Google دسترسی ندارند
همه ربات‌های Google، به غیر از Googlebot-news، دسترسی ندارند
Googlebot و Slurp هیچ گونه دسترسی‌ای ندارند
همه‌ی ربات‌ها به دو فهرست دسترسی ندارند
همه‌ی ربات‌ها به یک فایل خاص دسترسی ندارند
Googlebot به /admin/ و Slurp به /private/ دسترسی ندارد
فایل ربات تی اکس تی برای WordPress
فایل ربات تی اکس تی برای Magento

به همه ربات‌ها اجازه دسترسی به همه چیز را بدهید

راه های متعددی وجود دارد که به موتورهای جستجو بگویید می توانند به همه فایل ها دسترسی داشته باشند:

User-agent: *

Disallow:

یا داشتن فایل ربات تی اکس تی خالی یا اصلاً ربات تی اکس تی نداشتن.

دسترسی همه‌ی ربات‌ها به همه چیز را ممنوع کنید
مثال ربات تی اکس تی زیر به همه موتورهای جستجو می گوید که به کل سایت دسترسی نداشته باشند:

User-agent: *

Disallow: /

لطفاً توجه داشته باشید که فقط یک کاراکتر اضافی می تواند تفاوت را ایجاد کند.

هیچ یک از ربات‌های Google دسترسی ندارند
User-agent: googlebot

Disallow: /

لطفاً توجه داشته باشید که هنگام غیرمجاز کردن Googlebot، این مورد برای همه‌ی Googlebot ها صدق می کند. این موضوع شامل تمام ربات‌های گوگل مانند اخبار (googlebot-news) و تصاویر (googlebot-images) می‌شود.

همه ربات‌های Google، به غیر از Googlebot news، دسترسی ندارند.

User-agent: googlebot

Disallow: /

User-agent: googlebot-news

Disallow:

Googlebot و Slurp هیچ گونه دسترسی‌ای ندارند.

User-agent: Slurp

User-agent: googlebot

Disallow: /

همه‌ی ربات‌ها به دو فهرست دسترسی ندارند.
User-agent: *

Disallow: /admin/

Disallow: /private/

همه‌ی ربات‌ها به یک فایل خاص دسترسی ندارند.
User-agent: *

Disallow: /directory/some-pdf.pdf

Googlebot به /admin/ و Slurp به /private/ دسترسی ندارد.
User-agent: googlebot

Disallow: /admin/

User-agent: Slurp

Disallow: /private/

فایل ربات تی اکس تی برای WordPress
فایل ربات تی اکس تی زیر به طور خاص برای وردپرس بهینه شده است، با این فرض:

شما نمی خواهید بخش مدیریت شما خزیده شود.
شما نمی خواهید صفحات نتایج جستجوی داخلی شما خزیده شوند.
شما نمی خواهید صفحات tag و نویسنده شما خزیده شوند.
شما نمی خواهید صفحه 404 شما خزیده شود.
User-agent: *

Disallow: /wp-admin/ #block access to admin section

Disallow: /wp-login.php #block access to admin section

Disallow: /search/ #block access to internal search result pages

Disallow: *?s=* #block access to internal search result pages

Disallow: *?p=* #block access to pages for which permalinks fails

Disallow: *&p=* #block access to pages for which permalinks fails

Disallow: *&preview=* #block access to preview pages

Disallow: /tag/ #block access to tag pages

Disallow: /author/ #block access to author pages

Disallow: /404-error/ #block access to 404 page

Sitemap: https://www.example.com/sitemap_index.xml

لطفاً توجه داشته باشید که این فایل ربات تی اکس تی در بیشتر موارد کار می کند، اما همیشه باید آن را تنظیم کرده و آزمایش کنید تا مطمئن شوید که دقیقاً در موقعیت شما به درستی عمل می کند.

فایل ربات تی اکس تی برای Magento
فایل ربات تی اکس تی زیر به طور خاص برای Magento بهینه‌سازی شده است و نتایج جستجوی داخلی، صفحات ورود به سیستم، شناسه‌های جلسه و مجموعه‌های نتایج فیلتر شده را که حاوی معیارهای قیمت، رنگ، متریال و اندازه هستند، برای خزنده‌ها غیرقابل دسترس می‌سازد.

User-agent: *

Disallow: /catalogsearch/

Disallow: /search/

Disallow: /customer/account/login/

Disallow: /*?SID=

Disallow: /*?PHPSESSID=

Disallow: /*?price=

Disallow: /*&price=

Disallow: /*?color=

Disallow: /*&color=

Disallow: /*?material=

Disallow: /*&material=

Disallow: /*?size=

Disallow: /*&size=

Sitemap: https://www.example.com/sitemap_index.xml

لطفاً توجه داشته باشید که این فایل ربات تی اکس تی برای اکثر فروشگاه‌های Magento کار می‌کند، اما همیشه باید آن را تنظیم کرده و آزمایش کنید تا مطمئن شوید که دقیقاً در موقعیت شما به درستی عمل می کند.

Dawn Anderson می‌گوید: من همچنان همیشه به دنبال مسدود کردن نتایج جستجوی داخلی در ربات تی اکس تی در هر سایتی هستم زیرا این نوع URL های جستجو فضاهایی بی نهایت و بی پایان هستند. پتانسیل بسیار زیادی برای Googlebot وجود دارد که در دام خزنده قرار گیرد.

محدودیت های فایل ربات تی اکس تی چیست؟ 🤖

فایل ربات تی اکس تی حاوی دستورالعمل ها است
حتی اگر ربات تی اکس تی توسط موتورهای جستجو مورد احترام قرار می‌گیرد، اما هنوز یک دستورالعمل است و نه یک دستور. صفحاتی که هنوز در نتایج جستجو ظاهر می شوند . صفحاتی که به دلیل ربات تی اکس تی برای موتورهای جستجو غیر قابل دسترسی هستند، اما لینک‌هایی به آنها وجود دارند، همچنان می توانند در نتایج جستجو ظاهر شوند اگر از صفحه ای که در آن خزیده شده است لینک داده شده باشد.

یک نکته‌ی حرفه ای!

حذف این URL ها از گوگل با استفاده از ابزار حذف URL کنسول جستجوی گوگل امکان پذیر است. حتما توجه داشته باشید که این URL ها فقط به طور موقت "پنهان" خواهند بود. برای اینکه آنها از صفحات نتایج گوگل خارج نشوند، باید هر 180 روز یک بار درخواستی برای پنهان کردن URL ها ارسال کنید. Fili Wiese می‌گوید: از ربات تی اکس تی برای بلاک کردن بک لینک های وابسته نامطلوب و احتمالا مضر استفاده کنید. از ربات تی اکس تی برای جلوگیری از ایندکس شدن محتوا توسط موتورهای جستجو استفاده نکنید، زیرا این امر به ناچار شکست خواهد خورد. درعوض در صورت لزوم، دستورالعمل روبات ها را noindex اعمال کنید. فایل ربات تی اکس تی حداکثر تا 24 ساعت در حافظه پنهان ذخیره می شود! گوگل اعلام کرده است که فایل ربات تی اکس تی به طور کلی تا 24 ساعت در حافظه پنهان (Cache) نگهداری می شود. هنگام ایجاد تغییرات در فایل ربات تی اکس تی، مهم است که این نکته را در نظر بگیرید. مشخص نیست که دیگر موتورهای جستجو چگونه با کش (Cache) کردن ربات تی اکس تی برخورد می کنند، اما به طور کلی بهتر است از ذخیره فایل ربات تی اکس تی خودداری کنید تا موتورهای جستجو بیش از حد لازم برای دریافت تغییرات زمان نگذارند. اندازه فایل ربات تی اکس تی
برای فایل‌های ربات تی اکس تی، موتور جستجوگر Google در حال حاضر از محدودیت اندازه فایل 500 کیلو بایت (512 کیلوبایت) پشتیبانی می‌کند. هر محتوایی بیش از این مقدار ممکن است نادیده گرفته شود. مشخص نیست که آیا سایر موتورهای جستجو دارای حداکثر اندازه فایل برای فایل های ربات تی اکس تی هستند یا خیر.

سوالات متداول درباره ربات تی اکس تی
ربات تی اکس تی چگونه است؟

در اینجا نمونه ای از محتوای ربات تی اکس تی آمده است:

User-agent:*

Disallow:

این دستور به همه‌ی خزنده‌ها می گوید که می توانند به همه چیز دسترسی داشته باشند.

Disallow all در ربات تی اکس تی چه کاری انجام می دهد؟
هنگامی که یک ربات تی اکس تی را روی "Disallow all" تنظیم می کنید، در اصل به همه‌ی خزنده ها می گویید که از آن دوری کنند. هیچ خزنده ای از جمله گوگل اجازه دسترسی به سایت شما را ندارد. این بدان معناست که آنها قادر به خزیدن، ایندکس و رتبه بندی سایت شما نخواهند بود. این موضوع منجر به کاهش شدید ترافیک ارگانیک خواهد شد.

Allow all در ربات تی اکس تی چه کاری انجام می دهد؟
وقتی یک ربات تی اکس تی را روی "Allow all" تنظیم می کنید، به هر خزنده می گویید که می تواند به هر URL در سایت دسترسی داشته باشد. هیچ قاعده ای برای تعامل وجود ندارد. لطفاً توجه داشته باشید که این موضوع معادل داشتن ربات تی اکس تی خالی یا به طور کلی نداشتن ربات تی اکس تی است.

ربات تی اکس تی چقدر برای سئو مهم است؟
به طور کلی فایل ربات تی اکس تی برای اهداف سئو بسیار مهم است. برای وب‌سایت‌های بزرگ‌تر، ربات تی اکس تی برای ارائه دستورالعمل‌های بسیار واضح به موتورهای جستجو در مورد محتوایی که نباید دسترسی داشته باشند، ضروری است.

راهنمای فایل ربات تی اکس تی

یک فایل ربات تی اکس تی به موتورهای جستجو می‌گوید که قوانین تعامل وب سایت شما چیست. بخش بزرگی از انجام سئو تکنیکال سایت مربوط به ارسال سیگنال های مناسب به موتورهای جستجو است و ربات txt یکی از راه هایی است که می توانید ترجیحات خزیدن خود را به موتورهای جستجو منتقل کنید.

در سال 2019، شاهد پیشرفت‌های زیادی در مورد استاندارد ربات تی اکس تی بودیم: گوگل افزونه‌ای را برای پروتکل محرومیت ربات ‌ها پیشنهاد کرد و تجزیه‌کننده ربات txt خود را منبع باز یا open-source کرد.

در صورت وجود دستورالعمل‌های سردرگمی، Google در قسمت‌های امن اشتباه می‌کند و فرض می‌کند که بخش‌ها باید محدود شوند تا نامحدود.

موتورهای جستجو به طور مرتب فایل ربات تی اکس تی یک وب سایت را بررسی می کنند تا ببینند آیا دستورالعملی برای خزیدن در وب سایت وجود دارد یا خیر. به این راهنما، دستورالعمل گفته می‌شود.

اگر فایل ربات تی اکس تی وجود نداشته باشد یا دستورالعمل های قابل اجرا وجود نداشته باشد، موتورهای جستجو کل وب سایت را می خزند.

اگرچه همه موتورهای جستجوی اصلی به فایل ربات تی اکس تی احترام می گذارند، موتورهای جستجو ممکن است تصمیم بگیرند (بخش هایی از) فایل ربات تی اکس تی شما را نادیده بگیرند. در حالی که دستورالعمل‌های موجود در فایل ربات txt سیگنالی قوی برای موتورهای جستجو هستند، مهم است که به خاطر داشته باشید که فایل ربات تی ایکس تی مجموعه‌ای از دستورالعمل‌های اختیاری برای موتورهای جستجو است تا یک دستور.

اصطلاحات مربوط به فایل ربات تی اکس تی

فایل ربات تی اکس تی اجرای استاندارد حذف ربات‌ها است که پروتکل حذف ربات نیز نامیده می شود.

چرا باید به ربات تی اکس تی اهمیت دهید؟
ربات تی ایکس تی از نقطه نظر SEO نقش اساسی دارد؛ چرا که به موتورهای جستجو می گوید که چگونه می توانند در وب سایت شما را به بهترین شکل بخزند.

با استفاده از فایل ربات تی اکس تی می‌توانید از دسترسی موتورهای جستجو به بعضی از بخش‌های خاص وب‌سایت خود جلوگیری کنید، از محتواهای تکراری جلوگیری کنید و به موتورهای جستجو راهنمایی‌های مفیدی در مورد اینکه چگونه می‌توانند وب‌سایت شما را به طور مؤثرتر بخزند، ارائه دهید.

با این حال، هنگام ایجاد تغییرات در ربات txt خود مراقب باشید: این فایل این پتانسیل را دارد که بخش‌های بزرگی از وب‌سایت شما را برای موتورهای جستجو غیرقابل دسترس کند.

مدیر سئو ، Gerry White ، می‌گوید:

ربات تی ایکس تی اغلب برای کاهش محتوای تکراری بیش از حد مورد استفاده قرار می‌گیرد، در نتیجه لینک سازی‌های داخلی را از بین می‌برد، بنابراین واقعا مراقب آن باشید. توصیه من این است که همیشه از آن برای فایل‌ها یا صفحاتی استفاده کنید که موتورهای جستجو هرگز نباید آن‌ها را ببینند، یا ممکن است خزیدن در آن‌ها باعث ایجاد دردسر برای شما شود! برای مثال نواحی ورود به سیستم که URL های مختلف را شامل می‌شوند یا نواحی آزمایشی یا مکان‌هایی که مسیریابی چند وجهی می‌تواند وجود داشته باشد. مطمئن شوید که فایل ربات تی ایکس تی خود را برای هرگونه مشکل یا تغییر زیر نظر داشته باشید.

تکنسین سئو، Paul Shapiro ، می‌گوید:

اکثر مشکلاتی که من با فایل های ربات تی اکس تی می بینم در سه دسته قرار می گیرند:

سوء استفاده از وایلد کارت ها. این موضوع نسبتاً معمول است که قسمت‌هایی از سایت را مسدود شده ببینید در حالی که قرار بود مسدود شوند! گاهی اوقات، اگر مراقب نباشید، دستورالعمل ها نیز می توانند با یکدیگر تضاد داشته باشند.

شخصی، مانند یک توسعه‌دهنده، تغییری غیرمعمول ایجاد کرده است (اغلب هنگام ورود کدهای جدید) و بدون اطلاع شما سهواً ربات txt را تغییر داده است.

گنجاندن دستورالعمل‌هایی که به فایل ربات تی اکس تی تعلق ندارند. ربات تی اکس تی برای وب استاندارد است و تقریبا محدود است. من اغلب می بینم که توسعه دهندگان دستورالعمل هایی را ارائه می دهند که به سادگی کار نمی کنند (حداقل برای تعداد زیادی از خزنده‌ها). گاهی اوقات بی ضرر است، گاهی اوقات چندان بدون ضرر نیست!

بیایید با یک مثال این موضوع را روشن‌تر کنیم:

شما یک وبسایت با موضوع تجارت الکترونیک (اصطلاحا یک سایت فروشگاهی) راه اندازی کردید و بازدیدکنندگان می‌توانند از یک فیلتر برای جستجوی راحت بین محصولات شما استفاده کنند. این فیلتر صفحاتی را تولید می کند که اساساً همان محتوایی را که صفحات دیگر نشان می دهند، نشان می دهد. این فیلترها برای کاربران عالی هستند، اما موتورهای جستجو را گیج می کند زیرا محتوای تکراری ایجاد می کنند.

شما نمی خواهید موتورهای جستجو این صفحات فیلتر شده را ایندکس کنند و وقت ارزشمندشان را روی این URL ها با محتوای فیلتر شده تلف کنند. بنابراین، باید قوانین Disallow را تنظیم کنید تا موتورهای جستجو به این صفحات محصول فیلتر شده دسترسی نداشته باشند.

جلوگیری از محتوای تکراری نیز می‌تواند با استفاده از URL متعارف یا تگ متا روبات‌ها انجام شود، اما اینها به موتورهای جستجو اجازه نمی‌دهند که فقط صفحات مهم را بخزند.

استفاده از URL متعارف یا تگ متا روبات ها مانع از خزیدن موتورهای جستجو در این صفحات نمی شود و فقط از نمایش این صفحات در نتایج جستجو توسط موتورهای جستجو جلوگیری می کند. از آنجایی که موتورهای جستجو زمان محدودی برای خزیدن یک وب سایت دارند، این زمان باید صرف صفحاتی شود که می خواهید در موتورهای جستجو ظاهر شوند.

ربات تی اکس تی یک ابزار بسیار ساده است، اما در صورتی که به درستی پیکربندی نشود، می تواند مشکلات زیادی، به خصوص برای وب سایت های بزرگتر، ایجاد کند. اشتباهاتی مانند مسدود کردن کل سایت پس از ارائه یک طراحی جدید یا CMS، یا مسدود نکردن بخش هایی از سایت که باید خصوصی باشد از مشکلاتی است که عدم پیکربندی مناسب ربات txt برای شما ایجاد می‌کند. برای وب‌سایت‌های بزرگ‌تر، اطمینان از خزیدن کارآمد Google بسیار مهم است و یک فایل ربات تی اکس تی با ساختار مناسب ابزاری ضروری در این فرآیند است.

شما باید زمان بگذارید تا بفهمید کدام بخش از سایت شما بهتر است از گوگل دور نگه داشته شود تا آنها تا حد ممکن منابع خود را صرف خزیدن در صفحاتی کنند که واقعا برای شما حائز اهمیت است.