فایل robots.txt
فایل robots.txt
فایل robots.txt وظیفه داره دسترسی موتورهای جست و جو گر مثل گوگل رو محدود کنه. در واقع وظیفه داره به موتورهای جست و جو گر بگه که کدوم قسمت از سایت منو دسترسی داشته باش و بگرد و ایندکس کن. خزنده های موتورهای جست و جو گر اول بررسی می کنن ببینن ما فایل robots.txt داریم یانه و مطمعن میشن که چه دسترسی هایی بهشون دادیم و موتورهای جست و جو گری که اسپم نیستن به این اجازه دسترسی که ما بهشون میدیم یا نمیدیم احترام میذارن و از ایندکس صفحاتی که اجازه دسترسی ندادیم خودداری میکنن.
مثلا ممکنه که ما تو قسمتی از سایت محتوای تکراری داشته باشیم و نخوایم گوگل اونارو ایندکس کنه و به عنوان محتوای تکراری بشناسه و رو سئومون تاثیر منفی بذاره میایم دسترسی به اون صفحه رو میبندیم و با اینکار به گوگل میگیم این صفحه رو کاری باهاش نداشته باش و از دیدنش چشم پوشی کن و به عنوان نوشته ما تو لیست جست و جو نشون نده. ویا میخوایم صفحه ی ورود به سایت یا صفحاتی که برا کاربر و دیده شدن مهم نیستن و ایندکس نکنه و تو لیست جست و جو نشون نده. میایم دسترسی به این صفحات رو disallow میکنیم و از تاثیرات منفی ایندکس گوگل جلوگیری میکنیم و در مواردی امنیت سایتمون رو هم بالا میبریم.
ساخت فایل robots.txt
یه فایل ساده برا مدیریت ربات های جست و جوگر از دو قانون اصلی استفاده میکنه :
User-agent: نشون میده چه ربات هایی نباید اجازه دسترسی داشته باشن و اگه بخوایم به همه ی ربات ها اجازه دسترسی بدیم User-agent: * یعنی ستاره میذاریم .
Disallow: بیانگر آدرس صفحه ای هست که میخوایم از دید ربات ها پنهان بممونه مثلا Disallow: /folder1/
آزمایش Robots.txt در گوگل وب مستر
وب مستر گوگل قسمت مشخصی برا نمایش صفحاتی از سایت ما که توسط robots.txt دسترسی ربات به آنها محدود شده ، در نظر گرفته. این صفحه با اسم Blocked URL به عنوان زیر مجموعه ای از بخش Crawl هست.
برا اطمینان از عملکرد درست فایل robots.txt به بخش Blocked URLs اکانت وب مستر خود مراجعه می کنیم و مثل تصویر زیر در بخش اول محتویات فایل را کپی میکنیم. در قسمت دوم آدرس صفحاتی که قصد داریم میزان محدودیت ربات های گوگل در دسترسی به اونهارو بسنجیم وارد میکنیم. ( در هر خط یک آدرس )
در قسمت انتهایی ما میتونیم یک نوع از ربات های گوگل رو علاوه بر ربات اصلی که وظیفه ایندکس صفحات رو برعهده دارد انتخاب کنیم
نمایی از Blocked urls در وبمستر تولز گوگل
با فشردن دکمه Test نتایج آزمون و میزان دسترسی ربات ها به هریک از این آدرس ها به ما نمایش داده میشه.
نمونه ای از نتایج تست فایل Robots.txt
شمای عملکرد و دسترسی خزنده ی موتورهای جست و جو:
همونطور که تو شکل میبینیم متورهای جست و جو گر به صورت پیشفرض و بدون فایل robots.txt به همه ی قسمت های سایت دسترسی دارند.
نحوه ی تغییر:
میریم داخل هاست
فایل منیجر
Public_html
رو فایل robots.txt کلیک کرده و میزنیم edit
چیزی که فعلا صلاع میبینم تو این فایل باشه این متن هست:
User-agent: *
Disallow: /wp-admin/
Allow: /wp-admin/admin-ajax.php
اضافه کردن robots.txt در گوگل کنسول (گوگل وب مستر تولز)
برا اینکار وارد حساب کاربری گوگل وب مستر تولز میشیم و از منوی crawel روی robots.txt Tester کلیک میکنیم و کدهای دسترسی فایل robots.txt رو وارد میکنیم و submit میزنیم.
آخرین دیدگاهها