فایل robots.txt چیست؟
فایل robots.txt وظیفه محدود کردن دسترسی ربات های گوگل و سایر موتورهای جستجو به محتوای یک سایت را به عهده دارد. در حقیقت، فایل robots.txt یک فایل متنی است که به موتورهای جستجو می گوید کدام صفحات وب را خزش و ایندکس کند و چه صفحاتی را خزش و ایندکس نکند. خزیدن ربات ها به معنای بررسی محتوای صفحات وب است و ایندکس کردن صفحات به معنی ذخیره سازی یک نسخه از محتوای صفحات در بایگانی گوگل است. موتورهای جستجو در میان صفحات یک سایت خزش (Crawl) می کنند و آن ها را ایندکس (Index) می کنند. ربات های جستجوگر قبل از خزش یک صفحه از سایت، ابتدا فایل robots.txt را می خوانند و بر اساس دستورالعمل های این فایل، اجازه خزیدن یا ایندکس صفحات را پیدا می کنند. باید دقت کرد که چه صفحاتی برای خزش یا ایندکس موتورهای جستجو محدود می شود. صفحاتی مانند لندینگ پیج ها نباید به اشتباه برای موتورهای جستجو مسدود شوند.
اهمیت استفاده از فایل robots.txt
استفاده از فایل robots.txt این امکان را فراهم می کند که صفحات سایت تنها برای کاربران اینترنتی طراحی شوند. همچنین باعث می شود صفحات بی ارزش و کم محتوا از دید موتورهای جستجو پنهان شوند و توسط آن ها ایندکس نشوند. از آنجایی که تمام صفحات یک سایت از اهمیت و امنیت یکسانی برخوردار نیستند، بنابراین نیاز به فایل robots.txt احساس می شود. بعضی از صفحات مهم سایت، نیاز به خزش روزانه و ایندکس روزانه دارند و برخی از صفحات کم اهمیت ماهی یکبار نیاز به خزش و ایندکس شدن دارند. فایل robots.txt چگونگی خزیده شدن و ایندکس شدن صفحات وبسایت توسط رباتهای جستجوگر را تعیین می کند.
استفاده ربات های جستجوگر از فایل robots.txt
تمامی ربات های جستجوگر استاندارد به قوانین و محدودیت ها احترام می گذارند و به طور کامل آن ها را رعایت می کنند. یعنی صفحاتی که برای خزش و ایندکس مسدود شده اند را بازدید و ایندکس نمی کنند. اما ربات های اسپم به وجود فایل robots.txt توجهی ندارند و کار خود را انجام می دهند. به منظور حفظ امنیت محتوا و پنهان کردن آن از دید ربات های اسپم، بهتر است که برای صفحات پسورد گذاشته شود. ربات های دیگری نیز وجود دارند که از دستورات فایل robots.txt پیروی نمی کنند. این ربات ها مسئول بررسی امنیت وب سایت هستند و حتی ممکن است کار خود را از قسمت هایی از سایت شروع کنند که اجازه دسترسی به آن ها داده نشده است.
جهت دریافت مشاوره سئو از آژانس ایزی وب درخواست مشاوره را پرکنید.
دستورات فایل robots.txt
فایل robots.txt سایت از دو دستور کلی تبعیت می کند که برای ربات گوگل، یک دستور دیگر نیز اضافه می شود:
User-agent
این دستور برای هدف گیری یک ربات خاص استفاده میشود. از این دستور میتوان به دو شکل در فایل robots.txt استفاده کرد.
اگر قصد دادن یک دستور به تمام ربات های جستجوگر وجود داشته باشد، تنها کافیست بعد از عبارت User-agent از علامت “*” استفاده شود. مانند زیر:
User-agent: *
دستور بالا به این معنا است که "دستورات فایل، برای همه رباتهای جستجوگر یکسان عمل میکند."
اما اگر قصد دادن یک دستور خاص تنها به یک ربات خاص مانند ربات گوگل (GoogleBot) وجود داشته باشد، دستور باید به شکل زیر نوشته شود:
User-agent: Googlebot
کد بالا به این معنا است که "اجرای دستورات فایل، تنها برای ربات گوگل الزامی است."
Disallow
دستور Disallow به رباتهای جستجوگر میگوید که چه فولدرهایی از وبسایت را نباید بررسی کنند. درواقع این دستور، بیانگر URLای از سایت است که از رباتهای جستجوگر پنهان می ماند.
به طور مثال اگر تمایل ندارید موتورهای جستجو، تصاویر وب سایت تان را ایندکس کنند، میتوانید تمام تصاویر سایت را درون یک پوشه در هاستینگ خود قرار دهید و از دسترس موتورهای جستجو خارج کنید.
فرض کنید که تمام این تصاویر را داخل فولدر "Photos" منتقل کردهاید. برای آنکه به موتورهای جستجو بگویید که این تصاویر را ایندکس نکنند، باید دستور زیر را بنویسید:
User-agent: *
Disallow: /photos
دو خط کدنویسی فوق در فایل robots.txt، به هیچ یک از رباتهای جستجوگر اجازه ورود به فولدر تصاویر سایتتان را نخواهد داد. در کد دستوری بالا، قسمتUser-agent: * میگوید که اجرای این دستور برای تمامی رباتهای جستجوگر الزامی است. قسمت Disallow: /photos نیز بیانگر این است که ربات، اجازه ورود یا ایندکس فولدر تصاویر سایت را ندارد.
Allow
ربات خزنده و ایندکس کنندۀ گوگل، Googlebot نام دارد. این ربات نسبت به سایر رباتهای جستجوگر، دستورات بیشتری را متوجه میشود. علاوه بر دستورات “User-agent” و “Disallow”، ربات گوگل دستور دیگری به نام “Allow” را نیز درک میکند.
دستور Allow این امکان را فراهم می کند تا ربات گوگل اجازه مشاهده یک فایل، در فولدری که Disallowed شده است را داشته باشد. در مثال قبل کدی را نوشتیم که به رباتهای جستجو، اجازه دسترسی به تصاویر سایت را نمیداد. تمام تصاویر سایت را درون یک پوشه به نام Photos قرار دادیم و با دستور زیر یک فایل robots.txt ایجاد کردیم:
User-agent: *
Disallow: /photos
حال تصور کنید درون این فولدری که در هاستینگ سایت قرار دارد، تصویری به نام ezweb.jpg وجود دارد که خواهان ایندکس شدن آن توسط Googlebot هستیم. با استفاده از دستور Allow میتوانیم به ربات گوگل بگوییم که ایندکس را انجام دهد:
User-agent: *
Disallow: /photos
Allow: /photos/novin.jpg
این دستور به ربات گوگل میگوید که اجازه مشاهده و ایندکسِ فایل ezweb.jpg را دارد، برخلاف اینکه فولدر Photos از دسترس رباتهای جستجوگر خارج شده است.
اضافه کردن فایل robots.txt به گوگل کنسول
سرچ کنسول گوگل یا همان وبسمتر گوگل قسمتی برای تست و ارزیابی فایل robots.txt که دسترسی ربات های جستجوگر به آن محدود شده است، در نظر گرفته است. این صفحه با نام robots.txt Tester شناخته میشود. در این بخش می توان محتوای فایل robots.txt را وارد نمود و برای گوگل ارسال نمود. پس از تایید گوگل، می توان میزان محدودیت ربات های گوگل و دسترسی آن ها به محتوای سایت را مورد سنجش قرار داد.