Robots.txt یک گزینه برای به حداقل رساندن محتوای تکراری موجود برای خزیدن است. روشهای دیگری برای اطلاعرسانی به Google در مورد محتوای تکراری است اما میتوانید با استفاده از فایلهای robots.txt محتوای تکراری را حذف کنید تا بودجه خزیدن خود را نیز حفظ کنید. این بسیار مهم است که فایل robots.txt شما به درستی تنظیم شده باشد. برای تست این که یک صفحه یا هر نوع فایلی توسط فایل Robots.txt بلاک شده، و همچنین اطمینان از این که خود فایل Robots در دسترس است،میتوانید از ابزار تست کننده در سرچ کنسول گوگل استفاده کنید. فرقی نمیکند میزبان وبسایت شما یک سرور اختصاصی، اشتراکی یا مجازی است، فقط کافی است این فایل را در پوشه یا همان دایرکتوری اصلی سایت بارگذاری کنید.
- البته میتوانیم با دستور Crawl-delay، گشتن و کراول کردن آنها را برای صفحهای خاص به تاخیر بیاندازیم.
- اگر فاصله مراجعه رباتها خیلی زیاد هست یعنی سایت یا سرور مشکلی داره که باید حل بشه.
- یکی از نکات قابل توجه در ایجاد این فایل، ایجاد نام فایل با حروف کوچک است.
- اما راه حرفه ای تری نیز وجود دارد که شما می توانید به کمک ابزار تست فایل robots.txt در کنسول گوگل آن را تست کنید.
در صورتی که مشکلی در فایل robots.txt وجود نداشته باشد، دکمه قرمز رنگ تست، به رنگ سبز و Allowed تغییر می کند. علاوه بر این، این ابزار امکانات دیگری را نیز در اختیار شما قرار می دهد؛ مثلا می توانید از طریق بخش URL Tester، آدرس صفحات مختلف سایت را بررسی کنید تا متوجه شوید که برای ربات ها مسدود شده اند یا خیر. اگر ربات های گوگل دسترسی برای خواندن چنین صفحاتی داشته باشند، قطعا بودجه خزش و کراول سایت به زودی مصرف شده و برای ایندکس و بررسی صفحات و رده های اصلی و مهم سایت به چالش می خوریم.
آشنایی با دستورات فایل Robots.txt و معانیشان
اگر میخواهید امنیت فایل ربات خود را چند درجه بالاتر ببرید از مکانیزم امنیتی Honeypot (یک مکانیزم مبتنی بر دادههایی که قابل دسترسی هستند اما دسترسی آنها به صورت مداوم مانیتور میشود) استفاده کنید. اگر از ورود آیپیهای مختلف به منابع Dissallow اطلاع داشته باشید میتوانید از یک لیست سیاه برای این کار استفاده کنید و قسمتهای مختلف مجله خبری سئو سایت را با استفاده از این تکنیک ایمن کنید. یک فایلی هست به نام robots.txt، می گذاری اش در روت هاستت و این جوری به آنها دستور می دهی. در این فایل اول با user agent مشخص می کنی که با کدام ربات داری صحبت می کنی و می خواهی به کی دستور بدهی. بعد با allow , disallow می گویی که به چی دسترسی داشته باشی و به چی دسترسی نداشته باشی.
Robots.txt چیست؟
در این مثال به راحتی میتوان اینکار را انجام داد تا مشکل حل شود. برخی از موتورهای جستوجو مانند گوگل رباتهای خاص برای خود داند. گوگل رباتهایی دارد که عکس را جستوجو میکنند و رباتهایی نیز دارند که به سراغ محتواها میروند. نیازی نیست برای این دو ربات جداگانه دستورالعمل مشخص کنیم، اما دادن دستورالعمل میتواند، نحوهی خزیدن این رباتها در سایت شما را تنظیم و کنترل کند. من یک وبسایت با ورد پرس ساختم و بعد از قرار دادن تعدادی مطلب تیک اجازه بررسی محتوا توسط موتور های جستجو را برداشتم.
درباره ربات ارتقا سئو و افزایش ورودی گوگل
فایل Robots.txt فایلی برای گزارش ساختار صفحات وب به رباتهای کراولر است تا بدانند کدام صفحات باید در موتورهای جستجو نمایش داده شوند و کدام صفحات نمایش داده نشوند. این فایل کاملا قایل دسترسی است و میتوانید اطلاعات داخل آن را بخوانید و یا ویرایش کنید و افراد مختلف نیز صرفا با اضافه کردن این پسوند به لینک وبسایت شما میتوانند آن را ببینند. دستور سایت مپ(نقشه سایت) برای معرفی کردن نقشه سایت (سایت مپ) به کراولر ها کاربرد دارد. نقشه سایت یک فایل XML است که شامل لیستی از تمام صفحات وب سایت شما و همچنین متادیتاها می باشد (متادیتا شامل اطلاعاتی است که به هر URL منسوب می شود). فایل txt کار می کند، نقشه سایت به موتورهای جستجو اجازه می دهد تا در فهرستی از تمام صفحات وب سایت شما در یک مکان بخزند. برای مشاهده و ویرایش فایل ربات در وردپرس یا هر سایت دیگری به فایل منیجر در پنل هاست مراجعه کنید و درون فولدر public_html بدنبال فایل robots.txt بگردید.