زمانی که ربات های گوگل درحال بررسی و کراول صفحات سایت ما هستند، دسترسی های خود را از فایل Robots.txt دریافت می کنند. شما با استفاده از بهینهسازی سایتتان میتوانید سبب پیشرفت و بهبود عملکرد آن شوید. همچنین شما میتوانید زیر نظر خود دسترسیهای متفاوتی را به این رباتها دهید. توجه داشته باشید عدم توجه به آن میتواند پیامدهای غیرقابل جبرانی برای سایت شما داشته باشد و رتبه سایت شما را پایینتر آورد. به همین خاطر و بخاطر سایر مسائل امنیتی، همیشه توصیه میشود که هرچند وقت یکبار، صحت و سلامت فایل ربات سایتتان را بررسی کنید و از دستوراتی که داخل این فایل وجود دارد اطمینان حاصل کنید. اگر صاحب یک وبسایت کوچک با تعداد صفحات کمی هستید، با مراجعه به سرچ کنسول وبسایتتان میتوانید تعداد صفحاتی از سایتتان که توسط گوگل ایندکس شدهاند را در بخش Coverage مشاهده کنید.
- با این دستور، ربات های موتورهای جستجو به هیچ وجه نمیتوانند وب سایت را بخزند.
- در این فایل طبق گفته خودشان هیچ چیز را بلاک نکرده اند و به جستجوگرها این اجازه را داده اند تا به همه چیز دسترسی داشته باشند.
- متشکرم ازتیم خلاق ومبتکر کاربرمجازی،که بااجرایی کردن این ایده بسیارعالی فعالیت های وقت گیرانسانی رابه فعالیت رباتیک تغییر…
- Robots.txt هر سایت مختص همان سایت است و ممکن است برای سایت شما عملکرد مناسبی نداشته باشد و فرایند ایندکس شدن صفحات سایت را دچار اختلال کند.
- البته در حال حاضر میتوان از این فایل برای خارج کردن فایلهایی مثل تصاویر، ویدیو یا صدا از نتایج جستجو استفاده کنید اما برای صفحات وب مناسب نیست.
بودجه شما، یا همان تعداد صفحاتی که توسط Googlebot مشاهده می شوند، بر اساس حجم وبسایت شما (تعداد صفحات)، سلامت آن (عدم بروز خطا) و تعداد بکلینکهای سایتتان تعیین میشود. مثلاً مهمترین ربات گوگل یا همان Googlebot کارش پیدا کردن صفحههای جدید در اینترنت و دریافت آن برای بررسیهای بیشتر توسط الگوریتمهای رتبهبندی کننده است. پس رباتها نه تنها ضرری برای سایت شما ندارند، بلکه باید خیلی هم از آنها استقبال کرد.
ربات استخراج ایمیل مدیران سایت
همانطور که مشاهده نمودید، این مقادیر، جلوی دسترسی به سایت را برای موتورهای جستجو میگیرد. بهتر است که یک مجموعه دستور مشترک برای تمام user agent ها داشته باشید تا در هنگام بروزرسانی فایل robots.txt دچار سردرگمی نشوید. اگر میخواهید فهرست کاملی از ربات موتورهای جستجو را ببینید، به این آدرس بروید.
مدیریت خزش صفحات سایت به کمک فایل Robots.txt
این به معنای پنهان کردن صفحه farin.academy/seo از دید ربات هاست. در مورد مشکلت فکر نمی کنم robots.txt بتونه بهت کمکی بکنه چون این مشکل باید از یک جای دیگه درست بشه. از رتبه ۲ هزار گوگل به ۵۰ هزار نزول پیدا کردیم و بهتر بگم عین ۱۰ هزار صفحه ما شد ارور ۴۰۴ که طراحان جدید گفتن بعد از مدتی از بین میرن که نرفت تکرار میکنم از بین نرفت و یا اگه رفت بالای ۶ ماه طول کشید. مخصوصا اینکه بقیه مقالات اصلا توضیح نداده بودن که چطوری میشه به این فایل دسترسی داشت و کجای هاست هستش.
اگر ربات های گوگل دسترسی برای خواندن چنین صفحاتی داشته باشند، قطعا بودجه خزش و کراول سایت به زودی مصرف شده و برای ایندکس و بررسی صفحات و رده های اصلی و مهم سایت به چالش می خوریم. خصوصا که گوگل صفحات سایت ما را فقط یکبار بررسی نمیکنند، که بطور مستمر و حتی روزانه درحال بررسی صفحات سایت هستند. توجه به این موضوع خصوصا در مراحل اولیه راه اندازی سایت فروشگاهی یا سایت های شرکتی با ساختار گسترده، موضوع بسیار مهمی است. در همین ابتدا عنوان می کنیم که یکی از مهمترین دلایل استفاده از فایل Robots.txt مدیریت بودجه خزش و ایندکس سایت است. در حقیقت ربات های گوگل نیز مانند کاربران عادی به استفاده از منابع هاست و سرور ما می پردازند و مدیریت این موضوع اهمیت بسیار بالایی دارد. در ادامه از سایت ساز شاپفا اطلاعات کاملی در مورد فایل Robots.txt در اختیار شما قرار می دهیم.
راهکار بهتر برای جلوگیری از دسترسی به این گونه صفحات، قرار دادن پسورد برای دستریست. اگر فایل robots.txt در وب سایت شما وجود ندارد، نگران نباشید. تنها با استفاده از دستورات ذکر شده می توانید یک فایل robots.txt در سایت ایجاد نموده و پس از بارگذاری آن را از طریق ابزار robots.txt tester گوگل سرچ کنسول تست نمایید. به هر حال، این افزونه در بخشی از ابزارهای خود این امکان را فراهم کرده تا بتوانید نقشه سایت خود را بسازید، ایندکس را کنترل کنید یا اینکه یک فایل ربات robots.txt بسازید.
فایل Robots.txt در وبسایتها نقش همین راهنماها و نگهبانان را دارد اما نه برای کاربرانی که وارد سایت میشوند، بلکه برای رباتهایی که برای بررسی سایت یا هر کار دیگری میخواهند در بخشهای مختلف سایت سرک بکشند. هدف از این آموزش این است که اگر مدیران سایت دوست نداشته باشند گوگل به تمام قسمتهای سایتشان نفوذ کند میتوانند از این فایل استفاده کرده و یک نوع حریم برای سایتشان ایجاد کنند. شما میتوانید با استفاده از افزونهای که در بالا ذکر شد کاری کنید که قسمتی از فایلها مانند readme.html در گوگل ایندکس نشود و یا غیرازاین میتوانید هر فایل دلخواه دیگری را مشخص کنید تا نمایش داده نشود.
و بهوسیله آن میتوان صفحاتی که محتوای آنها از اهمیت چندانی برخوردار نیست ایندکس نشاند. درواقع موتورهای جستجو توسط این ربات متوجه میشوند که به چه بخشهایی اجازه دسترسی دارند. به عنوان مثال اگر شما نرخ تأخیر رباتها را روی ده ثانیه قرار دهید، موتورهای جستجو به صورت روزانه میتوانند فقط نزدیک به 8600 صفحه از سایت شما را بررسی و ایندکس کنند. اگرچه این مقدار برای سایتهای نه چندان بزرگ مقدار کمی نیست، اما برای سایتهایی که صفحات زیاد و محتوای متعددی دارند اقدام مناسبی نمیباشد.