Robots.txt چیست؟ اهمیت و نحوه ساخت فایل robots.txt

زمان مطالعه: 14 دقیقه
robots.txt-چیست

فهرست مطالب

فایل robots.txt حاوی دستورالعمل‌هایی است که برای موتورهای جستجو مشخص می‌کند اجازه دسترسی به کدام بخش‌های وبسایت را دارند و دسترسی به کدام بخش‌ها برای آن‌ها مجاز نیست. اغلب موتورهای جستجوی شناخته‌شده نظیر گوگل، بینگ و یاهو از این فایل پشتیبانی می‌کنند و محتویات موجود در آن را بررسی می‌کنند. مطالعه این راهنما به شما در مورد فایل robots.txt و نحوه ساخت و اهمیت آن در سئو اطلاعات زیادی خواهد داد. با مطالعه این مقاله شما می‌توانید فایل robots.txt سایت خود را بررسی کنید و مطابق با ساختار سایتتان اصلاح کنید.

نکته مهم:
تغییرات اعمال شده توسط شما در فایل Robots.txt امکان آسیب جدی به سئو سایت شما دارد. پس لازم است اطلاعات موجود در این مقاله را دقیقا مطالعه کنید و با آگاهی کامل نسبت به اعمال تغییرات در این فایل اقدام کنید.

Robots.txt چیست؟

فایل Robots.txt یک فایل متنی ساده (با پسوند txt) است که توسط موتورهای جستجو و برخی سیستم‌های دیگر خوانده می‌شود و نام دیگر آن «Robots Exclusion Protocol» به معنی پروتکل حذف ربات‌ها است. این فایل حاصل یک اجماع بین توسعه دهندگان موتورهای جستجو در روزهای ابتدایی بوجود آمدن اینترنت است ولی همچنان اغلب موتورهای جستجو بدان پایبند هستند.

فایل Robots.txt چکار می‌کند؟

ربات موتورهای جستجو با خزیدن و بررسی کردن صفحات مختلف در سایت‌های مختلف، صفحات را ایندکس کرده و با استفاده از الگوریتم رتبه بندی خود، نتایج را مرتب کرده و در صفحه نتایج موتورهای جستجو نشان می‌دهند. موتورهای جستجو لینک‌های موجود در هر صفحه را دنبال می‌کنند و از سایت A به سایت B رفته و از سایت B به سایت C و این فرایند را به همین شکل ادامه می‌دهند.

اما ربات موتور جستجو با مشاهده یک صفحه جدید در یک سایت یا یک سایت کاملا جدید که پیش از این مشاهده نکرده است، فایل Robots.txt را بررسی می‌کند تا از وضعیت مجوز برای بررسی و فهرست کردن صفحه یا سایت جدید را اطلاع یابد.

خوب است بدانید:
معمولا موتورهای جستجو محتویات فایل robotx.txt را ذخیره می‌کنند تا به دانلود مجدد آن نیاز نداشته باشند، با این حال روزانه چندبار نسخه جدید فایل را بارگذاری می‌کنند. پس انعکاس تغییرات اعمال شده در فایل Robots.txt زمان زیادی نخواهد برد و سریعا اعمال می‌شود.

فایل robots.txt کجاست؟

فایل robots.txt همیشه در پوشه اصلی سایت شما (Public_html) قرار دارد. بنابراین اگر سایت شما www.example.com است فایل robots.txt باید در آدرس example.com/robots.txt قابل دسترسی باشد. به عنوان مثال فایل robots.txt سایت گروه دیجیتال نردبان از اینجا قابل مشاهده است.

نکته: نامگذاری این فایل مهم است و باید نام این فایل حتما robots.txt باشد و به حروف کوچک و بزرگ توجه شود.

خوب است بدانید:
در صورتی که سایت شما دارای ساب دامین است لازم است هریک از این ساب دامین‌ها دارای فایل robots.txt مختص خود باشند. بعنوان مثال nardebangroup.com فایل خودش را دارد و my.nardebangroup.com هم فایل robots.txt جدا دارد.

مزایای robots.txt چیست؟

بهینه سازی بودجه خزش: بصورت عمومی این باور وجود دارد که ربات موتور جستجو در هنگام بازدید مجدد از یک سایت، اجازه بررسی تعداد محدودی از صفحات را دارد (میزان منابع و زمان در اختیار ربات برای بررسی مجدد صفحات یک سایت محدود است) و این مقادیر وابسته به اعتبار، تعداد صفحات سایت دارد. متخصصان سئو این محدودیت را بودجه خزش (Crawling Budget) می‌نامند.

اگر شما اعتقاد دارید در بودجه خزش سایت شما اشکالاتی وجود دارد پس بلاک کردن موتورهای جستجو از بررسی قسمت‌های کم اهمیت سایت، از هدر رفت بودجه خزش جلوگیری می‌کند و موتورهای جستجو می‌توانند از بررسی صفحات کم اهمیت صرف نظر کرده و به بررسی صفحات مهمتر بپردازند.

در برخی موارد بلاک کردن موتورهای جستجو از بررسی بخش‌های مشکل دار سایت شما، مخصوصا در سایت‌های که نیاز به پاکسازی سئویی گسترده دارند، می‌تواند مفید باشد. در نهایت پس از پیاده سازی اصلاحات سئویی می‌توانید مجددا اجازه بررسی صفحات اصلاح شده را به ربات موتورهای جستجو بدهید.

حذف محتوای تکراری: فرض کنید سایت شما یک سایت فروشگاهی است که به کاربران امکان اعمال فیلترهای مختلف می‌دهد. این فیلترها با اضافه کردن رشته‌های بصورت query string به انتهای آدرس منجر به گمراه شدن موتورهای جستجو می‌شوند. آدرس‌های ایجاد شده توسط این فیلترها و بطور کلی این شرایط دارای محتواهای تکراری هستند و به سئو سایت فروشگاهی شما آسیب وارد می‌نمایند.

معایب robots.txt چیست؟

۱- امکان فهرست شدن صفحات بلاک شده وجود دارد: اگرچه این امکان وجود دارد که با اعمال تغییر در فایل robots.txt به ربات خزنده موتور جستجو اعلام کنید اجازه دسترسی به کدام بخش از سایت را ندارد، اما امکان این را ندارید که با تغییر فایل robots.txt از فهرست شدن صفحات ممنوع در نتایج جستجو جلوگیری کنید. اگر لینک صفحات ممنوع در سایر صفحات یا سایت‌های دیگر وجود داشته باشد صفحه مربوطه فهرست خواهد شد ولی از آنجایی که طبق فایل robots.txt ربات خزنده گوگل اجازه دسترسی به محتویات صفحه را ندارد، صفحه مورد نظر در نتایج جستجو به شکل زیر و بدون توضیحات نمایش داده می شود:

صفحه بلاک شده در فایل robots.txt

در صورتی که قصد این را دارید که بصورت قابل اطمینان یک صفحه را از نتایج جستجو حذف کنید بایستی از تگ noindex در صفحه مورد نظر استفاده کنید. برای مشاهده این تگ بایستی اجازه بررسی صفحه و مشاهده این تگ را به موتور جستجو بدهید پس بهتر است صفحه را در robots.txt بلاک نکنید.

۲- عدم امکان توزیع اعتبار لینک: اگر موتور جستجو نتواند یک صفحه را بررسی کند امکان توزیع اعتبار لینک به لینک‌های موجود در آن صفحه را ندارد. وقتی یک صفحه در فایل robots.txt بلاک می‌شود برای ربات موتور جستجو تبدیل به بن بست می‌شود و اعتبار لینک امکان توزیع در صفحه و سایر صفحات لینک داده شده در صفحه بلاک شده را ندارد.

فایل robots.txt چگونه است؟ یک مثال

تصویر زیر فایل robots.txt سایت یوتیوب به عنوان نمونه نمایش داده شده‌است. در ادامه به بررسی بخش‌های مختلف آن خواهیم پرداخت.

نمونه فایل robots.txt
فایل robots.txt سایت یوتیوب: همانگونه که مشخص است بسیاری از بخش‌های سایت نظیر قسمت نظرات، صفحه ورود و ثبت نام و چت انلاین از دسترسی موتورهای جستجو خارج شده است.

خطوط ابتدای این فایل که با علامت # شروع شده‌اند، کامنت هستند و به توضیح کلی فایل پرداخته‌اند. خطوطی که با # شروع می‌شوند توسط ربات‌های خزنده وب نادیده گرفته می‌شوند. این فایل ۳ بخش دارد و بخش های مختلف با یک خط خالی از هم جدا شده‌اند. در ادامه به توضیح دستورات مختلف خواهیم پرداخت.

user-agent چیست؟ *:user-agent یعنی چه؟

هر شخص و یا هر برنامه کامپیوتری فعال روی شبکه جهانی اینترنت دارای یک user-agent (یک نام اختصاص داده شده) است. برای کاربران واقعی user-agent شامل نوع مرورگر، و سیستم عامل است و حاوی اطلاعات شخصی نیست. این اطلاعات به وبسایت‌ها کمک می‌کند اطلاعات سازگار با سیستم کاربر را نمایش دهند.

user-agent ربات‌های خزنده به ادمین‌های سایت کمک می‌کنند تا انواع ربات‌های خزنده در حال بررسی سایت را بشناسند. در فایل robots.txt شما قادر خواهید بود تا برای ربات‌های مختلف، دستورالعمل‌های مختلفی صادر کنید.

User-agent: Mediapartners-Google در تصاویر بالا مربوط به شبکه تبلیغات AdSense گوگل است. این ربات از بررسی هیچ صفحه‌ای منع نشده است و می‌تواند تمام صفحات را بررسی کند.

در ادامه *:user-agent مشخص کننده تمامی ربات‌های خزنده است. علامت * مشخص کننده wildcard است و بیانگر این است که قانون اضافه شده برای همه ربات‌ها صادق است. برای همه ربات‌ها دسترسی به برخی صفحات نظیر نظرات، ورود، ثبت نام و … بلاک شده است.

معروف‌ترین ربات‌های خزنده وب و user-agent آن‌ها به شرح زیر است:

موتور جستجوی Google:

  • Googlebot
  • Googlebot-Image (برای تصاویر)
  • Googlebot-News (برای اخبار)
  • Googlebot-Video (برای ویدیو)

موتور جستجوی Bing

  • Bingbot
  • MSNBot-Media (برای تصاویر و ویدیو)

موتور جستجوی چینی بایدو

  • Baiduspider

موتور جستجوی یاهو

  • Slurp

نحوه تنظیم فایل robots.txt

نحوه استفاده از دستور disallow

دستور Disallow از پرکاربردترین دستورات در فایل robots.txt است. این دستور مشخص کننده صفحه یا صفحات غیر قابل دسترس برای ربات‌های خزنده وب است. مجددا باید تکرار کنیم که استفاده از این دستور صرفا صفحات را از دسترسی ربات‌ها مخفی می‌کند و ممکن است کاربر با کلیک روی لینک این صفحات امکان بازدید صفحه را داشته باشد و یا حتی این صفحات در نتایج جستجو فهرست شوند.

جلوگیری از دسترسی موتورهای جستجو به یک صفحه خاص

برای مثال اگر ما قصد داشتیم صفحه تماس با ما در سایت نردبان با آدرس https://www.nardebangroup.com/contact را از دسترس ربات‌ها خارج کنیم، دستور مربوطه به شکل زیر خواهد بود:

user-agent:*
Disallow: /contact/

جلوگیری از دسترسی موتورهای جستجو به یک دایرکتوری

در برخی موارد شاید لازم باشد تا تمام صفحات موجود در یک دایرکتوری را از دسترس ربات‌ها خارج کرد. به عنوان مثال اگر قصد داشته باشیم تمام صفحات موجود در وبلاگ به ادرس زیر «https://www.nardebangroup.com/blog»را از دسترسی ربات‌ بایدو خارج کنیم دستور لازم به شکل زیر خواهد بود:

user-agent: Baiduspider
Disallow: /blog/

بدین ترتیب تمامی صفحات موجود در وبلاگ از دسترس ربات بایدو خارج خواهد شد.

اعطای دسترسی کامل به موتورهای جستجو

برای صدور دسترسی کامل به کل سایت برای ربات‌های خزنده دستور Disallow به شکل زیر خواهد بود.

Disallow:

مخفی کردن کل سایت از موتورهای جستجو

Disallow: /

«/» بیانگر صفحه اصلی وبسایت و تمامی صفحات ذیل آن است. در صورت وجود این دستور موتورهای جستجو توانایی خزیدن هیچ یک از صفحات وبسایت را ندارند. البته لازم به ذکر است این یک روش مطمئن برای جلوگیری از نمایش سایت شما در موتورهای جستجو نیست و باید صفحات سایت را no-index کنید.

نحوه استفاده از دستور Allow *

این دستور به ربات‌ها اجازه می‌دهد به یک صفحه یا بخش وبسایت دسترسی پیدا کنند. از کاربردهای این دستور زمانی است که شما بخش بزرگی از سایت را بلاک کرده‌اید و قصد دارید اجازه دسترسی به یک یا چند صفحه از همان بخش به ربات‌های خزنده بدهید. برخی موتورهای جستجو این دستور را شناسایی نمی‌کنند. پس باید در استفاده از آن احتیاط کنید.

در مثال زیر تمامی ربات‌ها از دسترسی به دایرکتوری media منع شده‌اند اما در عین حال اجازه دسترسی به یک فایل پی دی اف با عنوان terms-and-conditions.pdf موجود در دایرکتوری media داده شده است.

User-agent: *
Allow: /media/terms-and-conditions.pdf
Disallow: /media/

نحوه استفاده از دستور Crawl-delay *

هدف این دستور تعیین محدودیت در میزان مصرف منابع سرور با تنظیم میزان تاخیر بین بازدیدهای مختلف ربات‌های خزنده است. در مثال زیر ربات خزنده موظف است بین هر درخواست ۸ میلی ثانیه توقف کند. گوگل از این دستور پشتیبانی نمی‌کند و شما می‌توانید فرکانس خزش را در گوگل سرچ کنسول تنظیم کنید.

Crawl-delay: 8
خوب است بدانید:
مدیریت منابع مصرفی سرور توسط ربات‌ها امری مهم است زیرا به جز ربات‌های موتورهای جستجو، ربات‌های بد دیگری وجود دارند که به دستورات موجود در فایل robots.txt توجه نمی‌کنند. استفاده از شبکه توزیع محتوا CDN یک راه مقابله با ربات‌های بد و مدیریت مصرف منابع سرور است.

استفاده از دستور sitemap:

نقشه سایت یا سایت مپ یک فایل با پسوند XML است که تمام محتواهای مهم روی یک سایت را فهرست می‌کند و نحوه ارتباط صفحات مختلف را نمایش می‌دهد. دستور sitemap که در ادامه این دستور آدرس نقشه سایت می‌آید یک روش برای نشان دادن نقشه سایت به موتور جستجو است. این دستور برای اطمینان حاصل کردن از این است که هیچ صفحه‌ای در حین خزیدن در سایت فراموش نشود. با این وجود وجود نقشه سایت تاثیری در اولویت‌بندی خزش صفحات توسط ربات ندارد.

بعنوان مثال نحوه قرار گرفتن نقشه سایت در فایل robots.txt سایت نردبان به شکل زیر است:

sitemap: https://www.nardebangroup.com/robots.txt

استفاده از عبارت با قاعده (RegEx)

عبارت باقاعده، که تحت عنوان regex (مخفف عبارت انگلیسی regular expression) نیز نامیده می‌شود، رشته هایی هستند که برای انجام عملیات تطابق و جایگذاری عبارات در رشته استفاده می شوند . نحوه استفاده از عبارت با قاعده در فایل robots.txt را با چند مثال توضیح خواهیم داد:

User-agent: *
Disallow: *?

در مثال بالا همه ربات‌های خزنده از دسترسی به تمامی آدرسهایی که دارای کاراکتر ؟ هستند منع شده‌اند.

از کاراکتر $ برای انتخاب انتهای رشته استفاده می‌شود.

User-agent: *
Disallow: *.php$

در مثال بالا ربات‌های خزنده از دسترسی به آدرس‌هایی که به php. ختم می‌شوند منع شده‌اند. اما دسترسی به آدرس‌هایی مشابه آدرس زیر همچنان مجاز خواهد بود:
https://example.com/page.php?lang=en

User-agent: *
Disallow: *.autos$

مثلا در مثال بالا ربات‌های خزنده از دسترسی به تمام آدرس‌هایی که به autos. ختم می‌شوند منع شده‌اند.

Disallow: /*.pdf$
Disallow: /*.xls$

مثلا در مثال بالا ربات‌های خزنده از دسترسی به تمام فایل‌های پی دی اف و اکسل منع شده‌اند.

نمونه فایل Robots.txt برای سایت وردپرسی

در زیر یک نمونه بهینه سازی شده فایل ربات برای سایت‌های وردپرسی ارائه شده است با فرض اینکه:

  • شما تمایل به دسترسی ربات‌ها به قسمت ادمین ندارید.
  • تمایل به فهرست شدن نتایج جستجوی درون سایت وردپرسی ندارید.
  • تمایلی به دسترسی ربات‌ها به صفحات برچسب و نویسندگان سایت ندارید.
  • تمایلی به دسترسی ربات‌ها به صفحه ۴۰۴ سایت ندارید.
User-agent: *
Disallow: /wp-admin/ #block access to admin section
Disallow: /wp-login.php #block access to admin section
Disallow: /search/ #block access to internal search result pages
Disallow: *?s=* #block access to internal search result pages
Disallow: *?p=* #block access to pages for which permalinks fails
Disallow: *&p=* #block access to pages for which permalinks fails
Disallow: *&preview=* #block access to preview pages
Disallow: /tag/ #block access to tag pages
Disallow: /author/ #block access to author pages
Disallow: /404/ #block access to 404 page

Sitemap: وارد کردن آدرس نقشه سایت

بررسی فایل robots.txt

یکی از ابزارهای مختلف که به شما در بررسی صحت فایل robots.txt کمک می‌کند استفاده از ابزار تست robots.txt گوگل است. این ابزار از اینجا قابل دسترسی است.

همواره از عدم وجود خطا در فایل robots.txt خود اطمینان حاصل کنید.

تست-فایل-robots

پرسش‌های متداول درباره فایل Robots.txt

در این قسمت پاسخ تعدادی از سوالات متداول در مورد اهمیت robots.txt و نحوه ایجاد آن ارائه شده است. اگر پاسخ سوال شما در این قسمت نیست، سوال خود را قسمت نظرات برای ما بنویسید.

اهمیت فایل robots.txt در چیست؟

اعمال تغییرات ناخواسته در این فایل می‌تواند کل سایت یا بخش بزرگی از سایت شما را از دسترس موتورهای جستجو خارج کند. با تنظیم صحیح این فایل می‌توانید فرایند خزش در سایت خود را بهینه سازی کنید و از فهرست شدن صفحات با محتوای تکراری جلوگیری کنید.

نحوه ساخت فایل robots.txt چگونه است؟

اگر سایت شما وردپرسی است با نصب افزونه‌های سئو وردپرس نظیر رنک مث یا یوست سئو بصورت خودکار برای شما این فایل ایجاد خواهد شد. در غیر این صورت به پوشه public_html در هاست خود بروید و یک فایل متنی با نام robots.txt بسازید.

فایل robots.txt سایت من کجاست؟

شما با اضافه کردن کلمه robots.txt به انتهای ادرس سایت خود می‌توانید فایل robots.txt کنونی را ملاحظه بفرمایید. به عنوان مثال اگر دامنه شما Example.com است به ادرس example.com/robots.txt بروید و فایل robots.txt را مشاهده کنید. در صورتی که نتیجه‌ای در برنداشت باید یک فایل بسازید.

جمع بندی

پیکربندی صحیح فایل robots.txt یکی از اقدامات اساسی در بهینه سازی بودجه خزش و سئو سایت است. بررسی و ویرایش این سایت یک فاکتور رتبه بندی نیست و تنها کنترل‌کننده نحوه رفتار ربات‌های خزنده است. به خاطر داشته باشید هر سایت نیازمند فایل robots.txt خاص خودش است. از کپی کردن محتویات فایل robots.txt سایر سایت‌ها پرهیز کنید، robots.txt هر سایت مختص همان سایت است و ممکن است برای سایت شما عملکرد مناسبی نداشته باشد و فرایند ایندکس شدن صفحات سایت را دچار اختلال کند.

تجربه شما در استفاده و تنظیم این فایل چگونه است؟ آیا robots.txt سایت خود را بررسی کرده‌اید؟ چه مشکلاتی داشته اید؟ سوالات و نظرات خود را برای ما بنویسید.

منابع

در نگارش این مقاله از بخش‌هایی از مقالات زیر استفاده شده است:

با دوستانتان به اشتراک بگذارید

به اشتراک گذاری بر روی facebook
فیسبوک
به اشتراک گذاری بر روی twitter
توئیتر
به اشتراک گذاری بر روی pinterest
پینترست
به اشتراک گذاری بر روی linkedin
لینکدین
به اشتراک گذاری بر روی telegram
تلگرام
به اشتراک گذاری بر روی whatsapp
واتسپ
به این مطلب چند ستاره می‌دهید؟
(تعداد رای: 3 - امتیاز میانگین: 5)

2 دیدگاه دربارهٔ «Robots.txt چیست؟ اهمیت و نحوه ساخت فایل robots.txt»

  1. بعد از کلی گشتن تو نت دنبال پیدا کردن مشکلم، شما واقعا یه محتوای کاربردی نوشتید، بقیه یه چیز تکراری رو کپی زدن از هم.
    واقعا کارتون عالی بود موفق باشید

    1. خوشحالیم استفاده کردید. در نوشتن همه مطالب موجود در وبلاگ ما از منابع بروز و معتبر برگردان استفاده شده ضمن اینکه سعی کردیم تجربیات خودمونم به مطالبمون اضافه کنیم. پیشنهاد میکنیم به سایر مطالب وبلاگ ما هم سر بزنید.

دیدگاه‌ خود را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

دوست دارید در جریان پاسخ دیدگاه خود و یا نظرات دیگران قرار بگیرید؟

شروع ماجراجویی در وب با گروه دیجیتال نردبان

برای کسب اطلاعات بیشتر درباره خدمات نردبان و دریافت مشاوره، با ما تماس بگیرید

گام اول برای برتری در دنیای دیجیتال

عضویت در خبرنامه

شاید به این مطالب هم علاقمند باشید: