فایل robots.txt چیست؟ آموزش ساخت فایل ربات سایت

robots.txt-چیست

فایل ربات robots.txt حاوی دستورالعمل‌هایی است که برای موتورهای جستجو مشخص می‌کند اجازه دسترسی به کدام بخش‌های وبسایت را دارند و دسترسی به کدام بخش‌ها برای آن‌ها مجاز نیست. اغلب موتورهای جستجوی شناخته‌شده نظیر گوگل، بینگ و یاهو از فایل ربات پشتیبانی می‌کنند و محتویات موجود در آن را بررسی می‌کنند. مطالعه این راهنما به شما در مورد فایل robots.txt سایت و نحوه ساخت فایل ربات سایت و اهمیت آن در سئو اطلاعات زیادی خواهد داد. با مطالعه این مقاله شما می‌توانید فایل robots.txt سایت خود را ایجاد و بررسی کنید و مطابق با ساختار سایتتان اصلاح کنید.

نکته مهم:
تغییرات اعمال شده توسط شما در فایل Robots.txt امکان آسیب جدی به سئو سایت شما دارد. پس لازم است اطلاعات موجود در این مقاله را دقیقا مطالعه کنید و با آگاهی کامل نسبت به اعمال تغییرات در این فایل اقدام کنید.

robots.txt چیست؟

فایل Robots.txt یک فایل متنی ساده (با پسوند txt) است که توسط موتورهای جستجو و برخی سیستم‌های دیگر خوانده می‌شود و نام دیگر آن «Robots Exclusion Protocol» به معنی پروتکل حذف ربات‌ها است. این فایل حاصل یک اجماع بین توسعه دهندگان موتورهای جستجو در روزهای ابتدایی به وجود آمدن اینترنت است ولی همچنان اغلب موتورهای جستجو به آن پایبند هستند.

فایل robots.txt چه نقشی دارد؟

ربات موتورهای جستجو با خزیدن و بررسی صفحات سایت‌های مختلف، اطلاعات این صفحات را در پایگاه داده عظیمی ذخیره (ایندکس) کرده و با استفاده از الگوریتم رتبه بندی خود، نتایج را مرتب کرده و در صفحه نتایج موتورهای جستجو نشان می‌دهند. موتورهای جستجو لینک‌های موجود در هر صفحه را دنبال می‌کنند و از سایت A به سایت B رفته و از سایت B به سایت C و این فرایند را به همین شکل ادامه می‌دهند.

اما ربات موتور جستجو با مشاهده یک صفحه جدید در یک سایت یا دیدن یک سایت کاملا جدید که پیش از این مشاهده نکرده است، فایل Robots.txt را بررسی می‌کند تا از وضعیت مجوز برای بررسی و فهرست کردن صفحه یا سایت جدید اطلاع پیدا کند.

خوب است بدانید:
معمولا موتورهای جستجو محتویات فایل robotx.txt را ذخیره می‌کنند تا به دانلود مجدد آن نیاز نداشته باشند، با این حال روزانه چندبار نسخه جدید فایل را بارگذاری می‌کنند. پس انعکاس تغییرات اعمال شده در فایل Robots.txt زمان زیادی نخواهد برد و سریعا اعمال می‌شود.

فایل ربات سایت کجاست؟

فایل robots.txt همیشه در پوشه اصلی سایت شما (Public_html) قرار دارد. بنابراین اگر سایت شما www.example.com است فایل robots.txt باید در آدرس example.com/robots.txt قابل دسترسی باشد. به عنوان مثال فایل robots.txt سایت گروه دیجیتال نردبان از اینجا قابل مشاهده است.

نکته: نامگذاری این فایل مهم است و باید نام این فایل حتما robots.txt باشد و به حروف کوچک و بزرگ توجه شود.

خوب است بدانید:
در صورتی که سایت شما دارای ساب دامین است لازم است هریک از این ساب دامین‌ها دارای فایل robots.txt مختص خود باشند. به عنوان مثال nardebangroup.com فایل خودش را دارد و my.nardebangroup.com هم فایل robots.txt جدا دارد.

کاربرد فایل ربات در سئو چیست؟

  • سئو و کنترل ایندکس صفحات: به صورت عمومی این باور وجود دارد که ربات موتور جستجو در هنگام بازدید مجدد از یک سایت، اجازه بررسی تعداد محدودی از صفحات را دارد (میزان منابع و زمان در اختیار ربات برای بررسی مجدد صفحات یک سایت محدود است) و این مقادیر وابسته به اعتبار سایت، تعداد صفحات سایت و میزان محتواهای جدید در سایت است. متخصصان سئو این محدودیت را بودجه خزش (Crawling Budget) می‌نامند.

    اگر شما اعتقاد دارید در بودجه خزش سایت شما اشکالاتی وجود دارد پس بلاک کردن موتورهای جستجو از بررسی قسمت‌های کم اهمیت سایت، از هدر رفتن بودجه خزش جلوگیری می‌کند. با بهینه سازی فایل ربات، موتورهای جستجو از جمله گوگل می‌توانند از بررسی صفحات کم اهمیت صرف نظر کرده و به بررسی صفحات مهمتر سایت بپردازند.

    در برخی موارد بلاک کردن موتورهای جستجو از بررسی بخش‌های مشکل دار سایت شما، مخصوصا در سایت‌هایی که نیاز به پاکسازی سئویی گسترده دارند، می‌تواند مفید باشد. در نهایت پس از پیاده سازی اصلاحات سئویی می‌توانید مجددا اجازه بررسی صفحات اصلاح شده را به ربات موتورهای جستجو بدهید.
  • امنیت و حریم خصوصی: فایل robots.txt می‌تواند برای جلوگیری از ایندکس شدن اطلاعات محرمانه استفاده شود. به عنوان مثال صفحات مربوط به اطلاعات شخصی کاربران و هرگونه آدرسی در سایت که نباید به صورت عمومی منتشر شود را می‌توان با استفاده از فایل ربات محدود کرد.
  • جلوگیری از مصرف پهنای باند: جلوگیری از دسترسی ربات‌های خزنده به برخی از بخش‌های سایت موجب جلوگیری از مصرف پهنای باند می‌شود. این مساله مخصوصا برای سایت‌هایی که دارای منابع سرور (هاست) محدود هستند و به دنبال کاهش بار سرور هستند کاربرد دارد.
  • حذف محتوای تکراری: فرض کنید سایت شما یک سایت فروشگاهی است که به کاربران امکان اعمال فیلترهای مختلف می‌دهد. این فیلترها با اضافه کردن رشته‌های query string به انتهای آدرس منجر به گمراه شدن موتورهای جستجو می‌شوند. اصطلاحا به این صفحات FACETED NAVIGATION می‌گویند. آدرس‌های ایجاد شده توسط این فیلترها دارای محتواهای تکراری هستند و به سئو سایت فروشگاهی شما آسیب وارد می‌نمایند.
rocket
سایتت به سئو نیاز داره؟
هر سایتی برای رتبه گرفتن، به سئو نیاز داره. اگر تا الان روی سئوی سایتت کاری نکردی، بهتره که از همین امروز شروع کنی.

معایب robots.txt چیست؟

۱- امکان فهرست شدن صفحات بلاک شده وجود دارد: اگرچه این امکان وجود دارد که با اعمال تغییر در فایل robots.txt به ربات خزنده موتور جستجو اعلام کنید اجازه دسترسی به بخش مشخصی از سایت را ندارد، اما نمی‌توانید با تغییر فایل robots.txt از فهرست شدن صفحات ممنوع در نتایج جستجوی گوگل جلوگیری کنید. اگر لینک صفحات ممنوع در سایر صفحات سایتتان یا سایت‌های دیگر وجود داشته باشد صفحه مربوطه فهرست خواهد شد ولی از آنجایی که طبق فایل robots.txt ربات خزنده گوگل اجازه دسترسی به محتویات صفحه را ندارد، صفحه مورد نظر در نتایج جستجو به شکل زیر و بدون توضیحات نمایش داده می شود:

صفحه بلاک شده در فایل robots.txt
صفحات بلاک شده در فایل ربات، ممکن است بدلیل تعداد زیاد لینک‌های داخلی و خارجی توسط گوگل ایندکس شوند.

اگر قصد این را دارید که به صورت قابل اطمینان یک صفحه را از نتایج جستجو حذف کنید باید از تگ noindex در صفحه مورد نظر استفاده کنید. برای مشاهده این تگ باید اجازه بررسی صفحه و مشاهده این تگ را به موتور جستجو بدهید. پس بهتر است صفحه را در robots.txt بلاک نکنید.

آموزش تصویری بهینه سازی فایل ربات سایت🎯این ویدیو در یوتیوب بارگذاری شده است🎯
برای دیدن آن لطفا فـیـلـتـر‌شـکـن خود را روشن کنید.

۲- عدم امکان توزیع اعتبار لینک: اگر موتور جستجو نتواند یک صفحه را بررسی کند امکان توزیع اعتبار لینک به لینک‌های موجود در آن صفحه را ندارد. وقتی یک صفحه در فایل robots.txt بلاک می‌شود برای ربات موتور جستجو تبدیل به بن بست می‌شود و اعتبار لینک امکان توزیع در صفحه و سایر صفحات لینک داده شده در صفحه بلاک شده را ندارد.

فایل robots.txt چگونه است؟ یک نمونه فایل ربات

تصویر زیر فایل robots.txt سایت یوتیوب به عنوان نمونه نمایش داده شده‌است. در ادامه به بررسی بخش‌های مختلف آن خواهیم پرداخت.

نمونه فایل robots.txt
فایل robots.txt سایت یوتیوب: همان‌گونه که مشخص است بسیاری از بخش‌های سایت نظیر قسمت نظرات، صفحه ورود و ثبت نام و چت آنلاین از دسترس موتورهای جستجو خارج شده است.

خطوط ابتدای این فایل که با علامت # شروع شده‌اند، کامنت هستند و به توضیح کلی فایل پرداخته‌اند. خطوطی که با # شروع می‌شوند توسط ربات‌های خزنده وب نادیده گرفته می‌شوند. این فایل ۳ بخش دارد و بخش های مختلف با یک خط خالی از هم جدا شده‌اند. در ادامه به توضیح دستورات مختلف خواهیم پرداخت.

user-agent چیست؟ *:user-agent یعنی چه؟

هر شخص، ربات‌ خزنده و یا هر برنامه کامپیوتری فعال روی شبکه جهانی اینترنت دارای یک user-agent یا یک نام اختصاصی است. برای کاربران واقعی user-agent شامل نوع مرورگر، و سیستم عامل است و حاوی اطلاعات شخصی نیست. این اطلاعات به وبسایت‌ها کمک می‌کند اطلاعات سازگار با سیستم کاربر را نمایش دهند.

user-agent ربات‌های خزنده به ادمین‌های سایت کمک می‌کنند تا انواع ربات‌های خزنده در حال بررسی سایت را بشناسند. در فایل robots.txt شما قادر خواهید بود تا برای ربات‌های مختلف، دستورالعمل‌های مختلفی صادر کنید.

User-agent: Mediapartners-Google در مثال فایل ربات که در تصویر قبلی آمده است، مربوط به شبکه تبلیغات AdSense گوگل است. این ربات از بررسی هیچ صفحه‌ای منع نشده است و می‌تواند تمام صفحات را بررسی کند.

در ادامه *:user-agent مشخص کننده تمامی ربات‌های خزنده است. علامت * مشخص کننده wildcard است و بیانگر این است که قانون اضافه شده برای همه ربات‌ها صادق است. برای همه ربات‌ها دسترسی به برخی صفحات نظیر نظرات، ورود، ثبت نام و … بلاک شده است.

معروف‌ترین ربات‌های خزنده وب و user-agent آن‌ها به شرح زیر است:

یوزر اجنت‌های موتور جستجوی Google:

  • Googlebot
  • Googlebot-Image (برای تصاویر)
  • Googlebot-News (برای اخبار)
  • Googlebot-Video (برای ویدیو)

یوزر اجنت‌های موتور جستجوی Bing

  • Bingbot
  • MSNBot-Media (برای تصاویر و ویدیو)

یوزر اجنت‌ موتور جستجوی چینی بایدو

  • Baiduspider

یوزر اجنت‌ موتور جستجوی یاهو

  • Slurp

نحوه بهینه سازی فایل robots.txt سایت

نحوه استفاده از دستور disallow

دستور Disallow از پرکاربردترین دستورات در فایل robots.txt است. این دستور مشخص کننده صفحه یا صفحات غیر قابل دسترس برای ربات‌های خزنده وب است. مجددا باید تکرار کنیم که استفاده از این دستور صرفا صفحات را از دسترسی ربات‌ها مخفی می‌کند و ممکن است کاربر با کلیک روی لینک این صفحات امکان بازدید صفحه را داشته باشد و یا حتی این صفحات در نتایج جستجو فهرست شوند.

جلوگیری از دسترسی موتورهای جستجو به یک صفحه خاص

برای مثال اگر قصد داشتیم صفحه تماس با ما در سایت نردبان با آدرس https://www.nardebangroup.com/contact را از دسترس ربات‌ها خارج کنیم، دستور مربوطه به شکل زیر خواهد بود:

user-agent:*
Disallow: /contact/

جلوگیری از دسترسی موتورهای جستجو به یک دایرکتوری

در برخی موارد شاید لازم باشد تا تمام صفحات موجود در یک دایرکتوری را از دسترس ربات‌ها خارج کرد. به عنوان مثال اگر قصد داشته باشیم تمام صفحات موجود در دایرکتوری مربوط به کارمندان به آدرس زیر «https://www.nardebangroup.com/employees»را از دسترسی ربات‌ بایدو خارج کنیم دستور لازم به شکل زیر خواهد بود:

user-agent: Baiduspider
Disallow: /employees/

بدین ترتیب تمامی صفحات موجود در وبلاگ از دسترس ربات بایدو خارج خواهد شد.

اعطای دسترسی کامل به موتورهای جستجو

برای صدور دسترسی کامل به کل سایت برای ربات‌های خزنده دستور Disallow به شکل زیر خواهد بود.

Disallow:

نحوه مخفی کردن کل سایت از موتورهای جستجو

Disallow: /

«/» بیانگر صفحه اصلی وبسایت و تمامی صفحات ذیل آن است. در صورت وجود این دستور موتورهای جستجو توانایی خزیدن در هیچ یک از صفحات وبسایت را ندارند. البته لازم به ذکر است این یک روش مطمئن برای جلوگیری از نمایش سایت شما در موتورهای جستجو نیست و باید صفحات سایت را no-index کنید.

نحوه استفاده از دستور Allow *

این دستور به ربات‌ها اجازه می‌دهد به یک صفحه یا بخش وبسایت دسترسی پیدا کنند. از کاربردهای این دستور زمانی است که شما بخش بزرگی از سایت را بلاک کرده‌اید و قصد دارید اجازه دسترسی به یک یا چند صفحه از همان بخش را به ربات‌های خزنده بدهید. برخی موتورهای جستجو این دستور را شناسایی نمی‌کنند. پس باید در استفاده از آن احتیاط کنید.

در مثال زیر تمامی ربات‌ها از دسترسی به دایرکتوری media منع شده‌اند اما در عین حال اجازه دسترسی به یک فایل پی دی اف با عنوان terms-and-conditions.pdf موجود در دایرکتوری media داده شده است.

User-agent: *
Allow: /media/terms-and-conditions.pdf
Disallow: /media/

نحوه استفاده از دستور Crawl-delay *

هدف این دستور تعیین محدودیت در میزان مصرف منابع سرور با تنظیم میزان تاخیر بین بازدیدهای مختلف ربات‌های خزنده است. در مثال زیر ربات خزنده موظف است بین هر درخواست ۸ میلی ثانیه توقف کند. گوگل از این دستور پشتیبانی نمی‌کند.

Crawl-delay: 8
خوب است بدانید:
مدیریت منابع مصرفی سرور توسط ربات‌ها امری مهم است زیرا به جز ربات‌های موتورهای جستجو، ربات‌های بد دیگری وجود دارند که به دستورات موجود در فایل robots.txt توجه نمی‌کنند. استفاده از شبکه توزیع محتوا CDN یک راه مقابله با ربات‌های بد و مدیریت مصرف منابع سرور است.

استفاده از دستور sitemap:

نقشه سایت یا سایت مپ یک فایل با پسوند XML است که تمام محتواهای مهم روی یک سایت را فهرست می‌کند و نحوه ارتباط صفحات مختلف را نمایش می‌دهد. دستور sitemap که در ادامه این دستور آدرس نقشه سایت می‌آید یک روش برای نشان دادن نقشه سایت به موتور جستجو است. این دستور برای اطمینان حاصل کردن از این است که هیچ صفحه‌ای در حین خزیدن در سایت فراموش نشود. با این وجود وجود نقشه سایت تاثیری در اولویت‌بندی خزش صفحات توسط ربات ندارد.

بعنوان مثال نحوه قرار گرفتن نقشه سایت در فایل robots.txt سایت نردبان به شکل زیر است:

sitemap: https://www.nardebangroup.com/sitemap_index.xml

استفاده از عبارت با قاعده (RegEx)

در بهینه سازی فایل ربات برای سئو، حالت‌هایی وجود دارد که بایستی با تعریف الگو قوانین را تعریف کنید و تعریف قوانین بصورت تک به تک برای هر صفحه زمانبر است.  عبارت باقاعده، که تحت عنوان regex (مخفف عبارت انگلیسی regular expression) نیز نامیده می‌شود، رشته‌هایی هستند که برای انجام عملیات تطابق و جایگذاری عبارات در رشته استفاده می شوند. نحوه استفاده از عبارت با قاعده در فایل robots.txt را با چند مثال توضیح خواهیم داد:

User-agent: *
Disallow: *?

در مثال بالا همه ربات‌های خزنده از دسترسی به تمامی آدرسهایی که دارای کاراکتر ؟ هستند منع شده‌اند.

از کاراکتر $ برای انتخاب انتهای رشته استفاده می‌شود.

User-agent: *
Disallow: *.php$

در مثال بالا ربات‌های خزنده از دسترسی به آدرس‌هایی که به php. ختم می‌شوند منع شده‌اند. اما دسترسی به آدرس‌هایی مشابه آدرس زیر همچنان مجاز خواهد بود:
https://example.com/page.php?lang=en

User-agent: *
Disallow: *.autos$

در مثال بالا ربات‌های خزنده از دسترسی به تمام آدرس‌هایی که به autos. ختم می‌شوند منع شده‌اند.

Disallow: /*.pdf$
Disallow: /*.xls$

در این مثال ربات‌های خزنده از دسترسی به تمام فایل‌های پی دی اف و اکسل منع شده‌اند.

نمونه فایل Robots.txt برای سایت وردپرسی

برای مشاهده و ویرایش فایل ربات در وردپرس یا هر سایت دیگری به فایل منیجر در پنل هاست مراجعه کنید و درون فولدر public_html به دنبال فایل robots.txt بگردید. خوب است بدانید که وردپرس بصورت پیش فرض یک فایل ربات مجازی میسازد که محتوای آن بصورت زیر است:

User-agent: *
Disallow: /wp-admin/
Allow: /wp-admin/admin-ajax.php

منظور از فایل ربات مجازی این است که فایل ربات بصورت فیزیکی در پوشه public_html سایت وجود ندارد و وردپرس در هنگام درخواست فایل ربات این فایل را تولید کرده و ارسال می‌کند. اگر از افزونه‌های سئو نظیر یوست سئو و رنک مث استفاده می‌کنید، این افزونه‌ها تغییراتی در این فایل ربات مجازی داده و دستوراتی از جمله دستور نقشه سایت را به فایل ربات اضافه می‌کنند.

در زیر یک نمونه بهینه سازی شده فایل ربات برای سایت‌های وردپرسی ارائه شده است با فرض اینکه:

  • شما تمایل به دسترسی ربات‌ها به قسمت ادمین ندارید.
  • تمایل به فهرست شدن نتایج جستجوی درون سایت وردپرسی ندارید.
  • تمایلی به دسترسی ربات‌ها به صفحات برچسب و نویسندگان سایت ندارید.
  • تمایلی به دسترسی ربات‌ها به صفحه ۴۰۴ سایت ندارید.
User-agent: *
Disallow: /wp-admin/ #block access to admin section
Disallow: /wp-login.php #block access to admin section
Disallow: /search/ #block access to internal search result pages
Disallow: *?s=* #block access to internal search result pages
Disallow: *?p=* #block access to pages for which permalinks fails
Disallow: *&p=* #block access to pages for which permalinks fails
Disallow: *&preview=* #block access to preview pages
Disallow: /tag/ #block access to tag pages
Disallow: /author/ #block access to author pages
Disallow: /404/ #block access to 404 page

sitemap:https://www.nardebangroup.com/sitemap.xml  #Yadet nare inja address sitemap site khodeto bezani 

بررسی وضعیت فایل robots.txt در گوگل سرچ کنسول

گوگل در اکتبر ۲۰۲۳ گزارش فایل ربات را به گوگل سرچ کنسول اضافه کرد. برای مشاهده گزارش robots.txt در سرچ کنسول، مطابق تصویر زیر در گوگل سرچ کنسول باید از قسمت settings روی گزینه open report کلیک کنید.

فایل ربات در گوگل سرچ کنسول کجاست

در این گزارش می‌توانید وضعیت فایل ربات را ببینید. با زدن روی دکمه سه نقطه و بعد گزینه request a recrawl می‌توانید درخواست بررسی مجدد فایل ربات توسط گوگل را بدهید. با زدن روی فایل ربات صفحه‌ای باز می‌شود که آخرین نسخه فایل ربات نزد گوگل را نمایش می‌دهد. با کلیک روی گزینه versions در سمت راست می‌توانید تاریخچه و سایر نسخه‌های فایل ربات را مشاهده کنید.

فایل ربات با گوگل سرچ کنسول

نحوه تست فایل ربات سایت

اطمینان از صحیح بودن و عملکرد درست فایل ربات برای سئوی سایت مساله مهمی است. ممکن است شما اشتباها دسترسی گوگل به بخش‌های مهمی از سایت را ببندید و باعث افت شدید رتبه سایت شود. قبلا گوگل ابزار رسمی robots.txt tester را داشت که در دسامبر ۲۰۲۳ این ابزار بازنشسته شد.

برای تست ربات میتوانید از سایت technicalseo.com استفاده کنید. این ابزار عملکردی مشابه ابزار سابق گوگل دارد. کافی است آدرس یک صفحه از سایت را وارد این ابزار کنید. این ابزار به صورت خودکار فایل ربات سایت را بررسی کرده و بر اساس دستورات موجود در فایل ربات وضعیت دسترسی به صفحه بر اساس ربات انتخاب شده را نمایش خواهد داد.

تست فایل ربات
تست فایل ربات سایت با استفاده از ابزار technicalseo.com

یک نمونه فایل ربات جالب

گاها برخی از فایل های ربات حاوی پیام های جالبی است که در زیر یک نمونه از سایت نایکی اورده شده است:ٰ

User-agent: Sogou spider2
Allow: /cn$
Allow: /cn/
Allow: /CN$
Allow: /CN/
Allow: /assets/
Allow: /static/
Allow: /styleguide/
Disallow: */w?q=
Disallow: */w/?q=
Disallow: /

Sitemap: https://www.nike.com/sitemap-us-help.xml
Sitemap: https://www.nike.com/sitemap-landingpage-index.xml
Sitemap: https://www.nike.com/sitemap-pdp-index.xml
Sitemap: https://www.nike.com/sitemap-launch-index.xml
Sitemap: https://www.nike.com/sitemap-wall-index.xml
Sitemap: https://www.nike.com/sitemap-article-index.xml
Sitemap: https://www.nike.com/sitemap-locator-index.xml

#                                                                                                    
#                 ``                                                                        ```.`    
#               `+/                                                                 ``.-/+o+:-.      
#             `/mo                                                          ``.-:+syhdhs/-`          
#            -hMd                                                    `..:+oyhmNNmds/-`               
#          `oNMM/                                            ``.-/oyhdmMMMMNdy+:.                    
#         .hMMMM-                                     `.-/+shdmNMMMMMMNdy+:.                         
#        :mMMMMM+                             `.-:+sydmNMMMMMMMMMNmho:.`                             
#       :NMMMMMMN:                    `.-:/oyhmmNMMMMMMMMMMMNmho:.`                                  
#      .NMMMMMMMMNy:`          `.-/oshdmNMMMMMMMMMMMMMMMmhs/-`                                       
#      hMMMMMMMMMMMMmhysooosyhdmNMMMMMMMMMMMMMMMMMMmds/-`                                            
#     .MMMMMMMMMMMMMMMMMMMMMMMMMMMMMMMMMMMMMMMNdy+-.`                                                
#     -MMMMMMMMMMMMMMMMMMMMMMMMMMMMMMMMMMNdy+-.`                                                     
#     `NMMMMMMMMMMMMMMMMMMMMMMMMMMMMMmyo:.`                                                          
#      /NMMMMMMMMMMMMMMMMMMMMMMMmho:.`                                                               
#       .yNMMMMMMMMMMMMMMMMmhs/.`                                                                    
#         ./shdmNNmmdhyo/-``                                                                         
#

پرسش‌های متداول درباره فایل Robots.txt

در این قسمت پاسخ تعدادی از سوالات متداول در مورد اهمیت robots.txt و نحوه ایجاد آن ارائه شده است. اگر پاسخ سوال شما در این قسمت نیست، سوال خود را قسمت نظرات برای ما بنویسید.

نحوه ساخت فایل robots.txt در وردپرس چگونه است؟

اگر سایت شما وردپرسی است با نصب افزونه‌های سئو وردپرس نظیر رنک مث یا یوست سئو به صورت خودکار برای شما این فایل ایجاد خواهد شد. در غیر این صورت به پوشه public_html در هاست خود بروید و یک فایل متنی با نام robots.txt ایجاد کنید و محتوای آن را مطابق با نیازهای خود و مطالب ارائه شده در این مقاله اصلاح کنید.

اگر ربات گوگل نتواند فایل ربات را پیدا کند یا نتواند آنرا بخواند چه می‌شود؟

اگر فایل robots.txt برای یک دامنه یا زیر دامنه پیدا نشد، گوگل فرض می کند که اجازه دارد در هر URLی در آن دامنه بخزد.

اگر گوگل فایل robots.txt را پیدا کند اما نتواند آن را واکشی کند، گوگل این رفتارها را دنبال می‌کند:
۱- در 12 ساعت اول، گوگل خزیدن در سایت را متوقف می کند اما به تلاش برای واکشی فایل robots.txt ادامه می دهد.
۲- اگر گوگل نتواند نسخه جدید فایل ربات را واکشی کند، تا 30 روز آینده گوگل از آخرین نسخه قابل قبول فایل ربات استفاده خواهد کرد، در حالی که همچنان در تلاش برای واکشی نسخه جدید است. می توانید آخرین نسخه قابل قبول را در گزارش فایل ربات گوگل سرچ کنسول مشاهده کنید.
۳- اگر بعد از 30 روز همچنان خطاها برطرف نشدند، دو حالت پیش می‌آید:
– اگر سایت به طور کلی در دسترس گوگل باشد، گوگل طوری رفتار می کند که گویی فایل robots.txt وجود ندارد (اما همچنان به بررسی نسخه جدید ادامه می‌دهد).
– اگر سایت مشکل در دسترس بودن داشته باشد (مشکل در هاست یا دامنه یا مشکلات فنی)، Google خزیدن در سایت را متوقف می کند، در حالی که هنوز به صورت دوره ای یک فایل robots.txt درخواست می کند.

اگر گوگل فایل robots.txt را پیدا کند و بتواند آن را واکشی کند: گوگل فایل را خط به خط می خواند. اگر خطی دارای خطا باشد یا نتوان آن را با دستورالعمل‌های استاندارد robots.txt تجزیه کرد، از آن صرف نظر می شود.

اگر هیچ خط معتبری در فایل وجود نداشته باشد، گوگل آن را به عنوان یک فایل robots.txt خالی در نظر می گیرد، به این معنی که هیچ قانونی برای سایت اعلام نشده است.

خطای “Indexed, though blocked by robots.txt” در سرچ کنسول یعنی چه؟

این خطا در گوگل سرچ کنسول به معنی این است که برخی از صفحاتی که توسط فایل ربات از دسترس ربات گوگل خارج شده و بلاک شده‌اند، ایندکس شده‌اند. این خطا بیشتر در سایت‌های فروشگاهی اتفاق می‌افتد و طبق نظر گوگل خطای غیربحرانی (non-critical) است. حل این مشکل بسته به سایت و شرایط آن راه حل‌های متفاوتی دارد.

چطور بات های هوش مصنوعی نظیر ChatGPT را از دسترسی به محتوای سایت بلاک کنیم؟

با استفاده از دستورات زیر می‌توانید دسترسی ربات‌های هوش مصنوعی به محتوای سایتتان را ببندید:

User-agent: CCBot
User-agent: Google-Extended
User-agent: GPTBot
User-agent: ChatGPT-User
User-agent: Omgilibot
User-agent: Omgili
User-agent: FacebookBot
User-agent: anthropic-ai
User-agent: cohere-ai
Disallow: /

آیا سایت‌ها و تولیدکنندگان محتوا می‌توانند دسترسی ربات‌های خزنده گوگل، بینگ و ChatGPT را برای استفاده از محتوایشان در آموزش مدل‌های زبانی و هوش مصنوعیشان ببندند ولی همچنان در نتایج جستجوی ChatGPT و گوگل و بینگ ظاهر شوند؟

بله سایت‌هایی که علاقه‌مند هستند در نتایج جستجوی ChatGPT، گوگل و بینگ حضور داشته باشند، اما همچنان می‌خواهند از استفاده محتوای خود توسط آن‌ها و سایر شرکت‌های هوش مصنوعی برای آموزش مدل‌های زبان بزرگ (LLM) جلوگیری کنند، می‌توانند از این لیست دستورات در فایل robots.txt خود استفاده کنند.
User-agent: Amazonbot
User-agent: Anthropic-ai
User-agent: Applebot-Extended
User-agent: AwarioRssBot
User-agent: AwarioSmartBot
User-agent: Bytespider
User-agent: CCBot
User-agent: ChatGPT-User
User-agent: ClaudeBot
User-agent: Claude-Web
User-agent: Cohere-ai
User-agent: DataForSeoBot
User-agent: FacebookBot
User-agent: Google-Extended
User-agent: GPTBot
User-agent: ImagesiftBot
User-agent: Magpie-crawler
User-agent: Omgili
User-agent: Omgilibot
User-agent: Peer39_crawler
User-agent: Peer39_crawler/1.0
User-agent: PerplexityBot
User-agent: YouBot
Disallow: /

جمع بندی

پیکربندی صحیح فایل robots.txt یکی از اقدامات اساسی در بهینه سازی بودجه خزش و سئو سایت است. بررسی و ویرایش فایل ربات TXT سایت یک فاکتور رتبه بندی نیست و تنها کنترل‌کننده نحوه رفتار ربات‌های خزنده است. به خاطر داشته باشید هر سایت نیازمند فایل robots.txt خاص خودش است. از کپی کردن محتویات فایل robots.txt سایر سایت‌ها پرهیز کنید. robots.txt هر سایت مختص همان سایت است و ممکن است برای سایت شما عملکرد مناسبی نداشته باشد و فرایند ایندکس شدن صفحات سایت را دچار اختلال کند.

تجربه شما در استفاده و تنظیم این فایل چگونه است؟ آیا robots.txt سایت خود را بررسی کرده‌اید؟ چه مشکلاتی داشته اید؟ سوالات و نظرات خود را برای ما بنویسید.

به این مطلب چند ستاره می‌دهید؟ (کمترین امتیاز سمت راست، بیشترین امتیاز سمت چپ)
(تعداد رای: 6 - امتیاز میانگین: 5)

10 دیدگاه دربارهٔ «فایل robots.txt چیست؟ آموزش ساخت فایل ربات سایت»

  1. تصویر عکس آواتار مینا

    تو فایل روبوتس من جلوی :Disallow
    نوشته /process/
    این معنیش یعنی چی؟
    مشکلی داره یا نداره؟

    1. تصویر عکس آواتار سلمان محمدی
      سلمان محمدی

      سلام
      این دستور یعنی آدرسهایی که داخل دایرکتوری /process/ هستند (ادرسهایی که /process/ توشون هست ) از دسترس ربات گوگل خارج شدن و ایندکس نمیشن. وبسایت رو باید بررسی کرد و بعد نظر داد. میتونید از خدمات مشاوره سئوی ما استفاده کنید.

  2. تصویر عکس آواتار امیر

    سلام خستته نباشید

    وقتی ادرس فایل robots.txt رو توی مرورگر میزنم، ارور 404 میده. میدونید چطوریی میشه ارور رو برطرف کرد؟

    1. تصویر عکس آواتار سلمان محمدی
      سلمان محمدی

      سلام
      چک کنید ببینید فایل ربات رو به درستی ایجاد کردید و فایل داخل پوشه public_html وجود داره یا نه. اسم فایل رو شاید اشتباه گذاشتید. اگر وجود داره و ارور ۴۰۴ میده نمیشه خیلی نظر داد و باید بررسی کرد دید مشکل از کجاست.

  3. تصویر عکس آواتار alizadeh

    سلام وقت بخیر
    من وقتی آدرس سایت رو میزنم و بعد robots.txt/ میزنم، فایلشو میاره به این صورت:
    # START YOAST BLOCK
    # —————————
    User-agent: *
    Disallow:

    Sitemap: https://domain.com/sitemap_index.xml
    # —————————
    # END YOAST BLOCK

    اما داخل public_html اصلا وجود نداره. من هیچ فایلی با نام robots.txt داخل root سایتم ندارم.
    این فایل الان داخل سایت من کجاس؟

    1. تصویر عکس آواتار سلمان محمدی
      سلمان محمدی

      سلام
      افزونه‌های سئو مثل یوست سئو و رنک مث بلافاصله بعد از نصب روی وردپرس، فایل ربات رو ایجاد می‌کنند. فایل ربات تولید شده توسط یوست سئو روی پایگاه داده ذخیره میشود و داخل فولدر public_html نیست. برای ویرایش این فایل در افزونه یوست سئو به قسمت ابزارها=> ویرایشگر پرونده مراجعه کنید. لازم به ذکر است اگر فایل robots.txt رو داخل فولدر public_html ایجاد کنید، فایل ایجاد شده مستقل از افزونه یوست سئو خواهد بود و امکان ویرایش ان از طریق افزونه را نخواهید داشت.

      1. تصویر عکس آواتار ALIZADEH

        سلام خیلی ممنون از پاسختون من از هر کسی پرسیدم به جواب نرسیدم فقط شما گفتید فایل ربات یواست روی پایگاه داده ذخیره میشه.
        من چندتا سوال داشتم ازتون ممنون میشم پاسخ بدید.
        1- اینکه گفتید ” فایل ربات تولید شده توسط یوست سئو روی پایگاه داده ذخیره میشود ” دقیقا کجای پایگاه داده در کدوم جدول ذخیره میشه؟
        2- من در قسمت ابزار ها در افزونه یواست سئو ویرایشگر پرونده ندارم توی چند تا فیلم هم دیدم در این قسمت میتونیم فایل ربات و htaccess رو ویرایش کنیم اما به جای ویرایشگر پرونده، ویرایشگر دسته جمعی دارم که برای برگه ها و نوشته ها و محصولات هست اینو میشه بفرمایید چطوری فعالش کنم که ویرایشگر پرونده داشته باشم؟
        3- من اگر فایل ربات جدید در public html ایجاد کنم خب دستوراتش با اونی که یواست میسازه فرق میکنه و جفتشم رو سایت هست بعد گوگل از کجا بفهمه کدوم درسته؟
        4- نمیشه کلا فایل رباتی که یواست میسازه رو حذف کرد و از فایل که خودمون ساختیم استفاده کرد؟چطوری؟

        1. تصویر عکس آواتار سلمان محمدی
          سلمان محمدی

          سلام
          ۱- اطلاع دقیقی در مورد اینکه کجای پایگاه داده ذخیره میشه ندارم.
          ۲- احتمالا نسخه یوست سئوتون متفاوت بوده با آموزشایی که دیدین.
          ۳- یوست سئو اگه فایل ربات توی فولدر public_html نباشه، فایل ربات خودشو میسازه. اگه فایل توی هاست باشه یوست سئو دیگه کاریش نمیکنه و باید از داخل همون هاست فایل رباتو ادیتش کنید.

  4. تصویر عکس آواتار رضا

    بعد از کلی گشتن تو نت دنبال پیدا کردن مشکلم، شما واقعا یه محتوای کاربردی نوشتید، بقیه یه چیز تکراری رو کپی زدن از هم.
    واقعا کارتون عالی بود موفق باشید

    1. تصویر عکس آواتار سلمان محمدی

      خوشحالیم استفاده کردید. پیشنهاد میکنیم به سایر مطالب وبلاگ ما هم سر بزنید.

دیدگاه‌ها بسته شده‌اند.

شاید به این مطالب هم علاقمند باشید
ماجراجویی در وب با گروه دیجیتال نردبان

برای کسب اطلاعات بیشتر درباره خدمات سئو، مشاوره سئو و طراحی سایت با ما تماس بگیرید

کانال یوتیوب ما را دنبال کنید

برای دیدن بروزترین آموزش‌های سئو، کانال ما در یوتیوب را دنبال کنید