فایل ربات robots.txt حاوی دستورالعملهایی است که برای موتورهای جستجو مشخص میکند اجازه دسترسی به کدام بخشهای وبسایت را دارند و دسترسی به کدام بخشها برای آنها مجاز نیست. اغلب موتورهای جستجوی شناختهشده نظیر گوگل، بینگ و یاهو از فایل ربات پشتیبانی میکنند و محتویات موجود در آن را بررسی میکنند. مطالعه این راهنما به شما در مورد فایل robots.txt سایت و نحوه ساخت فایل ربات سایت و اهمیت آن در سئو اطلاعات زیادی خواهد داد. با مطالعه این مقاله شما میتوانید فایل robots.txt سایت خود را ایجاد و بررسی کنید و مطابق با ساختار سایتتان اصلاح کنید.
robots.txt چیست؟
فایل Robots.txt یک فایل متنی ساده (با پسوند txt) است که توسط موتورهای جستجو و برخی سیستمهای دیگر خوانده میشود و نام دیگر آن «Robots Exclusion Protocol» به معنی پروتکل حذف رباتها است. این فایل حاصل یک اجماع بین توسعه دهندگان موتورهای جستجو در روزهای ابتدایی به وجود آمدن اینترنت است ولی همچنان اغلب موتورهای جستجو به آن پایبند هستند.
مطالعه بیشتر: موتور جستجو چیست و چگونه کار میکند؟
فایل robots.txt چه نقشی دارد؟
ربات موتورهای جستجو با خزیدن و بررسی صفحات سایتهای مختلف، اطلاعات این صفحات را در پایگاه داده عظیمی ذخیره (ایندکس) کرده و با استفاده از الگوریتم رتبه بندی خود، نتایج را مرتب کرده و در صفحه نتایج موتورهای جستجو نشان میدهند. موتورهای جستجو لینکهای موجود در هر صفحه را دنبال میکنند و از سایت A به سایت B رفته و از سایت B به سایت C و این فرایند را به همین شکل ادامه میدهند.
اما ربات موتور جستجو با مشاهده یک صفحه جدید در یک سایت یا دیدن یک سایت کاملا جدید که پیش از این مشاهده نکرده است، فایل Robots.txt را بررسی میکند تا از وضعیت مجوز برای بررسی و فهرست کردن صفحه یا سایت جدید اطلاع پیدا کند.
مطالعه بیشتر: ایندکس گوگل چیست؟ ایندکس شدن صفحه در گوگل به چه معناست؟
فایل ربات سایت کجاست؟
فایل robots.txt همیشه در پوشه اصلی سایت شما (Public_html) قرار دارد. بنابراین اگر سایت شما www.example.com است فایل robots.txt باید در آدرس example.com/robots.txt قابل دسترسی باشد. به عنوان مثال فایل robots.txt سایت گروه دیجیتال نردبان از اینجا قابل مشاهده است.
نکته: نامگذاری این فایل مهم است و باید نام این فایل حتما robots.txt باشد و به حروف کوچک و بزرگ توجه شود.
کاربرد فایل ربات در سئو چیست؟
- سئو و کنترل ایندکس صفحات: به صورت عمومی این باور وجود دارد که ربات موتور جستجو در هنگام بازدید مجدد از یک سایت، اجازه بررسی تعداد محدودی از صفحات را دارد (میزان منابع و زمان در اختیار ربات برای بررسی مجدد صفحات یک سایت محدود است) و این مقادیر وابسته به اعتبار سایت، تعداد صفحات سایت و میزان محتواهای جدید در سایت است. متخصصان سئو این محدودیت را بودجه خزش (Crawling Budget) مینامند.
اگر شما اعتقاد دارید در بودجه خزش سایت شما اشکالاتی وجود دارد پس بلاک کردن موتورهای جستجو از بررسی قسمتهای کم اهمیت سایت، از هدر رفتن بودجه خزش جلوگیری میکند. با بهینه سازی فایل ربات، موتورهای جستجو از جمله گوگل میتوانند از بررسی صفحات کم اهمیت صرف نظر کرده و به بررسی صفحات مهمتر سایت بپردازند.
در برخی موارد بلاک کردن موتورهای جستجو از بررسی بخشهای مشکل دار سایت شما، مخصوصا در سایتهایی که نیاز به پاکسازی سئویی گسترده دارند، میتواند مفید باشد. در نهایت پس از پیاده سازی اصلاحات سئویی میتوانید مجددا اجازه بررسی صفحات اصلاح شده را به ربات موتورهای جستجو بدهید. - امنیت و حریم خصوصی: فایل robots.txt میتواند برای جلوگیری از ایندکس شدن اطلاعات محرمانه استفاده شود. به عنوان مثال صفحات مربوط به اطلاعات شخصی کاربران و هرگونه آدرسی در سایت که نباید به صورت عمومی منتشر شود را میتوان با استفاده از فایل ربات محدود کرد.
- جلوگیری از مصرف پهنای باند: جلوگیری از دسترسی رباتهای خزنده به برخی از بخشهای سایت موجب جلوگیری از مصرف پهنای باند میشود. این مساله مخصوصا برای سایتهایی که دارای منابع سرور (هاست) محدود هستند و به دنبال کاهش بار سرور هستند کاربرد دارد.
- حذف محتوای تکراری: فرض کنید سایت شما یک سایت فروشگاهی است که به کاربران امکان اعمال فیلترهای مختلف میدهد. این فیلترها با اضافه کردن رشتههای query string به انتهای آدرس منجر به گمراه شدن موتورهای جستجو میشوند. اصطلاحا به این صفحات FACETED NAVIGATION میگویند. آدرسهای ایجاد شده توسط این فیلترها دارای محتواهای تکراری هستند و به سئو سایت فروشگاهی شما آسیب وارد مینمایند.
معایب robots.txt چیست؟
۱- امکان فهرست شدن صفحات بلاک شده وجود دارد: اگرچه این امکان وجود دارد که با اعمال تغییر در فایل robots.txt به ربات خزنده موتور جستجو اعلام کنید اجازه دسترسی به بخش مشخصی از سایت را ندارد، اما نمیتوانید با تغییر فایل robots.txt از فهرست شدن صفحات ممنوع در نتایج جستجوی گوگل جلوگیری کنید. اگر لینک صفحات ممنوع در سایر صفحات سایتتان یا سایتهای دیگر وجود داشته باشد صفحه مربوطه فهرست خواهد شد ولی از آنجایی که طبق فایل robots.txt ربات خزنده گوگل اجازه دسترسی به محتویات صفحه را ندارد، صفحه مورد نظر در نتایج جستجو به شکل زیر و بدون توضیحات نمایش داده می شود:
اگر قصد این را دارید که به صورت قابل اطمینان یک صفحه را از نتایج جستجو حذف کنید باید از تگ noindex در صفحه مورد نظر استفاده کنید. برای مشاهده این تگ باید اجازه بررسی صفحه و مشاهده این تگ را به موتور جستجو بدهید. پس بهتر است صفحه را در robots.txt بلاک نکنید.
برای دیدن آن لطفا فـیـلـتـرشـکـن خود را روشن کنید.
۲- عدم امکان توزیع اعتبار لینک: اگر موتور جستجو نتواند یک صفحه را بررسی کند امکان توزیع اعتبار لینک به لینکهای موجود در آن صفحه را ندارد. وقتی یک صفحه در فایل robots.txt بلاک میشود برای ربات موتور جستجو تبدیل به بن بست میشود و اعتبار لینک امکان توزیع در صفحه و سایر صفحات لینک داده شده در صفحه بلاک شده را ندارد.
فایل robots.txt چگونه است؟ یک نمونه فایل ربات
تصویر زیر فایل robots.txt سایت یوتیوب به عنوان نمونه نمایش داده شدهاست. در ادامه به بررسی بخشهای مختلف آن خواهیم پرداخت.
خطوط ابتدای این فایل که با علامت # شروع شدهاند، کامنت هستند و به توضیح کلی فایل پرداختهاند. خطوطی که با # شروع میشوند توسط رباتهای خزنده وب نادیده گرفته میشوند. این فایل ۳ بخش دارد و بخش های مختلف با یک خط خالی از هم جدا شدهاند. در ادامه به توضیح دستورات مختلف خواهیم پرداخت.
user-agent چیست؟ *:user-agent یعنی چه؟
هر شخص، ربات خزنده و یا هر برنامه کامپیوتری فعال روی شبکه جهانی اینترنت دارای یک user-agent یا یک نام اختصاصی است. برای کاربران واقعی user-agent شامل نوع مرورگر، و سیستم عامل است و حاوی اطلاعات شخصی نیست. این اطلاعات به وبسایتها کمک میکند اطلاعات سازگار با سیستم کاربر را نمایش دهند.
user-agent رباتهای خزنده به ادمینهای سایت کمک میکنند تا انواع رباتهای خزنده در حال بررسی سایت را بشناسند. در فایل robots.txt شما قادر خواهید بود تا برای رباتهای مختلف، دستورالعملهای مختلفی صادر کنید.
User-agent: Mediapartners-Google در مثال فایل ربات که در تصویر قبلی آمده است، مربوط به شبکه تبلیغات AdSense گوگل است. این ربات از بررسی هیچ صفحهای منع نشده است و میتواند تمام صفحات را بررسی کند.
در ادامه *:user-agent مشخص کننده تمامی رباتهای خزنده است. علامت * مشخص کننده wildcard است و بیانگر این است که قانون اضافه شده برای همه رباتها صادق است. برای همه رباتها دسترسی به برخی صفحات نظیر نظرات، ورود، ثبت نام و … بلاک شده است.
معروفترین رباتهای خزنده وب و user-agent آنها به شرح زیر است:
یوزر اجنتهای موتور جستجوی Google:
- Googlebot
- Googlebot-Image (برای تصاویر)
- Googlebot-News (برای اخبار)
- Googlebot-Video (برای ویدیو)
یوزر اجنتهای موتور جستجوی Bing
- Bingbot
- MSNBot-Media (برای تصاویر و ویدیو)
یوزر اجنت موتور جستجوی چینی بایدو
- Baiduspider
یوزر اجنت موتور جستجوی یاهو
- Slurp
نحوه بهینه سازی فایل robots.txt سایت
نحوه استفاده از دستور disallow
دستور Disallow از پرکاربردترین دستورات در فایل robots.txt است. این دستور مشخص کننده صفحه یا صفحات غیر قابل دسترس برای رباتهای خزنده وب است. مجددا باید تکرار کنیم که استفاده از این دستور صرفا صفحات را از دسترسی رباتها مخفی میکند و ممکن است کاربر با کلیک روی لینک این صفحات امکان بازدید صفحه را داشته باشد و یا حتی این صفحات در نتایج جستجو فهرست شوند.
جلوگیری از دسترسی موتورهای جستجو به یک صفحه خاص
برای مثال اگر قصد داشتیم صفحه تماس با ما در سایت نردبان با آدرس https://www.nardebangroup.com/contact را از دسترس رباتها خارج کنیم، دستور مربوطه به شکل زیر خواهد بود:
user-agent:*
Disallow: /contact/
جلوگیری از دسترسی موتورهای جستجو به یک دایرکتوری
در برخی موارد شاید لازم باشد تا تمام صفحات موجود در یک دایرکتوری را از دسترس رباتها خارج کرد. به عنوان مثال اگر قصد داشته باشیم تمام صفحات موجود در دایرکتوری مربوط به کارمندان به آدرس زیر «https://www.nardebangroup.com/employees»را از دسترسی ربات بایدو خارج کنیم دستور لازم به شکل زیر خواهد بود:
user-agent: Baiduspider
Disallow: /employees/
بدین ترتیب تمامی صفحات موجود در وبلاگ از دسترس ربات بایدو خارج خواهد شد.
اعطای دسترسی کامل به موتورهای جستجو
برای صدور دسترسی کامل به کل سایت برای رباتهای خزنده دستور Disallow به شکل زیر خواهد بود.
Disallow:
نحوه مخفی کردن کل سایت از موتورهای جستجو
Disallow: /
«/» بیانگر صفحه اصلی وبسایت و تمامی صفحات ذیل آن است. در صورت وجود این دستور موتورهای جستجو توانایی خزیدن در هیچ یک از صفحات وبسایت را ندارند. البته لازم به ذکر است این یک روش مطمئن برای جلوگیری از نمایش سایت شما در موتورهای جستجو نیست و باید صفحات سایت را no-index کنید.
نحوه استفاده از دستور Allow *
این دستور به رباتها اجازه میدهد به یک صفحه یا بخش وبسایت دسترسی پیدا کنند. از کاربردهای این دستور زمانی است که شما بخش بزرگی از سایت را بلاک کردهاید و قصد دارید اجازه دسترسی به یک یا چند صفحه از همان بخش را به رباتهای خزنده بدهید. برخی موتورهای جستجو این دستور را شناسایی نمیکنند. پس باید در استفاده از آن احتیاط کنید.
در مثال زیر تمامی رباتها از دسترسی به دایرکتوری media منع شدهاند اما در عین حال اجازه دسترسی به یک فایل پی دی اف با عنوان terms-and-conditions.pdf موجود در دایرکتوری media داده شده است.
User-agent: *
Allow: /media/terms-and-conditions.pdf
Disallow: /media/
نحوه استفاده از دستور Crawl-delay *
هدف این دستور تعیین محدودیت در میزان مصرف منابع سرور با تنظیم میزان تاخیر بین بازدیدهای مختلف رباتهای خزنده است. در مثال زیر ربات خزنده موظف است بین هر درخواست ۸ میلی ثانیه توقف کند. گوگل از این دستور پشتیبانی نمیکند.
Crawl-delay: 8
مطالعه بیشتر: CDN چیست؟ نحوه عملکرد شبکه توزیع محتوا و مزایا به همراه آموزش نصب کلودفلر
استفاده از دستور sitemap:
نقشه سایت یا سایت مپ یک فایل با پسوند XML است که تمام محتواهای مهم روی یک سایت را فهرست میکند و نحوه ارتباط صفحات مختلف را نمایش میدهد. دستور sitemap که در ادامه این دستور آدرس نقشه سایت میآید یک روش برای نشان دادن نقشه سایت به موتور جستجو است. این دستور برای اطمینان حاصل کردن از این است که هیچ صفحهای در حین خزیدن در سایت فراموش نشود. با این وجود وجود نقشه سایت تاثیری در اولویتبندی خزش صفحات توسط ربات ندارد.
بعنوان مثال نحوه قرار گرفتن نقشه سایت در فایل robots.txt سایت نردبان به شکل زیر است:
sitemap: https://www.nardebangroup.com/sitemap_index.xml
مطالعه بیشتر: نقشه سایت یا سایت مپ چیست؟ اهمیت نقشه سایت در سئو و آموزش ایجاد نقشه
استفاده از عبارت با قاعده (RegEx)
در بهینه سازی فایل ربات برای سئو، حالتهایی وجود دارد که بایستی با تعریف الگو قوانین را تعریف کنید و تعریف قوانین بصورت تک به تک برای هر صفحه زمانبر است. عبارت باقاعده، که تحت عنوان regex (مخفف عبارت انگلیسی regular expression) نیز نامیده میشود، رشتههایی هستند که برای انجام عملیات تطابق و جایگذاری عبارات در رشته استفاده می شوند. نحوه استفاده از عبارت با قاعده در فایل robots.txt را با چند مثال توضیح خواهیم داد:
User-agent: *
Disallow: *?
در مثال بالا همه رباتهای خزنده از دسترسی به تمامی آدرسهایی که دارای کاراکتر ؟ هستند منع شدهاند.
از کاراکتر $ برای انتخاب انتهای رشته استفاده میشود.
User-agent: *
Disallow: *.php$
در مثال بالا رباتهای خزنده از دسترسی به آدرسهایی که به php. ختم میشوند منع شدهاند. اما دسترسی به آدرسهایی مشابه آدرس زیر همچنان مجاز خواهد بود:
https://example.com/page.php?lang=en
User-agent: *
Disallow: *.autos$
در مثال بالا رباتهای خزنده از دسترسی به تمام آدرسهایی که به autos. ختم میشوند منع شدهاند.
Disallow: /*.pdf$
Disallow: /*.xls$
در این مثال رباتهای خزنده از دسترسی به تمام فایلهای پی دی اف و اکسل منع شدهاند.
نمونه فایل Robots.txt برای سایت وردپرسی
برای مشاهده و ویرایش فایل ربات در وردپرس یا هر سایت دیگری به فایل منیجر در پنل هاست مراجعه کنید و درون فولدر public_html به دنبال فایل robots.txt بگردید. خوب است بدانید که وردپرس بصورت پیش فرض یک فایل ربات مجازی میسازد که محتوای آن بصورت زیر است:
User-agent: *
Disallow: /wp-admin/
Allow: /wp-admin/admin-ajax.php
منظور از فایل ربات مجازی این است که فایل ربات بصورت فیزیکی در پوشه public_html سایت وجود ندارد و وردپرس در هنگام درخواست فایل ربات این فایل را تولید کرده و ارسال میکند. اگر از افزونههای سئو نظیر یوست سئو و رنک مث استفاده میکنید، این افزونهها تغییراتی در این فایل ربات مجازی داده و دستوراتی از جمله دستور نقشه سایت را به فایل ربات اضافه میکنند.
در زیر یک نمونه بهینه سازی شده فایل ربات برای سایتهای وردپرسی ارائه شده است با فرض اینکه:
- شما تمایل به دسترسی رباتها به قسمت ادمین ندارید.
- تمایل به فهرست شدن نتایج جستجوی درون سایت وردپرسی ندارید.
- تمایلی به دسترسی رباتها به صفحات برچسب و نویسندگان سایت ندارید.
- تمایلی به دسترسی رباتها به صفحه ۴۰۴ سایت ندارید.
User-agent: *
Disallow: /wp-admin/ #block access to admin section
Disallow: /wp-login.php #block access to admin section
Disallow: /search/ #block access to internal search result pages
Disallow: *?s=* #block access to internal search result pages
Disallow: *?p=* #block access to pages for which permalinks fails
Disallow: *&p=* #block access to pages for which permalinks fails
Disallow: *&preview=* #block access to preview pages
Disallow: /tag/ #block access to tag pages
Disallow: /author/ #block access to author pages
Disallow: /404/ #block access to 404 page
sitemap:https://www.nardebangroup.com/sitemap.xml #Yadet nare inja address sitemap site khodeto bezani
بررسی وضعیت فایل robots.txt در گوگل سرچ کنسول
گوگل در اکتبر ۲۰۲۳ گزارش فایل ربات را به گوگل سرچ کنسول اضافه کرد. برای مشاهده گزارش robots.txt در سرچ کنسول، مطابق تصویر زیر در گوگل سرچ کنسول باید از قسمت settings روی گزینه open report کلیک کنید.
در این گزارش میتوانید وضعیت فایل ربات را ببینید. با زدن روی دکمه سه نقطه و بعد گزینه request a recrawl میتوانید درخواست بررسی مجدد فایل ربات توسط گوگل را بدهید. با زدن روی فایل ربات صفحهای باز میشود که آخرین نسخه فایل ربات نزد گوگل را نمایش میدهد. با کلیک روی گزینه versions در سمت راست میتوانید تاریخچه و سایر نسخههای فایل ربات را مشاهده کنید.
نحوه تست فایل ربات سایت
اطمینان از صحیح بودن و عملکرد درست فایل ربات برای سئوی سایت مساله مهمی است. ممکن است شما اشتباها دسترسی گوگل به بخشهای مهمی از سایت را ببندید و باعث افت شدید رتبه سایت شود. قبلا گوگل ابزار رسمی robots.txt tester را داشت که در دسامبر ۲۰۲۳ این ابزار بازنشسته شد.
برای تست ربات میتوانید از سایت technicalseo.com استفاده کنید. این ابزار عملکردی مشابه ابزار سابق گوگل دارد. کافی است آدرس یک صفحه از سایت را وارد این ابزار کنید. این ابزار به صورت خودکار فایل ربات سایت را بررسی کرده و بر اساس دستورات موجود در فایل ربات وضعیت دسترسی به صفحه بر اساس ربات انتخاب شده را نمایش خواهد داد.
یک نمونه فایل ربات جالب
گاها برخی از فایل های ربات حاوی پیام های جالبی است که در زیر یک نمونه از سایت نایکی اورده شده است:ٰ
User-agent: Sogou spider2
Allow: /cn$
Allow: /cn/
Allow: /CN$
Allow: /CN/
Allow: /assets/
Allow: /static/
Allow: /styleguide/
Disallow: */w?q=
Disallow: */w/?q=
Disallow: /
Sitemap: https://www.nike.com/sitemap-us-help.xml
Sitemap: https://www.nike.com/sitemap-landingpage-index.xml
Sitemap: https://www.nike.com/sitemap-pdp-index.xml
Sitemap: https://www.nike.com/sitemap-launch-index.xml
Sitemap: https://www.nike.com/sitemap-wall-index.xml
Sitemap: https://www.nike.com/sitemap-article-index.xml
Sitemap: https://www.nike.com/sitemap-locator-index.xml
#
# `` ```.`
# `+/ ``.-/+o+:-.
# `/mo ``.-:+syhdhs/-`
# -hMd `..:+oyhmNNmds/-`
# `oNMM/ ``.-/oyhdmMMMMNdy+:.
# .hMMMM- `.-/+shdmNMMMMMMNdy+:.
# :mMMMMM+ `.-:+sydmNMMMMMMMMMNmho:.`
# :NMMMMMMN: `.-:/oyhmmNMMMMMMMMMMMNmho:.`
# .NMMMMMMMMNy:` `.-/oshdmNMMMMMMMMMMMMMMMmhs/-`
# hMMMMMMMMMMMMmhysooosyhdmNMMMMMMMMMMMMMMMMMMmds/-`
# .MMMMMMMMMMMMMMMMMMMMMMMMMMMMMMMMMMMMMMMNdy+-.`
# -MMMMMMMMMMMMMMMMMMMMMMMMMMMMMMMMMMNdy+-.`
# `NMMMMMMMMMMMMMMMMMMMMMMMMMMMMMmyo:.`
# /NMMMMMMMMMMMMMMMMMMMMMMMmho:.`
# .yNMMMMMMMMMMMMMMMMmhs/.`
# ./shdmNNmmdhyo/-``
#
پرسشهای متداول درباره فایل Robots.txt
در این قسمت پاسخ تعدادی از سوالات متداول در مورد اهمیت robots.txt و نحوه ایجاد آن ارائه شده است. اگر پاسخ سوال شما در این قسمت نیست، سوال خود را قسمت نظرات برای ما بنویسید.
نحوه ساخت فایل robots.txt در وردپرس چگونه است؟
اگر سایت شما وردپرسی است با نصب افزونههای سئو وردپرس نظیر رنک مث یا یوست سئو به صورت خودکار برای شما این فایل ایجاد خواهد شد. در غیر این صورت به پوشه public_html در هاست خود بروید و یک فایل متنی با نام robots.txt ایجاد کنید و محتوای آن را مطابق با نیازهای خود و مطالب ارائه شده در این مقاله اصلاح کنید.
اگر ربات گوگل نتواند فایل ربات را پیدا کند یا نتواند آنرا بخواند چه میشود؟
اگر فایل robots.txt برای یک دامنه یا زیر دامنه پیدا نشد، گوگل فرض می کند که اجازه دارد در هر URLی در آن دامنه بخزد.
اگر گوگل فایل robots.txt را پیدا کند اما نتواند آن را واکشی کند، گوگل این رفتارها را دنبال میکند:
۱- در 12 ساعت اول، گوگل خزیدن در سایت را متوقف می کند اما به تلاش برای واکشی فایل robots.txt ادامه می دهد.
۲- اگر گوگل نتواند نسخه جدید فایل ربات را واکشی کند، تا 30 روز آینده گوگل از آخرین نسخه قابل قبول فایل ربات استفاده خواهد کرد، در حالی که همچنان در تلاش برای واکشی نسخه جدید است. می توانید آخرین نسخه قابل قبول را در گزارش فایل ربات گوگل سرچ کنسول مشاهده کنید.
۳- اگر بعد از 30 روز همچنان خطاها برطرف نشدند، دو حالت پیش میآید:
– اگر سایت به طور کلی در دسترس گوگل باشد، گوگل طوری رفتار می کند که گویی فایل robots.txt وجود ندارد (اما همچنان به بررسی نسخه جدید ادامه میدهد).
– اگر سایت مشکل در دسترس بودن داشته باشد (مشکل در هاست یا دامنه یا مشکلات فنی)، Google خزیدن در سایت را متوقف می کند، در حالی که هنوز به صورت دوره ای یک فایل robots.txt درخواست می کند.
اگر گوگل فایل robots.txt را پیدا کند و بتواند آن را واکشی کند: گوگل فایل را خط به خط می خواند. اگر خطی دارای خطا باشد یا نتوان آن را با دستورالعملهای استاندارد robots.txt تجزیه کرد، از آن صرف نظر می شود.
اگر هیچ خط معتبری در فایل وجود نداشته باشد، گوگل آن را به عنوان یک فایل robots.txt خالی در نظر می گیرد، به این معنی که هیچ قانونی برای سایت اعلام نشده است.
خطای “Indexed, though blocked by robots.txt” در سرچ کنسول یعنی چه؟
این خطا در گوگل سرچ کنسول به معنی این است که برخی از صفحاتی که توسط فایل ربات از دسترس ربات گوگل خارج شده و بلاک شدهاند، ایندکس شدهاند. این خطا بیشتر در سایتهای فروشگاهی اتفاق میافتد و طبق نظر گوگل خطای غیربحرانی (non-critical) است. حل این مشکل بسته به سایت و شرایط آن راه حلهای متفاوتی دارد.
چطور بات های هوش مصنوعی نظیر ChatGPT را از دسترسی به محتوای سایت بلاک کنیم؟
با استفاده از دستورات زیر میتوانید دسترسی رباتهای هوش مصنوعی به محتوای سایتتان را ببندید:
User-agent: CCBot
User-agent: Google-Extended
User-agent: GPTBot
User-agent: ChatGPT-User
User-agent: Omgilibot
User-agent: Omgili
User-agent: FacebookBot
User-agent: anthropic-ai
User-agent: cohere-ai
Disallow: /
آیا سایتها و تولیدکنندگان محتوا میتوانند دسترسی رباتهای خزنده گوگل، بینگ و ChatGPT را برای استفاده از محتوایشان در آموزش مدلهای زبانی و هوش مصنوعیشان ببندند ولی همچنان در نتایج جستجوی ChatGPT و گوگل و بینگ ظاهر شوند؟
بله سایتهایی که علاقهمند هستند در نتایج جستجوی ChatGPT، گوگل و بینگ حضور داشته باشند، اما همچنان میخواهند از استفاده محتوای خود توسط آنها و سایر شرکتهای هوش مصنوعی برای آموزش مدلهای زبان بزرگ (LLM) جلوگیری کنند، میتوانند از این لیست دستورات در فایل robots.txt خود استفاده کنند.
User-agent: Amazonbot
User-agent: Anthropic-ai
User-agent: Applebot-Extended
User-agent: AwarioRssBot
User-agent: AwarioSmartBot
User-agent: Bytespider
User-agent: CCBot
User-agent: ChatGPT-User
User-agent: ClaudeBot
User-agent: Claude-Web
User-agent: Cohere-ai
User-agent: DataForSeoBot
User-agent: FacebookBot
User-agent: Google-Extended
User-agent: GPTBot
User-agent: ImagesiftBot
User-agent: Magpie-crawler
User-agent: Omgili
User-agent: Omgilibot
User-agent: Peer39_crawler
User-agent: Peer39_crawler/1.0
User-agent: PerplexityBot
User-agent: YouBot
Disallow: /
جمع بندی
پیکربندی صحیح فایل robots.txt یکی از اقدامات اساسی در بهینه سازی بودجه خزش و سئو سایت است. بررسی و ویرایش فایل ربات TXT سایت یک فاکتور رتبه بندی نیست و تنها کنترلکننده نحوه رفتار رباتهای خزنده است. به خاطر داشته باشید هر سایت نیازمند فایل robots.txt خاص خودش است. از کپی کردن محتویات فایل robots.txt سایر سایتها پرهیز کنید. robots.txt هر سایت مختص همان سایت است و ممکن است برای سایت شما عملکرد مناسبی نداشته باشد و فرایند ایندکس شدن صفحات سایت را دچار اختلال کند.
تجربه شما در استفاده و تنظیم این فایل چگونه است؟ آیا robots.txt سایت خود را بررسی کردهاید؟ چه مشکلاتی داشته اید؟ سوالات و نظرات خود را برای ما بنویسید.
10 دیدگاه دربارهٔ «فایل robots.txt چیست؟ آموزش ساخت فایل ربات سایت»
تو فایل روبوتس من جلوی :Disallow
نوشته /process/
این معنیش یعنی چی؟
مشکلی داره یا نداره؟
سلام
این دستور یعنی آدرسهایی که داخل دایرکتوری /process/ هستند (ادرسهایی که /process/ توشون هست ) از دسترس ربات گوگل خارج شدن و ایندکس نمیشن. وبسایت رو باید بررسی کرد و بعد نظر داد. میتونید از خدمات مشاوره سئوی ما استفاده کنید.
سلام خستته نباشید
وقتی ادرس فایل robots.txt رو توی مرورگر میزنم، ارور 404 میده. میدونید چطوریی میشه ارور رو برطرف کرد؟
سلام
چک کنید ببینید فایل ربات رو به درستی ایجاد کردید و فایل داخل پوشه public_html وجود داره یا نه. اسم فایل رو شاید اشتباه گذاشتید. اگر وجود داره و ارور ۴۰۴ میده نمیشه خیلی نظر داد و باید بررسی کرد دید مشکل از کجاست.
سلام وقت بخیر
من وقتی آدرس سایت رو میزنم و بعد robots.txt/ میزنم، فایلشو میاره به این صورت:
# START YOAST BLOCK
# —————————
User-agent: *
Disallow:
Sitemap: https://domain.com/sitemap_index.xml
# —————————
# END YOAST BLOCK
اما داخل public_html اصلا وجود نداره. من هیچ فایلی با نام robots.txt داخل root سایتم ندارم.
این فایل الان داخل سایت من کجاس؟
سلام
افزونههای سئو مثل یوست سئو و رنک مث بلافاصله بعد از نصب روی وردپرس، فایل ربات رو ایجاد میکنند. فایل ربات تولید شده توسط یوست سئو روی پایگاه داده ذخیره میشود و داخل فولدر public_html نیست. برای ویرایش این فایل در افزونه یوست سئو به قسمت ابزارها=> ویرایشگر پرونده مراجعه کنید. لازم به ذکر است اگر فایل robots.txt رو داخل فولدر public_html ایجاد کنید، فایل ایجاد شده مستقل از افزونه یوست سئو خواهد بود و امکان ویرایش ان از طریق افزونه را نخواهید داشت.
سلام خیلی ممنون از پاسختون من از هر کسی پرسیدم به جواب نرسیدم فقط شما گفتید فایل ربات یواست روی پایگاه داده ذخیره میشه.
من چندتا سوال داشتم ازتون ممنون میشم پاسخ بدید.
1- اینکه گفتید ” فایل ربات تولید شده توسط یوست سئو روی پایگاه داده ذخیره میشود ” دقیقا کجای پایگاه داده در کدوم جدول ذخیره میشه؟
2- من در قسمت ابزار ها در افزونه یواست سئو ویرایشگر پرونده ندارم توی چند تا فیلم هم دیدم در این قسمت میتونیم فایل ربات و htaccess رو ویرایش کنیم اما به جای ویرایشگر پرونده، ویرایشگر دسته جمعی دارم که برای برگه ها و نوشته ها و محصولات هست اینو میشه بفرمایید چطوری فعالش کنم که ویرایشگر پرونده داشته باشم؟
3- من اگر فایل ربات جدید در public html ایجاد کنم خب دستوراتش با اونی که یواست میسازه فرق میکنه و جفتشم رو سایت هست بعد گوگل از کجا بفهمه کدوم درسته؟
4- نمیشه کلا فایل رباتی که یواست میسازه رو حذف کرد و از فایل که خودمون ساختیم استفاده کرد؟چطوری؟
سلام
۱- اطلاع دقیقی در مورد اینکه کجای پایگاه داده ذخیره میشه ندارم.
۲- احتمالا نسخه یوست سئوتون متفاوت بوده با آموزشایی که دیدین.
۳- یوست سئو اگه فایل ربات توی فولدر public_html نباشه، فایل ربات خودشو میسازه. اگه فایل توی هاست باشه یوست سئو دیگه کاریش نمیکنه و باید از داخل همون هاست فایل رباتو ادیتش کنید.
بعد از کلی گشتن تو نت دنبال پیدا کردن مشکلم، شما واقعا یه محتوای کاربردی نوشتید، بقیه یه چیز تکراری رو کپی زدن از هم.
واقعا کارتون عالی بود موفق باشید
خوشحالیم استفاده کردید. پیشنهاد میکنیم به سایر مطالب وبلاگ ما هم سر بزنید.
دیدگاهها بسته شدهاند.