در دنیای امروز که مدلهای زبان بزرگ (LLM) به بخش مهمی از فرآیند جستجو و تعاملات دیجیتال تبدیل شدهاند، نیاز به روشهایی برای دسترسپذیرتر کردن دادهها و محتوای وبسایتها برای این مدلها احساس میشود. یکی از استانداردهای نوین که در این زمینه معرفی شده، فایل llms.txt است.
استاندارد llms.txt در سپتامبر ۲۰۲۴ توسط جرمی هاوارد بنیانگذار Aمعرفی شد و هنوز به بلوغ نرسیده است اما برخی از مدلهای هوش مصنوعی از این استاندارد استفاده میکنند.
در این مقاله توضیح خواهیم داد llms.txt چیست و چه کاربردهایی دارد و چگونه میتوان با استفاده از فایل llms.txt به مدلهای زبانی هوش مصنوعی نظیر چت جی پی تی کمک کرد تا برداشت دقیقتری از سایت شما داشته باشد.
llms.txt چیست؟
llms.txt یک فایل متنی است که بهطور خاص برای کمک به مدلهای زبان بزرگ (LLM) نظیر چت جی پی تی طراحی شده تا بهراحتی به محتوای سایتها و صفحات وب دسترسی پیدا کنند و آنها را پردازش کنند.
این فایل بهطور ساختاریافته، مسیرهای مختلف صفحات و مستندات سایت را برای مدلهای زبان هوش مصنوعی (AI) فراهم میکند و به آنها کمک میکند تا بهطور مؤثر و سریعتر اطلاعات مورد نیازشان را پیدا کنند.
ما دو فایل llms.txt برای هر سایت میتوانیم داشته باشیم:
- llms.txt: نمایی سادهشده از ناوبری مستندات شما برای کمک به سیستمهای هوش مصنوعی در درک سریع ساختار سایت شما
- llms-full.txt: فایلی جامع که تمامی مستندات شما را در یک مکان گردآوری کرده است.
این استاندارد پیشنهاد میکند که وبسایتها یک فایل متنی llms.txt مشابه فایل robots,txt در دایرکتوری ریشه سایت خود قرار دهند.
این فایل که به فرمت Markdown نوشته شده، نمایی مختصر و ساختار یافته از محتوای سایت را به مدلهای زبان بزرگ (LLM) ارائه میدهد و فرآیند بازیابی اطلاعات را دقیقتر و کارآمدتر میکند.
یک نمونه فایل llms.txt
فایل باید با یک عنوان H1 که نام پروژه است شروع شود و پس از آن یک خلاصه در قالب نقلقول بیاید. بخشهای بعدی با استفاده از سرفصلهای H2 برای سازماندهی لینکهای مستندات استفاده میشوند. بخش «اختیاری» منابع کماهمیتتر را بهطور مشخص علامتگذاری میکند.
# Project Name
> Brief project summary
Additional context and important notes
## Core Documentation
- [Quick Start](url): Description of the resource
- [API Reference](url): API documentation details
## Optional
- [Additional Resources](url): Supplementary information
در بخشهای بعدی درباره فرمت مارک داون توضیح خواهیم داد.
چرا llms.txt اهمیت دارد؟
مدلهای زبان بزرگ، همچون GPT و دیگر مدلهای پیشرفته، برای پردازش و درک محتوای سایتها نیاز دارند که دادهها بهصورت ساختار یافته و قابل دسترسی باشند. در حال حاضر، مدلها برای استخراج اطلاعات از سایتها به روشهای سنتی، مانند تحلیل کد HTML، وابسته هستند که این روشها زمانبر و ناکارآمد هستند.
پردازش HTML برای هوش مصنوعی (بهویژه مدلهای زبانی بزرگ مانند LLMها) به دلایل زیر دشوار است:
- ساختار پیچیده و نامرتب: صفحات HTML شامل ترکیبی از محتوا، کدهای استایل (CSS) و اسکریپتها (JavaScript) هستند. این ترکیب باعث میشود مدلها برای یافتن محتوای اصلی با چالش روبهرو شوند.
- عناصر غیرضروری و اضافی: بسیاری از صفحات دارای بخشهای اضافی مانند تبلیغات، فهرستها، فوتر، منوهای ناوبری و… هستند که برای کاربر مفید است، اما برای هوش مصنوعی ممکن است اطلاعات زائد باشند.
- کدهای تودرتو و شلوغ: HTML ساختاری لایهلایه و تودرتو دارد. استخراج دادههای موردنظر از بین این همه تگ و ساختار ممکن است پیچیده و زمانبر باشد.
- تفاوت در استانداردها و ساختارها: هر وبسایت از قالبها و استانداردهای متفاوتی استفاده میکند، بنابراین مدلهای هوش مصنوعی نمیتوانند یک راهکار ثابت برای همه صفحات داشته باشند.
- محتوای پویا (Dynamic Content): بسیاری از وبسایتها محتوای خود را بهصورت دینامیک بارگذاری میکنند (مثلاً با AJAX). این نوع محتوا ممکن است هنگام پردازش اولیه صفحه، برای مدلهای AI قابلمشاهده نباشد.
- عدم تمرکز بر محتوا: HTML بیشتر برای نمایش دادهها طراحی شده تا ساختاردهی معنایی. بنابراین، مدلهای زبانی باید تلاش زیادی برای تشخیص اطلاعات مهم از غیرمهم انجام دهند.
فایل llms.txt این مشکل را حل کرده و به مدلهای زبان کمک میکند تا بلافاصله به محتوای ضروری دسترسی پیدا کنند و آن را بهطور مؤثر تجزیه و تحلیل کنند.
LLMs.txt در مقابل sitemap.xml و robots.txt
فایل LLMs.txt هدفی کاملاً متفاوت از استانداردهای وب موجود مانند sitemap.xml و robots.txt دارد.
- /sitemap.xml همه صفحات قابل ایندکس را فهرست میکند، اما در پردازش محتوا کمکی نمیکند. سیستمهای هوش مصنوعی همچنان باید HTML پیچیده را تجزیه و تحلیل کرده و اطلاعات اضافی را مدیریت کنند.
- /robots.txt دسترسی خزندههای موتور جستجو را پیشنهاد میدهد، اما در درک محتوا نیز کمکی نمیکند.
- /llms.txt چالشهای مربوط به هوش مصنوعی را حل میکند. این فایل به محدودیتهای پنجرهی زمینه غلبه میکند، نشانهگذاریها و اسکریپتهای غیرضروری را حذف کرده و محتوا را در قالبی بهینه برای پردازش هوش مصنوعی ارائه میدهد.
فایل llms.txt چطور کار میکند؟
llms.txt
یک فایل متنی است که در آن مسیرهای دقیق برای دسترسی به مستندات و صفحات مختلف سایت درج میشود. این فایل به مدلهای زبان کمک میکند تا سریعتر اطلاعات سایت را بخوانند و از آن استفاده کنند.
به عبارت سادهتر، فایل llms.txt به عنوان نقشهای برای مدلها عمل میکند که به آنها نشان میدهد کجا باید جستجو کنند.
مزایای استفاده از llms.txt در سایت
- دسترسی سریعتر به اطلاعات: مدلهای زبانی قادر خواهند بود با استفاده از llms.txt بهراحتی و بدون نیاز به جستجو در کل سایت، مستندات و محتوای مورد نیاز را پیدا کنند. این امر باعث بهبود سرعت پردازش اطلاعات و دقت بالاتر میشود.
- کمک به SEO و جستجو: از آنجا که مدلهای زبان بهطور مستقیم با محتوا و دادههای ساختار یافته ارتباط دارند، استفاده از این فایل میتواند به بهبود نتایج جستجو و ارتقای سئو کمک کند.
- بهبود تجربه کاربری: با تسهیل فرآیند تعاملات با مدلهای زبان، کاربران تجربه بهتری در استفاده از سایت و ابزارهای هوش مصنوعی خواهند داشت.
فرمت Markdown چیست؟
فرمت Markdown یک زبان نشانهگذاری ساده است که برای نوشتن متن با فرمتهای خاص استفاده میشود. هدف آن این است که نویسندگان بتوانند متنی را با کمترین پیچیدگی بنویسند و آن را به راحتی به فرمتهای مختلف مانند HTML یا PDF تبدیل کنند.
در Markdown، شما میتوانید بدون نیاز به کدنویسی پیچیده، کارهایی مانند بزرگ کردن متن، لینک دادن، ایجاد فهرستهای گلولهای و نوشتن عناوین را انجام دهید. این کار با استفاده از علائم خاصی انجام میشود.
آموزش تنظیم فایل llms.txt به فرمت Markdown
برای نوشتن فایل llms.txt به فرمت Markdown، باید از برخی ویژگیها و قواعد پایهای استفاده کنید که در فایلهای Markdown رایج هستند و به مدلهای زبان (LLMs) کمک میکنند تا بهراحتی محتوای سایت را پردازش کنند.
در اینجا بخشهایی از Markdown را که در فایل llms.txt بهکار میروند، آموزش میدهیم.
1. عنوانها (Headings)
برای ایجاد عنوانهای مختلف در Markdown، از علامت #
استفاده میکنید. تعداد #
ها نشاندهنده سطح عنوان است. برای مثال:
عنوان اصلی (هدینگ ۱):
# نام سایت
عنوان فرعی (سطح ۲):
## مستندات
عنوان سطح پایینتر (سطح ۳):
### درباره ما
2. متنهای بولد (Bold) و ایتالیک (Italic)
برای برجستهسازی متنها، میتوانید از **
برای بولد و از *
برای ایتالیک استفاده کنید.
متن بولد:
**خدمات SEO**
متن ایتالیک:
*مشاوره SEO*
3. لیستها (Lists)
برای ایجاد لیستهای مرتب (عددگذاری شده) یا لیستهای بدون شماره، از Markdown استفاده میشود.
لیست گلولهای (Unordered List):
از -
یا *
استفاده کنید.
- مورد اول
- مورد دوم
- مورد سوم
لیست مرتب (Ordered List): از اعداد و نقطه (.) استفاده کنید.
1. مورد اول
2. مورد دوم
3. مورد سوم
4. لینکها (Links)
برای ایجاد لینکها به صفحات مختلف سایت، از ساختار زیر استفاده میکنید:
[متن لینک](URL)
مثال:
[درباره ما](https://example.com/about)
این لینک به صفحه “درباره ما” سایت اشاره میکند.
5. یادداشتها (Blockquotes)
برای اضافه کردن یادداشتها یا توضیحات خاص میتوانید از علامت <
استفاده کنید. این ویژگی برای درج توضیحات یا توصیهها در فایل llms.txt مفید است.
مثال:
> این فایل `llms.txt` به مدلهای زبان کمک میکند تا به محتوای سایت دسترسی سریعتری داشته باشند.
6. کد (Code)
اگر لازم است بخشهایی از کد یا مسیرهای فایلها را نشان دهید، از علامت سهگانه ```
استفاده کنید. این کار بهویژه برای مشخص کردن مسیرهای فایلهای Markdown
یا مسیرهای URL مفید است.
مثال:
markdownCopyEdit```plaintext
https://example.com/docs/about.md
### **نمونه ساختار فایل `llms.txt`**
در اینجا یک مثال از فایل `llms.txt` که از قواعد بالا استفاده میکند آورده شده است:
```markdown
# Nardeban Digital Group
> ارائهدهنده خدمات دیجیتال مارکتینگ و SEO
## مستندات
- [درباره ما](https://nardeban.com/docs/about.md)
- [خدمات SEO](https://nardeban.com/docs/seo-services.md)
- [مشاوره SEO](https://nardeban.com/docs/seo-consulting.md)
- [بهینهسازی سرعت سایت](https://nardeban.com/docs/page-speed.md)
- [توسعه وب](https://nardeban.com/docs/web-development.md)
## تماس با ما
- [تماس با ما](https://nardeban.com/contact/)
در این مثال:
- از عنوانها برای دستهبندی بخشهای مختلف استفاده شده است.
- لینکها به صفحات مختلف سایت داده شدهاند.
- لیستهای گلولهای برای نمایش مستندات و خدمات استفاده شده است.
این فرمت ساده و ساختاریافته، به مدلهای زبان کمک میکند تا بهراحتی محتوای سایت را شناسایی و پردازش کنند.
ابزار انلاین ویرایش فایل به فرمت Markdown
برای تنظیم راحتتر فایل llms.txt میتوانید از سایت https://dillinger.io/ استفاده کنید.
فایل llms.txt شامل چه بخش هایی است؟
مشخصات فایل llms.txt
به این صورت است که باید در مسیر ریشه /llms.txt
سایت قرار داشته باشد (و در صورت لزوم، در یک زیرمسیر هم میتواند باشد). فایلهایی که از این مشخصات پیروی میکنند، شامل بخشهای زیر بهصورت Markdown و در ترتیب خاص هستند:
- یک H1 که نام پروژه یا سایت را نشان میدهد. این بخش تنها بخش ضروری این فایل است است.
- یک Blockquote که خلاصهای کوتاه از سایت را شامل میشود و اطلاعات کلیدی لازم برای درک بخشهای بعدی فایل را ارائه میدهد.
- میتواند شامل بخشهایی مثل پاراگرافها، لیستها و غیره (به جز هدینگ) باشد، که جزئیات بیشتری از پروژه و نحوه تفسیر فایلهای ارائهشده را توضیح میدهند.
- صفحات سایت که با H2 مشخص میشوند و شامل “فهرست فایلها” از URLهایی هستند که اطلاعات بیشتری در آنها موجود است.
- هز یک از صفحه باید شامل ترکیب
[name](url)
باشد که میتواند بعد از آن:
آمده و توضیحاتی درباره صفحه داشته باشیم.
چگونه فایل llms.txt را برای سایت خود تنظیم کنیم؟ نمونه فایل llms.txt
برای تنظیم فایل llms.txt
، شما باید فایل متنی سادهای بسازید که در آن مسیرهای صحیح به مستندات سایت شما آورده شده باشد. برای مثال، فرض کنید شما یک سایت خدمات SEO مثل گروه دیجیتال نردبان دارید. ساختار فایل llms.txt
شما به این صورت خواهد بود:
# Nardeban Digital Group
> ارائهدهنده خدمات تخصصی SEO و دیجیتال مارکتینگ
## مستندات
- [درباره ما](https://nardeban.com/docs/about.md)
- [خدمات SEO](https://nardeban.com/docs/seo-services.md)
- [مشاوره SEO](https://nardeban.com/docs/seo-consulting.md)
- [بهینهسازی سرعت سایت](https://nardeban.com/docs/page-speed.md)
- [توسعه وب](https://nardeban.com/docs/web-development.md)
## تماس با ما
- [تماس با ما](https://nardeban.com/contact/)
ابزارهای ساخت فایل llms.txt
چندین ابزار مختلف برای ایجاد فایلهای LLMs.txt وجود دارد:
- Mintlify: بهصورت خودکار فایلهای /llms.txt و /llms-full.txt را برای مستندات میزبانیشده تولید میکند.
- llmstxt توسط dotenv: ابزاری از سازنده dotenvx به نام Mot که با استفاده از فایل sitemap.xml سایت شما، فایل llms.txt را تولید میکند.
- llmstxt توسط Firecrawl: ابزاری دیگر از بنیانگذار Firecrawl، اریک چارلا، که با استفاده از Firecrawl وبسایت شما را کرال کرده و فایل llms.txt را تولید میکند.
معرفی افزونه وردپرس برای ایجاد فایل llms.txt
برای مدیریت و ایجاد این فایل در سایتهای وردپرسی، افزونهای به نام LLMs.txt Creator منتشر شده است. این افزونه توسط Not Provided توسعه داده شده و به شما امکان میدهد تا بدون نیاز به ویرایش دستی، فایل llm.txt را ایجاد و تنظیم کنید.
نحوه نصب و فعالسازی افزونه
برای نصب و فعالسازی افزونه LLMs.txt Creator مراحل زیر را دنبال کنید:
- وارد پیشخوان وردپرس شوید.
- به بخش افزونهها > افزودن افزونه بروید.
- فایل افزونه را اپلود کنید.
- پس از یافتن افزونه، روی نصب کلیک کنید.
- پس از نصب، دکمه فعالسازی را بزنید.
پس از فعالسازی، میتوانید از طریق تنظیمات افزونه، قوانین موردنظر خود را برای فایل llm.txt مشخص کنید. این قابلیت به شما کمک میکند تا کنترل بهتری بر روی دسترسی مدلهای زبانی بزرگ به محتوای وبسایت خود داشته باشید.
با استفاده از این افزونه، بدون نیاز به دانش فنی و ویرایش دستی فایلها، میتوانید مدیریت بهتری بر روی حریم خصوصی محتوای سایت خود اعمال کنید.
این افزونه بهصورت خودکار فایل llms.txt را ایجاد کرده و آن را بهروز نگه میدارد. این ویژگیها را ارائه میدهد:
- استخراج اطلاعات کلیدی وبسایت – نام وبسایت، توضیحات و آدرس صفحه اصلی را بازیابی میکند.
- فهرست کردن محتوای اخیر – لیستی ساختاریافته از جدیدترین پستهای وبلاگ و صفحات را نمایش میدهد.
- بهروزرسانی خودکار – هر زمان که یک پست یا صفحه جدید ایجاد، ویرایش یا حذف شود، فایل llms.txt بهطور خودکار بهروز میشود.
- ارائه گزینههای سفارشیسازی – به کاربران اجازه میدهد تعداد پستها و صفحاتی را که باید در فایل فهرست شوند، از طریق یک پنل تنظیمات مشخص کنند.
نتیجهگیری:
فایل llms.txt
به عنوان یک استاندارد جدید، به وبسایتها کمک میکند تا محتوای خود را برای مدلهای زبان هوش مصنوعی بهطور بهینه ساختاردهی کنند. استفاده از این فایل، نه تنها باعث دسترسی سریعتر به دادهها و بهبود عملکرد هوش مصنوعی میشود، بلکه به تقویت SEO و ارتقای تجربه کاربری نیز کمک خواهد کرد.
اگر میخواهید سایت خود را برای استفاده از این استاندارد آماده کنید و یا به دنبال مشاوره SEO هستید، با ما تماس بگیرید. ما در گروه نردبان به شما کمک میکنیم تا کسبوکار خود را به سطح بالاتری برسانید.