فایل Robots.txt چیست؟

فایل Robots.txt چیست؟
فایل Robots.txt یک فایل متنی است که در ریشه وبسایت قرار می‌گیرد و برای ارتباط با ربات‌های جستجوگر استفاده می‌شود. این فایل به ربات‌ها (مانند ربات‌های گوگل) دستوراتی را ارائه می‌دهد که نشان می‌دهد کدام بخش‌ها یا صفحات وبسایت می‌توانند توسط ربات‌ها فهرست‌بندی شوند و کدام بخش‌ها باید در جستجوهای آن‌ها صرف نظر شود. این فایل به وبمسترها امکان می‌دهد تا کنترل دقیق‌تری بر روند شناسایی و فهرست‌بندی صفحات وبسایت خود در نتایج جستجو داشته باشند.
امتیازی ندارد

فایل Robots.txt یک فایل متنی است که در ریشه وبسایت قرار دارد و به وب‌شناسان و ربات‌های جستجو اطلاعاتی درباره نحوه دسترسی به صفحات وبسایت ارائه می‌دهد. این فایل برای ربات‌های جستجو مشخص می‌کند که کدام بخش‌های وبسایت را باید یا نباید در جستجوی خود در نظر بگیرند.

زمانی که ربات‌های جستجو به یک وبسایت دسترسی پیدا می‌کنند، ابتدا فایل robots.txt را مشاهده می‌کنند و سپس بر اساس دستورات موجود در آن، تصمیم می‌گیرند کدام صفحات وبسایت را بررسی کنند و کدام صفحات را نادیده بگیرند. این فایل برای کنترل و مدیریت روند شاخص‌سازی و جستجوی موتورهای جستجو استفاده می‌شود.

اگر به دنبال یادگیری مطالب کاربردی در زمینه طراحی سایت هستید، به شما پیشنهاد می‌دهیم به صفحه طراحی سایت  سر بزنید.

فایل Robots.txt چیست؟

پروتکل REP (Robots Exclusion Protocol) دستورالعمل‌هایی برای تنظیم رفتار ربات‌های موتورهای جستجو در خصوص خزش صفحات وب یا عدم خزش آن‌ها فراهم می‌کند. فایل robots.txt، یک فایل متنی است که وبمستران مسئول ایجاد آن هستند. این فایل به ربات‌های موتورهای جستجو دستور می‌دهد که کدام صفحات وب را باید خزش کنند و کدام صفحات را نباید خزش کنند. همچنین، استفاده از لینک‌های فالو و نوفالو نیز به پروتکل REP تعلق دارد. این لینک‌ها نیز برای سازماندهی وب‌سایت و تنظیم دسترسی ربات‌ها به صفحات وب و همچنین فهرست‌بندی آن‌ها برای کاربران استفاده می‌شوند.

دستورات قابل پشتیبانی در فایل robots.txt

در فایل robots.txt، می‌توان پنج دستور اصلی مهم را به شرح زیر مشاهده کرد که در ادامه با آن‌ها آشنا خواهید شد:

دستور user-agent

دستور User-agent به تنهایی نمی‌تواند یک دستور کامل باشد، بلکه باید در کنار یکی از سه دستور بعدی استفاده شود. این دستور نوع رباتی که باید از دستورات بعدی اطاعت کند را مشخص می‌کند. به طور کلی با استفاده از این دستور، می‌توانید کنترل کنید که یک یا چند نام ربات خاص چگونه با صفحات وب شما تعامل کنند و رفتار آن‌ها را تنظیم نمایید.

برای مثال، اگر قصد داشته باشید برای ربات‌های گوگل دستوری صادر کنید، نام ربات‌های گوگل (مانند googlebot) را می‌نویسید. هم‌چنین، اگر دستور برای تمام ربات‌هاست، باید در مقابل user-agent: از علامت ستاره (*) استفاده شود.

دستور disallow

با استفاده از دستور Disallow، می‌توانید مسیرهایی را که ربات‌ها نباید به آن‌ها دسترسی داشته باشند، محدود کنید و بخش‌های محتوایی از وبسایت خود را برای آن‌ها قابل دسترسی نکنید.

دستور allow

دستور Allow در فایل robots.txt به معنای اجازه دسترسی است و به ربات‌های مشخص‌شده اجازه می‌دهد تا به صفحاتی که در مقابل این دستور نوشته می‌شوند دسترسی پیدا کنند. استفاده از دستور Allow در فایل robots.txt ضروری نیست؛ زیرا ربات‌ها به طور پیش‌فرض تمام صفحات سایت را می‌خوانند. با این حال، برخی وبمستران برای تأکید بر برخی صفحات خاص سایت خود از دستور Allow استفاده می‌کنند. نحوه استفاده از دستور Allow نیز تقریباً مشابه دستور Disallow است.

دستور sitemap

از این دستور برای اعلام مکان فایل نقشه سایت (sitemap) استفاده می‌شود. با این دستور می‌توانید به ربات‌ها محل قرارگیری نقشه سایت خود را اعلام کنید تا بتوانند وبسایت شما را به صورت بهتری ایندکس کنند.

دستور crawl-delay

استفاده از این دستور می‌تواند تأثیری بر روی سرعت بارگیری صفحات وبسایت شما داشته باشد. با اعمال این دستور، سرعت وبسایت شما به دلیل ورود بیش از حد خزنده‌ها کاهش قابل توجهی نخواهد داشت. شما می‌توانید یک عدد را در کنار این دستور تعیین کنید. این عدد نشان می‌دهد که خزنده‌های مشخص شده باید به مدت ثانیه‌ای مشخص صبر کرده و سپس وبسایت را خزنده‌سازی کنند. با این حال، باید توجه داشت که این دستور تأثیری بر ربات‌های گوگل ندارد. به طور خلاصه، این دستور برای تنظیم تاخیر بین درخواست‌های متوالی ربات‌ها به سرور استفاده می‌شود. با استفاده از این دستور، می‌توانید میزان تاخیر را برای ربات‌ها تنظیم کنید تا به منظور جلوگیری از بار زیاد بر روی سرور و محدود کردن دسترسی ربات‌ها به وبسایت خود استفاده شود.

یک فایل Robots.txt باید حاوی چه چیزی باشد؟

در اکثر موارد، در این فایل باید از دسترسی صفحات /wp-admin/ و /readme.html/ که اطلاعات نسخه وردپرس شما را شامل می‌شوند، و صفحه افزونه‌ها /plugins/ جلوگیری شود، به ویژه اگر سایت شما بر پلتفرم وردپرس قرار دارد. همچنین، در این فایل باید آدرس sitemap تعریف شده باشد تا موتورهای جستجوی گوگل بتوانند موقعیت صفحات مختلف سایت را پیدا کنند. این موارد به عنوان الزاماتی برای ساخت یک فایل robots در نظر گرفته می‌شوند. با این حال، شما می‌توانید براساس نیاز خود، هر فایلی را که می‌خواهید را از دسترسی محروم کنید (disallow) یا برای تأکید، فایل‌های ضروری را مجاز (allow) نمایید.

چرا باید از فایل robots.txt برای سایت خود استفاده کنیم؟

ممکن است این فایل در برخی موارد بسیار مفید باشد. به عنوان مثال:

1- زمانی که محتوای تکراری در سایت خود دارید، می توانید یکی از صفحات را ممنوع کنید.
2- بخشی از سایت را برای عموم غیر قابل دسترس قرار دهید، مانند صفحه قراردادهای عقد شده.
3- مکان نقشه سایت را برای ربات‌های گوگل با دستور قابل قبول مشخص کنید.
4- به ربات‌ها اجازه ندهید برخی از فایل‌های سایت شما (مانند فایل‌های PDF یا تصاویر) را فهرست کنند و در نتایج جستجو نمایش دهند.
5- به ربات‌ها زمان تأخیری دهید تا هنگامی که سایت شلوغ می شود، سرعت کم نشود.

فایل robots.txt چگونه کار می‌کند؟

ربات‌ها لینک‌ها را پیروی می‌کنند و در صورتی که از یک سایت به دیگری لینک داده شود، این لینک را دنبال می‌کنند و به سایت مورد نظر متصل می‌شوند. اما قبل از خزش صفحات سایت جدید، این ربات‌ها به فایل robots.txt مراجعه می‌کنند. در صورتی که این فایل موجود باشد، ربات‌ها به دستورات آن پیروی می‌کنند و در صورتی که فایل موجود نباشد، تمام صفحات سایت را خزش می‌کنند.

چک کردن وجود فایل robots.txt برای یک سایت

برای دسترسی به فایل robots.txt سایت، کافی است در انتهای ریشه دامنه‌ی اصلی سایت، یک اسلش (/) قرار داده و سپس عبارت robots.txt را تایپ کنید. به عنوان مثال، با وارد کردن آدرس example.com/robots.txt، محتوای فایل robots.txt سایت مورد نظر قابل مشاهده است.

در صورتی که سایت مورد نظر دارای فایل robots.txt نباشد، با ورود به آدرس فوق، با خطای 404 مواجه خواهید شد.

ساخت فایل robots.txt

برای ساخت فایل robots.txt به صفحه اصلی‌هاست خود در سی پنل یا دایرکت ادمین بروید. سپس بر روی file manager کلیک کنید. وارد پوشه public_html شوید. در این پوشه یک فایل جدید ایجاد کنید به نام robots.txt. بر روی فایلی که ایجاد کرده‌اید دو بار کلیک نمایید تا در کامپیوترتان ذخیره شود. سپس آن را با برنامه notepad باز کنید و دستورات لازم را در آن وارد کرده و تغییرات را ذخیره کنید. فایل را مجدداً درهاست خود جایگزین فایل قبلی نمایید. در تمام مراحل توجه داشته باشید که فایل robots.txt نسبت به کوچکی و بزرگی حروف حساس است. نام خود فایل باید با حروف کوچک نوشته شود. در نوشتن دستورات نیز به کوچکی یا بزرگی نام فایل‌ها توجه کنید.

بهینه‌سازی فایل robots.txt برای سئو

به منظور بهینه‌سازی سئو، برخی نکات مهم درباره فایل robots.txt وجود دارد که باید به آن‌ها توجه کنید:

1. استفاده از دستور disallow منجر به کاملاً جلوگیری از خزیدن صفحه موردنظر می‌شود. به عبارت دیگر، حتی لینک‌های درون این صفحه نیز به صورت نوفالو تلقی می‌شوند. بنابراین، اگر قصد دارید لینک‌های درون صفحه فالو باشند، باید از روش دیگری به جای استفاده از disallow استفاده کنید.

2. استفاده از دستور disallow برای مخفی‌سازی اطلاعات حساس کاربران بی‌فایده است؛ زیرا ممکن است شما از صفحات دیگر سایت به این صفحه لینک داده باشید و در نتیجه خزنده‌ها یا ربات‌ها می‌توانند از طریق آن لینک‌ها به صفحه مذکور دسترسی پیدا کنند و آن را ایندکس کنند.

3. به طور معمول، اطلاعات فایل robots.txt تا یک روز در کش موتورهای جستجو ذخیره می‌شوند؛ بنابراین، اگر محتوای این فایل را تغییر داده و می‌خواهید موتورهای جستجو به سرعت از تغییرات مطلع شوند، باید فایل را مجدداً در کنسول گوگل قرار دهید.

قرار دادن robots.txt در سرچ کنسول گوگل

پس از ساخت فایل robots.txt، باید آن را در کنسول گوگل نیز اضافه کنید تا ربات‌های گوگل به سرعت به صفحات مجاز یا غیر مجاز سایت شما دسترسی پیدا کنند و سایت شما را سریع‌تر فراهم کنند. برای این کار، لینک مربوطه را باز کرده و سپس سایت خود را انتخاب کنید. در صورتی که قبلاً در کنسول گوگل ثبت‌نام نکرده‌اید، مراحل ثبت‌نام را انجام دهید. بعد از انتخاب سایت، صفحه‌ای باز می‌شود که در صورت آپلود پیش‌تر فایل robots.txt، محتویات فایل قبلی را نشان می‌دهد. در غیر این صورت، فایل robots.txt را آپلود کرده و دکمه ارسال را کلیک کنید. با این کار، فایل شما به گوگل معرفی می‌شود و ربات‌های گوگل به راهنمایی شما به سمت سایت شما هدایت خواهند شد.

لینک کوتاه این مقاله:

https://behinta.com/?p=11375
فیسبرک
تویتر
لینکدین
تلگرام
واتسآپ
ایمیل

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

در صورت تمایل برای بهبود شغل و کاری که انجام می دهید می توانید با پر کردن فرم مقابلتان و بیان مسئله ما را در خدمت رسانی هر چه بهتر به خود یاری و کمک نمایید.

در صورت تمایل می توانید با شماره گیری شماره زیر و گذاشتن قرار ملاقات به صورت حضوری از این مشاوره استفاده کنید.

شماره تماس: 031-91690546