فایل Robots.txt یک فایل متنی است که در ریشه وبسایت قرار دارد و به وبشناسان و رباتهای جستجو اطلاعاتی درباره نحوه دسترسی به صفحات وبسایت ارائه میدهد. این فایل برای رباتهای جستجو مشخص میکند که کدام بخشهای وبسایت را باید یا نباید در جستجوی خود در نظر بگیرند.
زمانی که رباتهای جستجو به یک وبسایت دسترسی پیدا میکنند، ابتدا فایل robots.txt را مشاهده میکنند و سپس بر اساس دستورات موجود در آن، تصمیم میگیرند کدام صفحات وبسایت را بررسی کنند و کدام صفحات را نادیده بگیرند. این فایل برای کنترل و مدیریت روند شاخصسازی و جستجوی موتورهای جستجو استفاده میشود.
اگر به دنبال یادگیری مطالب کاربردی در زمینه طراحی سایت هستید، به شما پیشنهاد میدهیم به صفحه طراحی سایت سر بزنید.
فایل Robots.txt چیست؟
پروتکل REP (Robots Exclusion Protocol) دستورالعملهایی برای تنظیم رفتار رباتهای موتورهای جستجو در خصوص خزش صفحات وب یا عدم خزش آنها فراهم میکند. فایل robots.txt، یک فایل متنی است که وبمستران مسئول ایجاد آن هستند. این فایل به رباتهای موتورهای جستجو دستور میدهد که کدام صفحات وب را باید خزش کنند و کدام صفحات را نباید خزش کنند. همچنین، استفاده از لینکهای فالو و نوفالو نیز به پروتکل REP تعلق دارد. این لینکها نیز برای سازماندهی وبسایت و تنظیم دسترسی رباتها به صفحات وب و همچنین فهرستبندی آنها برای کاربران استفاده میشوند.
دستورات قابل پشتیبانی در فایل robots.txt
در فایل robots.txt، میتوان پنج دستور اصلی مهم را به شرح زیر مشاهده کرد که در ادامه با آنها آشنا خواهید شد:
دستور user-agent
دستور User-agent به تنهایی نمیتواند یک دستور کامل باشد، بلکه باید در کنار یکی از سه دستور بعدی استفاده شود. این دستور نوع رباتی که باید از دستورات بعدی اطاعت کند را مشخص میکند. به طور کلی با استفاده از این دستور، میتوانید کنترل کنید که یک یا چند نام ربات خاص چگونه با صفحات وب شما تعامل کنند و رفتار آنها را تنظیم نمایید.
برای مثال، اگر قصد داشته باشید برای رباتهای گوگل دستوری صادر کنید، نام رباتهای گوگل (مانند googlebot) را مینویسید. همچنین، اگر دستور برای تمام رباتهاست، باید در مقابل user-agent: از علامت ستاره (*) استفاده شود.
دستور disallow
با استفاده از دستور Disallow، میتوانید مسیرهایی را که رباتها نباید به آنها دسترسی داشته باشند، محدود کنید و بخشهای محتوایی از وبسایت خود را برای آنها قابل دسترسی نکنید.
دستور allow
دستور Allow در فایل robots.txt به معنای اجازه دسترسی است و به رباتهای مشخصشده اجازه میدهد تا به صفحاتی که در مقابل این دستور نوشته میشوند دسترسی پیدا کنند. استفاده از دستور Allow در فایل robots.txt ضروری نیست؛ زیرا رباتها به طور پیشفرض تمام صفحات سایت را میخوانند. با این حال، برخی وبمستران برای تأکید بر برخی صفحات خاص سایت خود از دستور Allow استفاده میکنند. نحوه استفاده از دستور Allow نیز تقریباً مشابه دستور Disallow است.
دستور sitemap
از این دستور برای اعلام مکان فایل نقشه سایت (sitemap) استفاده میشود. با این دستور میتوانید به رباتها محل قرارگیری نقشه سایت خود را اعلام کنید تا بتوانند وبسایت شما را به صورت بهتری ایندکس کنند.
دستور crawl-delay
استفاده از این دستور میتواند تأثیری بر روی سرعت بارگیری صفحات وبسایت شما داشته باشد. با اعمال این دستور، سرعت وبسایت شما به دلیل ورود بیش از حد خزندهها کاهش قابل توجهی نخواهد داشت. شما میتوانید یک عدد را در کنار این دستور تعیین کنید. این عدد نشان میدهد که خزندههای مشخص شده باید به مدت ثانیهای مشخص صبر کرده و سپس وبسایت را خزندهسازی کنند. با این حال، باید توجه داشت که این دستور تأثیری بر رباتهای گوگل ندارد. به طور خلاصه، این دستور برای تنظیم تاخیر بین درخواستهای متوالی رباتها به سرور استفاده میشود. با استفاده از این دستور، میتوانید میزان تاخیر را برای رباتها تنظیم کنید تا به منظور جلوگیری از بار زیاد بر روی سرور و محدود کردن دسترسی رباتها به وبسایت خود استفاده شود.
یک فایل Robots.txt باید حاوی چه چیزی باشد؟
در اکثر موارد، در این فایل باید از دسترسی صفحات /wp-admin/ و /readme.html/ که اطلاعات نسخه وردپرس شما را شامل میشوند، و صفحه افزونهها /plugins/ جلوگیری شود، به ویژه اگر سایت شما بر پلتفرم وردپرس قرار دارد. همچنین، در این فایل باید آدرس sitemap تعریف شده باشد تا موتورهای جستجوی گوگل بتوانند موقعیت صفحات مختلف سایت را پیدا کنند. این موارد به عنوان الزاماتی برای ساخت یک فایل robots در نظر گرفته میشوند. با این حال، شما میتوانید براساس نیاز خود، هر فایلی را که میخواهید را از دسترسی محروم کنید (disallow) یا برای تأکید، فایلهای ضروری را مجاز (allow) نمایید.
چرا باید از فایل robots.txt برای سایت خود استفاده کنیم؟
ممکن است این فایل در برخی موارد بسیار مفید باشد. به عنوان مثال:
1- زمانی که محتوای تکراری در سایت خود دارید، می توانید یکی از صفحات را ممنوع کنید.
2- بخشی از سایت را برای عموم غیر قابل دسترس قرار دهید، مانند صفحه قراردادهای عقد شده.
3- مکان نقشه سایت را برای رباتهای گوگل با دستور قابل قبول مشخص کنید.
4- به رباتها اجازه ندهید برخی از فایلهای سایت شما (مانند فایلهای PDF یا تصاویر) را فهرست کنند و در نتایج جستجو نمایش دهند.
5- به رباتها زمان تأخیری دهید تا هنگامی که سایت شلوغ می شود، سرعت کم نشود.
فایل robots.txt چگونه کار میکند؟
رباتها لینکها را پیروی میکنند و در صورتی که از یک سایت به دیگری لینک داده شود، این لینک را دنبال میکنند و به سایت مورد نظر متصل میشوند. اما قبل از خزش صفحات سایت جدید، این رباتها به فایل robots.txt مراجعه میکنند. در صورتی که این فایل موجود باشد، رباتها به دستورات آن پیروی میکنند و در صورتی که فایل موجود نباشد، تمام صفحات سایت را خزش میکنند.
چک کردن وجود فایل robots.txt برای یک سایت
برای دسترسی به فایل robots.txt سایت، کافی است در انتهای ریشه دامنهی اصلی سایت، یک اسلش (/) قرار داده و سپس عبارت robots.txt را تایپ کنید. به عنوان مثال، با وارد کردن آدرس example.com/robots.txt، محتوای فایل robots.txt سایت مورد نظر قابل مشاهده است.
در صورتی که سایت مورد نظر دارای فایل robots.txt نباشد، با ورود به آدرس فوق، با خطای 404 مواجه خواهید شد.
ساخت فایل robots.txt
برای ساخت فایل robots.txt به صفحه اصلیهاست خود در سی پنل یا دایرکت ادمین بروید. سپس بر روی file manager کلیک کنید. وارد پوشه public_html شوید. در این پوشه یک فایل جدید ایجاد کنید به نام robots.txt. بر روی فایلی که ایجاد کردهاید دو بار کلیک نمایید تا در کامپیوترتان ذخیره شود. سپس آن را با برنامه notepad باز کنید و دستورات لازم را در آن وارد کرده و تغییرات را ذخیره کنید. فایل را مجدداً درهاست خود جایگزین فایل قبلی نمایید. در تمام مراحل توجه داشته باشید که فایل robots.txt نسبت به کوچکی و بزرگی حروف حساس است. نام خود فایل باید با حروف کوچک نوشته شود. در نوشتن دستورات نیز به کوچکی یا بزرگی نام فایلها توجه کنید.
بهینهسازی فایل robots.txt برای سئو
به منظور بهینهسازی سئو، برخی نکات مهم درباره فایل robots.txt وجود دارد که باید به آنها توجه کنید:
1. استفاده از دستور disallow منجر به کاملاً جلوگیری از خزیدن صفحه موردنظر میشود. به عبارت دیگر، حتی لینکهای درون این صفحه نیز به صورت نوفالو تلقی میشوند. بنابراین، اگر قصد دارید لینکهای درون صفحه فالو باشند، باید از روش دیگری به جای استفاده از disallow استفاده کنید.
2. استفاده از دستور disallow برای مخفیسازی اطلاعات حساس کاربران بیفایده است؛ زیرا ممکن است شما از صفحات دیگر سایت به این صفحه لینک داده باشید و در نتیجه خزندهها یا رباتها میتوانند از طریق آن لینکها به صفحه مذکور دسترسی پیدا کنند و آن را ایندکس کنند.
3. به طور معمول، اطلاعات فایل robots.txt تا یک روز در کش موتورهای جستجو ذخیره میشوند؛ بنابراین، اگر محتوای این فایل را تغییر داده و میخواهید موتورهای جستجو به سرعت از تغییرات مطلع شوند، باید فایل را مجدداً در کنسول گوگل قرار دهید.
قرار دادن robots.txt در سرچ کنسول گوگل
پس از ساخت فایل robots.txt، باید آن را در کنسول گوگل نیز اضافه کنید تا رباتهای گوگل به سرعت به صفحات مجاز یا غیر مجاز سایت شما دسترسی پیدا کنند و سایت شما را سریعتر فراهم کنند. برای این کار، لینک مربوطه را باز کرده و سپس سایت خود را انتخاب کنید. در صورتی که قبلاً در کنسول گوگل ثبتنام نکردهاید، مراحل ثبتنام را انجام دهید. بعد از انتخاب سایت، صفحهای باز میشود که در صورت آپلود پیشتر فایل robots.txt، محتویات فایل قبلی را نشان میدهد. در غیر این صورت، فایل robots.txt را آپلود کرده و دکمه ارسال را کلیک کنید. با این کار، فایل شما به گوگل معرفی میشود و رباتهای گوگل به راهنمایی شما به سمت سایت شما هدایت خواهند شد.