فایل Robots.Txt چیست و چه کاربردی دارد؟

Robots.txt / فایل ربات
حتما شما هم شنیدهاید که برای بهبود عملکرد سایت بهتر است از فایل Robots.txt در سایت خود استفاده کنید. برای این که درک بهتری از این فایل کاربردی داشته باشید باید بگوییم که این فایل به صورت یک راهنما و راهبر برای رباتهای خزنده و جستجوگر عمل میکند. در واقع علاوه بر کاربران انسانی که بازدیدکنندگان سایت شما محسوب میشوند رباتها نیز به سایت شما سرکشی میکنند. رباتها عموما ابزار موتورهای جستجو برای یافتن صفحات یا مطالب جدید در بستر وب هستند. گاهی ممکن است این رباتها اطلاعاتی که شما مایل به نمایش آنها نیستید را در سطح وب به نمایش بگذارند، برای جلوگیری از این کار باید راهنمایی وجود داشته باشد که بتواند این محدودیتها را برای رباتها تعریف کند. یک فایل Robots.txt در سایت، دقیقا نقش همان راهنما را ایفا میکند و پل ارتباطی میان شما و رباتهای خزنده هستند. حال که با زبان ساده با این ابزار کاربردی آشنا شدید شما را به مطالعه جزئیات و تمام نکات پیرامون Robots.txt دعوت میکنیم. همراه ما باشید.
فایل Robots.txt چیست و چگونه کار میکند؟
حتما میدانید که تمام اصول سئو بر اساس الگوریتمهای موتورهای جستجو پیادهسازی میشوند. موتورهای جستجو دو وظیفه اصلی دارند، اول این که یک وب سایت را برای دیسکاور کردن محتوا کرال کنند و دوم، با ایندکس کردن محتوا آن را در اختیار کاربران هدف قرار دهند.
برای انجام وظیفه اول رباتهای خزنده لینکها را دنبال میکنند و از یک سایت به سایت دیگر میروند و در نهایت میلیاردها لینک کرال میشود، به این شکل از کرال کردن سایت، کرال عنکبوتی یا شبکهای میگویند. وقتی رباتهای خزنده به یک سایت وارد میشوند در اولین گام به دنبال فایل Robots.txt هستند، این فایل عموما اطلاعاتی در مورد چگونه خزیدن را در اختیار رباتهای خزنده قرار میدهد. در صورت وجودفایل Robots.txt ربات جستجوگر این فایل را میخواند و در غیر اینصورت به کرال کردن در سایت بدون هیچ دستورالعملی ادامه میدهد. بنابراین به زبان ساده فایل Robots.txt یک مجوزدهنده یا راهنما برای رباتهای جستجوگر یا خزنده محسوب میشود.
چرا باید از فایل Robots.txt در سایت خود استفاده کنیم؟
حال که با ماهیت فایل Robots.txt آشنا شدید حتما فهمیدهاید که وجود این فایل تا چه اندازه میتواند کاربردی باشد. در حقیقت وجود فایل Robots.txt به وب مسترها یا صاحبان وب سایتها اجازه میدهد که ورود رباتها به سایت خود را از راههای مختلف کنترل کنند. حتما میپرسید کنترل کردن این رباتها چه فایدهای دارد؟
تولید محتوا به منظور دیده شدن توسط مخاطبان هدف مهمترین عملکرد یک سایت محسوب میشود، با این حال همه صفحات یک سایت ارزش یکسانی ندارند مثلا ایندکس شدن پنل مدیریتی یک سایت و قرار گرفتن آن در اختیار عموم در موتورهای جستجو میتواند مخرب باشد.
در مثال بعدی سایتی را در نظر بگیرید که دارای هزاران صفحه است و ترافیک سایت نیز بسیار بالا است، مطمئنا بازدید پی در پی و پشت سر هم رباتها از صفحات غیر ضروری میتواند قدرت پردازش و پهنای باند سرور را تحت تأثیر قرار دهد. فایل Robots.txt میتواند با محدود کردن درخواستهای بیش از اندازه بازدید از صفحات وب سایت این مشکل را برطرف کند.در واقع یک فایل ربات همانند یک رئیس دانا و راهنما میتواند رباتهای خزنده موتورهای جستجو را تحت امر خود قرار دهد.
با این حال باید گفت که همه سایتها به فایل robots.txt نیاز ندارند. به این دلیل که رباتهای گوگل معمولاً میتواند تمام صفحات مهم سایت شما را پیدا کرده و فهرستبندی کنند و به طور خودکار صفحاتی را که نسخههای مهم یا تکراری صفحات دیگر نیستند ایندکس نمیکنند. با این حال، ۳ دلیل اصلی وجود دارد که بیانگر استفاده از از فایل robots.txt به شمار میروند. این دلایل عبارتند از:
مسدود کردن صفحات غیر عمومی:
گاهی اوقات صفحاتی در سایت خود دارید که نمیخواهید ایندکس شوند. به عنوان مثال، ممکن است یک نسخه مرحلهبندی از یک صفحه داشته باشید. یا یک صفحه ورود این صفحات باید وجود داشته باشند. اما شما نمیخواهید افرادی تصادفی به این صفحات دست پیدا کنند. با استفاده از فایل robots.txt میتوانید دسترسی این صفحات را برای رباتهای خزنده مسدود کنید.
بهینهسازی ایندکس:
اگر برای ایندکس شدن همه صفحات خود با مشکل مواجه هستید با مسدود کردن صفحات بیاهمیت با robots.txt، Googlebot میتوانید حضور رباتهای جستجوگر و خزنده را صرفا برای ایندکس صفحات مهم استفاده کنید.
جلوگیری از نمایهسازی منابع:
استفاده از دستورات متا میتواند به همان اندازه Robots.txt برای جلوگیری از ایندکس شدن صفحات کارایی داشته باشد. با این حال، دستورالعملهای متا برای منابع چندرسانهای، مانند فایلهای PDF و تصاویر، به خوبی کار نمیکنند. اینجاست که robots.txt بهترین انتخاب خواهد بود.
به یاد داشته باشید که میتوانید بررسی کنید چند صفحه را در کنسول جستجوی گوگل ایندکس کرده اید. اگر عدد به دست آمده با تعداد صفحاتی که میخواهید ایندکس شوند مطابقت دارد، نیازی به زحمت فایل Robots.txt ندارید. اما اگر این عدد بیشتر از چیزی است که انتظار داشتید (و متوجه URLهای نمایه شدهای شدهاید که نباید ایندکس شوند)، زمان آن رسیده است که یک فایل robots.txt برای وب سایت خود ایجاد کنید.
دستورات فایل Robots
فایل ربات دارای ۴ دستور مهم است که عبارتند از:
دستور User-agent:
این دستور برای مشخص کردن رباتی که دستورات برای آن نوشته شده است مورد استفاده قرار میگیرد. برای اجرای دستور یکسان برای همه رباتهای خزنده بعد از عبارت User-agent از * استفاده میشود. در غیر این صورت به منظور اجرای دستور برای ربات یا رباتهای خاص کافی است نام آنها را بعد از دستور User-agent بنویسید.
دستور Disallow:
در این دستور محدودیتهای بررسی یا درخواست ربات برای کرال صفحات تعریف میشود. بعد از عبارت Disallow در دستورالعمل نام پوشهای که اجازه دسترسی ندارد را بگذارید.
دستور Allow:
این دستور تعریف کننده بخشهایی از سایت است که ربات اجازه دسترسی و بررسی آنها را دارد. برای نوشتن این دستور بعد از عبارت Allow نام فایلی که رباتهای خزنده اجازه دسترسی به آن را دارند قرار دهید.
دستور Sitemap:
از این دستور برای نشان دادن آدرس فایل نقشه سایت به رباتها استفاده میشود. برای اجرای این دستور کافی است بعد از آدرس سایت sitemap. xml را قرار دهید.
بیشتر بخوانید: نقشه سایت (Sitemap) چیست؟
دستور Crawl-delay:
با استفاده از این دستور میتوان مشخص کرد که رباتهای خزنده باید چند ثانیه برای کراول کردن سایت صبر کنند. این دستور میتواند روی سرعت لود شدن سایت تاثیر مستقیم داشته باشد.
چه مواردی را باید در فایل Robots.txt قرار دهیم؟
دستوراتی که میتوان در یک فایل ربات قرار داد زیر مجموعه همان چهار دستور اصلی است که در قسمت قبل به آنها اشاره کردیم. این دستورات شامل اجازه یاعدم اجازه کرال کردن تمام وب سایت تا بخشهای مشخصی از آن توسط یک یا چند ربات خاص و مشخص میشود.
بلاک کردن همه تصاویر گوگل از روی سایت خودتان مورد دیگری است که میتوانید در فایل Robots.txt از آن استفاده کنید. عدم اجازه کرال کردن فایلهای مخصوص از جمله gif، Java، Pdf و… نیز از جمله مواردی است که میتوان در ایل Robots.txt از آن استفاده کرد.
سازگاری URL های که با استرینگهای خاصی به پایان میرسند نیز مورد دیگری است که میتوان در فایل Robots.txt قرار داد.
نکات مهم در بهینهسازی فایل Robots برای سئو
مهمترین نکاتی که در بهینهسازی فایل ربات میتوان به آنها اشاره داشت عبارتند از:
- توصیه میشود مسدودسازی پوشههای CSS یا JS به هیچ عنوان انجام دهید چرا که این صفحات برای ارائه عملکرد مناسب صفحات سایت مورد نیاز است.
- بهتر است از فایل txt برای جلوگیری از دسترسی به اطلاعات حساس استفاده نشود. برای این کار میتوانید از تکنیکهای دیگری چون رمزگذاری یا تکنیکهای مرتبط با no index استفاده کنید.
- حتما فایل ربات ساخته شده را تست کنید. تا مطمئن شوید صفحاتی که تمایل دارید در فهرست موتورهای جستجو ظاهر شوند مسدود نشده باشند.
- در وب سایت وردپرسی نیازی به مسدودسازی دسترسی به فولدرهای wp-admin و wp-include نیست.
نحوه ساخت فایل Robots و بارگذاری آن در سایت و معرفی آن به گوگل
برای ساخت فایل Robots.txt نیاز به هیچ برنامه خاصی ندارید و هر ویرایشگر متنی با فایل خروجی TXT میتواند مورد استفاده قرار گیرد. برای ساخت این فایل باید یک فایل txt جدید ایجاد کرده و فرمت فایل نیز باید از نوع UTF-8 باشد. شما میتوانید دستورات لازم را در این فایل نوشته و آن را در سایت خود بارگذاری کنید.
چگونه فایل Robots سایت خود را مشاهده کنیم؟
پیدا کردن فایل ربات در سایت اصلا کار سختی نیست. برای این کار کافی است آدرس سایت خود را در مرورگر وارد کرده و سپس عبارت robots.txt/ را در انتهای URL قرار دهید. به این ترتیب فایل robots را در مرورگر خواهید دید.
عموما فایل Robots.txt در قسمت Root سایت قرار دارد و برای دسترسی به دایرکتوری آن باید اکانت هاستینگ وبسایت وارد شوید. پس از ورود به قسمت مدیریت فایل بروید. فایل robots.txt خود را یافته و آن را باز کنید. در این صورت میتوانید دستور جدیدی که میخواهید را وارد کرده و ذخیره کنید و یا دستورات موجود در فایل را بازبینی کنید.
رایجترین اشتباهات در ساخت فایل Robots.txt
اگرچه ساخت فایل ربات بسیار ساده است اما اشتباهات رایجی در ساخت این فایل وجود دارد که مهمترین آنها عبارتند از:
• عدم حضور Robots.txt در فهرست اصلی یک اشتباه اساسی است که میتواند منجر به عدم خزیده شدن وبسایت شما توسط موتورهای جستجو شود.
• استفاده ضعیف از حروف عام میتواند منجر به مسدود شدن صفحاتی شود که نباید مسدود شوند. به عنوان مثال، اگر از دستور Disallow برای مسدود کردن تمام صفحات استفاده کنید، موتورهای جستجو هیچ صفحهای از وبسایت شما را خزیده نخواهند کرد.
• No index در Robots.txt یک دستور مفید است که میتواند برای جلوگیری از فهرست شدن صفحات حساس استفاده شود. با این حال، استفاده نادرست از این دستور میتواند منجر به از دست رفتن ترافیک جستجو شود. به عنوان مثال، اگر از دستور No index برای مسدود کردن صفحه اصلی وبسایت خود استفاده کنید، هیچ کاربری نمیتواند وبسایت شما را در نتایج جستجو پیدا کند.
• مسدود کردن اسکریپتها و صفحههای سبک میتواند منجر به مشکلاتی در عملکرد و تجربه کاربری وبسایت شما شود.
• بدون URL نقشه سایت میتواند منجر به خزیده شدن ناقص وبسایت شما توسط موتورهای جستجو شود.
• وجود دسترسی به سایتهای توسعه میتواند منجر به خزیده شدن محتوای حساس توسط موتورهای جستجو شود.
سخن پایانی
فایل Robots.txt یک فایل ساده اما بسیار کاربردی برای هدایت و کنترل رباتهای خزنده انواع موتورهای جستجو است که عملکرد آنها را در کرال کردن صفحات سایت کنترل میکند. ما در این مقاله به تمام نکات پیرامون ماهیت، ساخت، دستورات، عملکرد و اشتباهات رایج در ساخت فایل Robots.txt پرداختیم. مطالبی که گفته شد، تنها بخشی از مطالبی است که می توانید در آموزش سئو دکتر مهریزدان از آن بهره مند شوید. همچنین شما می توانید برای اطلاع از مطالب مهم دیگر در حوزه سئو، مقالات وینت سئو را مطالعه کنید.
- سطح دوره: مبتدی