حتما شما هم شنیدهاید که برای بهبود عملکرد سایت بهتر است از فایل Robots.txt در سایت خود استفاده کنید. برای این که درک بهتری از این فایل کاربردی داشته باشید باید بگوییم که این فایل به صورت یک راهنما و راهبر برای رباتهای خزنده و جستجوگر عمل میکند. در واقع علاوه بر کاربران انسانی که بازدیدکنندگان سایت شما محسوب میشوند رباتها نیز به سایت شما سرکشی میکنند.
رباتها عموما ابزار موتورهای جستجو برای یافتن صفحات یا مطالب جدید در بستر وب هستند. گاهی ممکن است این رباتها اطلاعاتی که شما مایل به نمایش آنها نیستید را در سطح وب به نمایش بگذارند، برای جلوگیری از این کار باید راهنمایی وجود داشته باشد که بتواند این محدودیتها را برای رباتها تعریف کند. یک فایل Robots.txt در سایت، دقیقا نقش همان راهنما را ایفا میکند و پل ارتباطی میان شما و رباتهای خزنده هستند. حال که با زبان ساده با این ابزار کاربردی آشنا شدید شما را به مطالعه جزئیات و تمام نکات پیرامون Robots.txt دعوت میکنیم. همراه ما باشید.
حتما میدانید که تمام اصول سئو بر اساس الگوریتمهای موتورهای جستجو پیادهسازی میشوند. موتورهای جستجو دو وظیفه اصلی دارند، اول این که یک وب سایت را برای دیسکاور کردن محتوا کرال (خزش) کنند و دوم، با ایندکس کردن محتوا آن را در اختیار کاربران هدف قرار دهند.
برای انجام وظیفه اول رباتهای خزنده لینکها را دنبال میکنند و از یک سایت به سایت دیگر میروند و در نهایت میلیاردها لینک کرال میشود، به این شکل از کرال کردن سایت، کرال عنکبوتی یا شبکهای میگویند. وقتی رباتهای خزنده به یک سایت وارد میشوند در اولین گام به دنبال فایل Robots.txt هستند، این فایل عموما اطلاعاتی در مورد چگونه خزیدن را در اختیار رباتهای خزنده قرار میدهد. در صورت وجودفایل Robots.txt ربات جستجوگر این فایل را میخواند و در غیر اینصورت به کرال کردن در سایت بدون هیچ دستورالعملی ادامه میدهد. بنابراین به زبان ساده فایل Robots.txt یک مجوزدهنده یا راهنما برای رباتهای جستجوگر یا خزنده محسوب میشود.
شما چه دوست داشته باشید و چه نه رباتها و خزنده های گوگل به سایت شما سر میزنند و اگر اینکار را نکنند محتوای سایت شما را نمی توانند پردازش کنند و علاوه بر آن نمی توانند به شما کمکی کنند که محتواها و صفحات هدف اصلی شما در رقابت با رقبا جایگاه خوبی به دست آورد حتما شما هم دوست ندارید که این فرصت را به رقبا دهید ولی شما به عنوان مدیر سایت، میتوانید اجازه دهید که این رباتها به کدام بخش سایت دسترسی داشته باشند و به کدام بخش سایت دسترسی نداشته باشند، شما این جواز را به وسیله فایل ربات یا همان ROBOTS.TXT میدهید.
برای همین در این راهنما می خواهیم به صورت اصولی در این راهنما و نحوه صحیح ایجاد یک فایل ربات مناسب با شما صحبت کنیم ایجاد یک فایل ربات مناسب در قسمت سئوی تکنیکال مورد بررسی قرار میگیرد و یک سئو کار حرفه ای می بایست از همان اول فایل ربات سایت را در کنار نقشه سایت بررسی نماید.
اجرای این دو نکته به خودی خود موجب ارتقای رتبه های شما نمی شود ولی از اصول کار است و بدون این دو شما نمی توانید کار سئوی سایت را شروع نمایید بنابراین باید این دو اصل را به خوبی فرابگیرید و بعد کار را شروع نمایید. برای همین میتوانید در حوزه سئوی تکنیکال این محتوا را بخوانید: سئوی تکنیکال چیست و در حوزه اینکه بدانید نقشه سایت یا سایت مپ چیست این محتوا را بخوانید: نقشه سایت یا سایت مپ چیست و چه نقشی در سئو دارد
چرا باید از فایل Robots.txt در سایت خود استفاده کنیم؟
حال که با ماهیت فایل Robots.txt آشنا شدید حتما فهمیدهاید که وجود این فایل تا چه اندازه میتواند کاربردی باشد. در حقیقت وجود فایل Robots.txt به وب مسترها یا صاحبان وب سایتها اجازه میدهد که ورود رباتها به سایت خود را از راههای مختلف کنترل کنند. حتما میپرسید کنترل کردن این رباتها چه فایدهای دارد؟
تولید محتوا به منظور دیده شدن توسط مخاطبان هدف مهمترین عملکرد یک سایت محسوب میشود، با این حال همه صفحات یک سایت ارزش یکسانی ندارند مثلا ایندکس شدن پنل مدیریتی یک سایت و قرار گرفتن آن در اختیار عموم در موتورهای جستجو میتواند مخرب باشد.
در مثال بعدی سایتی را در نظر بگیرید که دارای هزاران صفحه است و ترافیک سایت نیز بسیار بالا است، مطمئنا بازدید پی در پی و پشت سر هم رباتها از صفحات غیر ضروری میتواند قدرت پردازش و پهنای باند سرور را تحت تأثیر قرار دهد. فایل Robots.txt میتواند با محدود کردن درخواستهای بیش از اندازه بازدید از صفحات وب سایت این مشکل را برطرف کند.در واقع یک فایل ربات همانند یک رئیس دانا و راهنما میتواند رباتهای خزنده موتورهای جستجو را تحت امر خود قرار دهد.
با این حال باید گفت که همه سایتها به فایل robots.txt نیاز ندارند. به این دلیل که رباتهای گوگل معمولاً میتواند تمام صفحات مهم سایت شما را پیدا کرده و فهرستبندی کنند و به طور خودکار صفحاتی را که نسخههای مهم یا تکراری صفحات دیگر نیستند ایندکس نمیکنند.
با این حال، ۳ دلیل اصلی وجود دارد که بیانگر استفاده از از فایل robots.txt به شمار میروند. این دلایل عبارتند از:
مسدود کردن صفحات غیر عمومی
گاهی اوقات صفحاتی در سایت خود دارید که نمیخواهید ایندکس شوند. به عنوان مثال، ممکن است یک نسخه مرحلهبندی از یک صفحه داشته باشید. یا یک صفحه ورود این صفحات باید وجود داشته باشند. اما شما نمیخواهید افرادی تصادفی به این صفحات دست پیدا کنند. با استفاده از فایل robots.txt میتوانید دسترسی این صفحات را برای رباتهای خزنده مسدود کنید.
بهینهسازی ایندکس
اگر برای ایندکس شدن همه صفحات خود با مشکل مواجه هستید با مسدود کردن صفحات بیاهمیت با robots.txt، Googlebot میتوانید حضور رباتهای جستجوگر و خزنده را صرفا برای ایندکس صفحات مهم استفاده کنید.
جلوگیری از نمایهسازی منابع
استفاده از دستورات متا میتواند به همان اندازه Robots.txt برای جلوگیری از ایندکس شدن صفحات کارایی داشته باشد. با این حال، دستورالعملهای متا برای منابع چندرسانهای، مانند فایلهای PDF و تصاویر، به خوبی کار نمیکنند. اینجاست که robots.txt بهترین انتخاب خواهد بود.
به یاد داشته باشید که میتوانید بررسی کنید چند صفحه را در کنسول جستجوی گوگل ایندکس کرده اید. اگر عدد به دست آمده با تعداد صفحاتی که میخواهید ایندکس شوند مطابقت دارد، نیازی به زحمت فایل Robots.txt ندارید. اما اگر این عدد بیشتر از چیزی است که انتظار داشتید (و متوجه URLهای نمایه شدهای شدهاید که نباید ایندکس شوند)، زمان آن رسیده است که یک فایل robots.txt برای وب سایت خود ایجاد کنید.
<h2دستورات فایل Robots
فایل ربات دارای ۴ دستور مهم است که عبارتند از:
دستور User-agent
این دستور برای مشخص کردن رباتی که دستورات برای آن نوشته شده است مورد استفاده قرار میگیرد. برای اجرای دستور یکسان برای همه رباتهای خزنده بعد از عبارت User-agent از * استفاده میشود. در غیر این صورت به منظور اجرای دستور برای ربات یا رباتهای خاص کافی است نام آنها را بعد از دستور User-agent بنویسید.
دستور Disallow
در این دستور محدودیتهای بررسی یا درخواست ربات برای کرال صفحات تعریف میشود. بعد از عبارت Disallow در دستورالعمل نام پوشهای که اجازه دسترسی ندارد را بگذارید.
دستور Allow
این دستور تعریف کننده بخشهایی از سایت است که ربات اجازه دسترسی و بررسی آنها را دارد. برای نوشتن این دستور بعد از عبارت Allow نام فایلی که رباتهای خزنده اجازه دسترسی به آن را دارند قرار دهید.
دستور Sitemap
از این دستور برای نشان دادن آدرس فایل نقشه سایت به رباتها استفاده میشود. برای اجرای این دستور کافی است بعد از آدرس سایت sitemap. xml را قرار دهید.
شما زمانی که قاعده های سئوی تکنیکال و سئوی داخلی را درکنار هم استفاده نمایید می توانید به آینده سئوی خود امیدوار باشید برای همین موضوع چند راهنمای کاربردی در این دو بخش برای شما آماده کردیم که مطالعه و یادگیری مفاهیم آن ها می تواند به شما کمک نماید از استراتژی های سئوی خود استفاده نمایید.
اگر میخواهید در حوزه سئوی فنی خود بهتر عمل نمایید حتما این محتوا را بخوانید: ریدایرکت چیست و انواع ریدایرکت کردن و دوم برد کرامپ چیست را بخوانید و در این محتوا نیز نقش هاست بر سئو را و انواع هاست را مطالعه نمایید و درانتها پیشنهاد میدهیم حتما این محتوا را نیز در مورد CDN و نقش آن بر روی سئو مطالعه نمایید
و اگر میخواهید سئوی محتوا را به خوبی انجام نمایید در درجه اول این محتوا را مطالعه نمایید: سئوی محتوا و تمام رازهای سئوی محتوا و اگر هنوز نمیدانید عدم داشتن استراتژی لینک سازی چه صدماتی به شما وارد میکند و موجب میشود تعداد زامبی پیج های شما بالاتر برود این دو محتوا را مطالعه نمایید: 1- آموزش کامل استراتژی لینک سازی و 2- زامبی پیچ چیست
دستور Crawl-delay
با استفاده از این دستور میتوان مشخص کرد که رباتهای خزنده باید چند ثانیه برای کراول کردن سایت صبر کنند. این دستور میتواند روی سرعت لود شدن سایت تاثیر مستقیم داشته باشد.
چه مواردی را باید در فایل Robots.txt قرار دهیم؟
دستوراتی که میتوان در یک فایل ربات قرار داد زیر مجموعه همان چهار دستور اصلی است که در قسمت قبل به آنها اشاره کردیم. این دستورات شامل اجازه یاعدم اجازه کرال کردن تمام وب سایت تا بخشهای مشخصی از آن توسط یک یا چند ربات خاص و مشخص میشود.
بلاک کردن همه تصاویر گوگل از روی سایت خودتان مورد دیگری است که میتوانید در فایل Robots.txt از آن استفاده کنید. عدم اجازه کرال کردن فایلهای مخصوص از جمله gif، Java، Pdf و… نیز از جمله مواردی است که میتوان در ایل Robots.txt از آن استفاده کرد.
سازگاری URL های که با استرینگهای خاصی به پایان میرسند نیز مورد دیگری است که میتوان در فایل Robots.txt قرار داد.
نکات مهم در بهینهسازی فایل Robots برای سئو
مهمترین نکاتی که در بهینهسازی فایل ربات میتوان به آنها اشاره داشت عبارتند از:
– توصیه میشود مسدودسازی پوشههای CSS یا JS به هیچ عنوان انجام دهید چرا که این صفحات برای ارائه عملکرد مناسب صفحات سایت مورد نیاز است.
– بهتر است از فایل txt برای جلوگیری از دسترسی به اطلاعات حساس استفاده نشود. برای این کار میتوانید از تکنیکهای دیگری چون رمزگذاری یا تکنیکهای مرتبط با no index استفاده کنید.
– حتما فایل ربات ساخته شده را تست کنید. تا مطمئن شوید صفحاتی که تمایل دارید در فهرست موتورهای جستجو ظاهر شوند مسدود نشده باشند.
– در وب سایت وردپرسی نیازی به مسدودسازی دسترسی به فولدرهای wp-admin و wp-include نیست.
نحوه ساخت فایل Robots و بارگذاری آن در سایت و معرفی آن به گوگل
برای ساخت فایل Robots.txt نیاز به هیچ برنامه خاصی ندارید و هر ویرایشگر متنی با فایل خروجی TXT میتواند مورد استفاده قرار گیرد. برای ساخت این فایل باید یک فایل txt جدید ایجاد کرده و فرمت فایل نیز باید از نوع UTF-8 باشد. شما میتوانید دستورات لازم را در این فایل نوشته و آن را در سایت خود بارگذاری کنید.
چگونه فایل Robots سایت خود را مشاهده کنیم؟
پیدا کردن فایل ربات در سایت اصلا کار سختی نیست. برای این کار کافی است آدرس سایت خود را در مرورگر وارد کرده و سپس عبارت robots.txt/ را در انتهای URL قرار دهید. به این ترتیب فایل robots را در مرورگر خواهید دید.
عموما فایل Robots.txt در قسمت Root سایت قرار دارد و برای دسترسی به دایرکتوری آن باید اکانت هاستینگ وبسایت وارد شوید. پس از ورود به قسمت مدیریت فایل بروید. فایل robots.txt خود را یافته و آن را باز کنید. در این صورت میتوانید دستور جدیدی که میخواهید را وارد کرده و ذخیره کنید و یا دستورات موجود در فایل را بازبینی کنید.
رایجترین اشتباهات در ساخت فایل Robots.txt
اگرچه ساخت فایل ربات بسیار ساده است اما اشتباهات رایجی در ساخت این فایل وجود دارد که مهمترین آنها عبارتند از:
• عدم حضور Robots.txt در فهرست اصلی یک اشتباه اساسی است که میتواند منجر به عدم خزیده شدن وبسایت شما توسط موتورهای جستجو شود.
• استفاده ضعیف از حروف عام میتواند منجر به مسدود شدن صفحاتی شود که نباید مسدود شوند. به عنوان مثال، اگر از دستور Disallow برای مسدود کردن تمام صفحات استفاده کنید، موتورهای جستجو هیچ صفحهای از وبسایت شما را خزیده نخواهند کرد. البته باید یادآور شویم دستور DISAVOW و دستور DISALLOW با یکدیگر متفاوت هستند و دستور DISAVOW برای سئوی خارجی و بخش بک لینکهاست که میتوانید در حوزه این دو مطلب این دو راهنما را مطالعه نمایید: 1- بک لینک چیست و آموزش استراتژی لینک سازی خارجی و 2- DISAVOW چیست
• No index در Robots.txt یک دستور مفید است که میتواند برای جلوگیری از فهرست شدن صفحات حساس استفاده شود. با این حال، استفاده نادرست از این دستور میتواند منجر به از دست رفتن ترافیک جستجو شود. به عنوان مثال، اگر از دستور No index برای مسدود کردن صفحه اصلی وبسایت خود استفاده کنید، هیچ کاربری نمیتواند وبسایت شما را در نتایج جستجو پیدا کند.
• مسدود کردن اسکریپتها و صفحههای سبک میتواند منجر به مشکلاتی در عملکرد و تجربه کاربری وبسایت شما شود.
• بدون URL نقشه سایت میتواند منجر به خزیده شدن ناقص وبسایت شما توسط موتورهای جستجو شود.
• وجود دسترسی به سایتهای توسعه میتواند منجر به خزیده شدن محتوای حساس توسط موتورهای جستجو شود.
تست فایل Robots با ابزار گوگل
برای تست این که یک صفحه یا هر نوع فایلی توسط فایل Robots.txt بلاک شده، و همچنین اطمینان از این که خود فایل Robots در دسترس است،میتوانید از ابزار تست کننده در سرچ کنسول گوگل استفاده کنید.
اگر وبسایت خود را به ابزار سرچ کنسول گوگل متصل کرده باشید، وقتی این ابزار تست را باز کنید از شما میخواهد که سایت متصل شده مورد نظر را انتخاب کنید.
بعد از انتخاب وبسایت به صفحهای هدایت میشوید که آخرین محتوای فایل Robots.txt که گوگل دریافت و بررسی کرده را نمایش میدهد. میتوانید فایل را در همین صفحه ویرایش کنید و بعد با زدن دکمه submit صفحهای باز میشود.
در این صفحه مثل تصویر زیر سه دکمه میبینید.
با دکمه اول فایل Robots.txt جدید را دانلود میکنید.
حالا باید این فایل را در سرور میزبان به جای فایل قبلی قرار دهید.
بعد از آپلود، اگر دکمه View uploaded version را بزنید نسخه جدید را باز میکند.
در انتها هم با زدن دکمه submit از گوگل بخواهید تا فایل جدید را دریافت و بررسی کند. اگر این کارها را با موفقیت انجام دهید، ساعت و تاریخ آخرین بررسی فایل ربات به زمانی بعد از درخواست تغییر میکند. برای اطمینان هم میتوانید دوباره از همین ابزار برای مطمئن شدن استفاده کنید.
این ابزار نمیتواند به صورت مستقیم فایل robots.txt را ویرایش کند. بعد از زدن دکمه submit پنجرهای باز میشود که از شما میخواهد فایل جدید ویرایش شده را دانلود کرده و به جای فایل قبلی در سرور میزبان وبسایت جایگزین کنید.
اگر هم میخواهید صفحههای مشخصی را تست کنید، کافی است آدرس آن را در نوار پایینی وارد کنید و بعد ربات گوگلی که مد نظرتان است را انتخاب کنید. هر بار که دکمه test را بزنید در همان لحظه به شما نشان میدهد اجازه دسترسی رباتها به صفحه را دادهاید یا نه.
مثلاً میتوانید بررسی کنید آیا ربات مخصوص تصاویر گوگل به یک صفحه خاص دسترسی دارد یا نه. امکان به همان صفحه اجازه دسترسی ربات وب را داده باشید اما ربات تصاویر مجاز به دریافت تصاویر و نمایش آن در نتایج جستجو نباشد.
سخن پایانی
فایل Robots.txt یک فایل ساده اما بسیار کاربردی برای هدایت و کنترل رباتهای خزنده انواع موتورهای جستجو است که عملکرد آنها را در کرال کردن صفحات سایت کنترل میکند. ما در این مقاله به تمام نکات پیرامون ماهیت، ساخت، دستورات، عملکرد و اشتباهات رایج در ساخت فایل Robots.txt پرداختیم. مطالبی که گفته شد، تنها بخشی از مطالبی است که می توانید در آموزش سئو دکتر مهریزدان از آن بهره مند شوید. همچنین شما می توانید برای اطلاع از مطالب مهم دیگر در حوزه سئو، مقالات وینت سئو را مطالعه کنید.