فایل robots.txt یک فایل متنی است که به موتورهای جستجو میگوید کدام صفحات وب را نباید ایندکس کنند. این یک فایل مهم برای هر وبسایتی است، زیرا به موتورهای جستجو کمک میکند تا وبسایت شما را به درستی فهرست کنند.
اصولا پایه و اساس ربات ها هم ربات های فیزیکی و هم ربات های نرم افزاری وابسته به دستور است ، دستور همیشه مشخص می کند چه کاری انجام شود و چه کاری لازم نیست انجام شود.
حال بنا به دلایلی اگر نمی خواهید ربات گوگل مسیر و یا دایرکتوری خاصی را بازبینی کند بهتر است با دستورات فایل robots.txt آشنا شوید.
فایل robots.txt در دایرکتوری ریشه وبسایت شما قرار دارد. میتوانید آن را با استفاده از یک ویرایشگر متن ساده ایجاد یا ویرایش کنید.
فایل robots.txt از دو نوع دستور استفاده میکند:
- دستورات disallow: به موتورهای جستجو میگوید که صفحات خاصی را نباید ایندکس کنند.
- دستورات allow: به موتورهای جستجو میگوید که صفحات خاصی را حتماً ایندکس کنند.
برای استفاده از دستور disallow، URL صفحهای را که نمیخواهید ایندکس شود، وارد کنید. به عنوان مثال، برای جلوگیری از ایندکس شدن صفحه تماس با ما، دستور زیر را در فایل robots.txt اضافه کنید:
User-agent: *
Disallow: /contact-us
برای استفاده از دستور allow، URL صفحهای را که میخواهید حتماً ایندکس شود، وارد کنید. به عنوان مثال، برای اطمینان از ایندکس شدن صفحه اصلی وبسایت، دستور زیر را در فایل robots.txt اضافه کنید:
User-agent: *
Allow: /
میتوانید از دستورات disallow و allow را با هم در یک فایل robots.txt استفاده کنید. به عنوان مثال، دستور زیر از موتورهای جستجو میخواهد که صفحات تماس با ما و فهرست محصولات را ایندکس نکنند، اما صفحه اصلی را حتماً ایندکس کنند:
User-agent: *
Disallow: /contact-us
Disallow: /products
Allow: /
فایل robots.txt یک ابزار قدرتمند برای کنترل نحوه خزیدن و ایندکس شدن وبسایت شما توسط موتورهای جستجو است. با استفاده صحیح از این فایل، میتوانید به بهبود عملکرد سئوی وبسایت خود کمک کنید.
در اینجا چند نکته برای ایجاد یک فایل robots.txt موثر آورده شده است:
- از دستورات disallow برای مسدود کردن صفحاتی استفاده کنید که برای کاربران ارزشمند نیستند یا ممکن است باعث مشکلات فنی شوند.
- از دستورات allow برای اطمینان از ایندکس شدن صفحات مهمی که ممکن است توسط موتورهای جستجو نادیده گرفته شوند، استفاده کنید.
- فایل robots.txt خود را به طور منظم بررسی کنید تا مطمئن شوید که همچنان نیازهای وبسایت شما را برآورده میکند.
اگر در ایجاد یا ویرایش فایل robots.txt خود مشکل دارید، میتوانید از یک ابزار آنلاین ساخت فایل Robots.txt یا کمک از یک متخصص سئو استفاده کنید.
ربات گوگل چیست؟
ربات گوگل یا گوگل بات (Googlebot) یک ربات خزنده است که توسط گوگل برای ایندکس کردن و رتبه بندی وب سایت ها استفاده می شود. ربات گوگل از طریق لینک ها از یک وب سایت به وب سایت دیگر حرکت می کند و محتوای هر صفحه را پردازش می کند. این اطلاعات سپس برای ایجاد یک نمایه از وب استفاده می شود که موتور جستجو برای یافتن و رتبه بندی صفحات وب استفاده می کند.
ربات گوگل به طور مداوم در حال به روز رسانی نمایه خود از وب است، بنابراین مهم است که وب سایت شما برای ربات گوگل بهینه باشد. این بدان معناست که وب سایت شما باید به طور منظم محتوای جدید داشته باشد، از کلمات کلیدی مناسب استفاده کند و برای موتورهای جستجو بهینه سازی شود.
ربات گوگل همچنین می تواند برای اهداف دیگر استفاده شود، مانند جمع آوری داده ها برای تبلیغات گوگل یا نظارت بر عملکرد وب سایت ها.
گوگل از انواع مختلفی از رباتهای خزنده برای ایندکس کردن و رتبهبندی وبسایتها استفاده میکند. برخی از مهمترین رباتهای گوگل عبارتند از:
- Googlebot: این ربات خزنده اصلی گوگل است که برای ایندکس کردن و رتبهبندی وبسایتها استفاده میشود.
- Googlebot-Mobile: این ربات خزنده برای بررسی نسخههای موبایل وبسایتها استفاده میشود.
- Googlebot-News: این ربات خزنده برای بررسی وبسایتهای خبری استفاده میشود.
- Googlebot-Video: این ربات خزنده برای بررسی وبسایتهای ویدیویی استفاده میشود.
- Googlebot-Image: این ربات خزنده برای بررسی وبسایتهای تصویری استفاده میشود.
- Googlebot-Ads: این ربات خزنده برای جمعآوری دادهها برای تبلیغات گوگل استفاده میشود.
- Googlebot-Crawlbot: این ربات خزنده برای بررسی وبسایتهایی که توسط Googlebot ایندکس نشدهاند استفاده میشود.
- Googlebot-Test: این ربات خزنده برای آزمایش ویژگیهای جدید گوگل استفاده میشود.
علاوه بر این رباتهای اصلی، گوگل از انواع دیگری از رباتهای خزنده نیز استفاده میکند که برای اهداف خاص طراحی شدهاند. به عنوان مثال، گوگل از رباتهای خزنده برای بررسی وبسایتهای جدید، وبسایتهایی که در معرض حمله قرار گرفتهاند و وبسایتهایی که محتوای اسپم دارند استفاده میکند.
در اینجا چند نکته برای بهینه سازی وب سایت خود برای ربات گوگل آورده شده است:
- وب سایت خود را به طور منظم به روز نگه دارید. ربات گوگل به دنبال وب سایت هایی است که محتوای جدیدی دارند، بنابراین مهم است که وب سایت خود را به طور منظم به روز نگه دارید.
- از کلمات کلیدی مناسب استفاده کنید. ربات گوگل از کلمات کلیدی برای خزیدن و رتبه بندی وب سایت ها استفاده می کند، بنابراین مهم است که از کلمات کلیدی مناسب در محتوای خود استفاده کنید.
- وب سایت خود را برای موتورهای جستجو بهینه کنید. این بدان معناست که از عناوین و توضیحات متا مناسب استفاده کنید، از ساختار URL مناسب استفاده کنید و فایل های robots.txt خود را به درستی پیکربندی کنید.
تاریخچه فایل robots.txt
فایل robots.txt توسط آقای Martijn Koster در فوریه سال 1993 برای کنترل ربات هایی مثل ربات خزنده گوگل ساخته شده ، هر چند همه روبات ها از آن پیروی نمی گیرند.
کوستر متوجه شد که رباتهای خزنده موتورهای جستجو میتوانند منابع وب را به خطر بیندازند و باعث تأخیر در عملکرد و افزایش هزینهها شوند. او پروتکل robots.txt را به عنوان راهی برای کنترل نحوه تعامل رباتهای خزنده با وبسایتها پیشنهاد کرد.
عملکرد فایل robots.txt به این صورت است که اگر چیزی در آن دستور داده شده باشد ربات از آن پیروی می کند در غیر اینصورت به فرض اینکه صاحب وب سایت هیچ دستورالعمل خاصی را ندارد همه سایت را میخزد.
خوشبختانه موتورهای جستجو زیادی مانند Ask , AOL , Baidu , Bing , Google , Yahoo! و Yandex از دستورات فایل فایل robots.txt پیروی می کنند.
چند نمونه دستور فایل robots.txt
دستور فوق به همهٔ رباتها اجازه می دهد از همهٔ فایلها را ببینند ، علامت * یه معنی همهٔ رباتها میباشد در اینجا دستور disallow هیچ مقداری ندارد به این معنی است که هیچ صفحهای disallowed نشده.
[code]User-agent: * Disallow:[/code]
البته یک فایل خالی robot.txt نیز نتیجه مشابه دستور بالا دارد.
اگر نمیخواهید ربات ها وارد سایت شوند از دستور زیر استفاده کنید:
[code]User-agent: * Disallow: /[/code]
حال اگر میخواهید تنها چند مسیر از داخل سایت را محدود کنید دستور زیر را بنویسید:
[code]User-agent: * Disallow: /cgi-bin/ Disallow: /tmp/ Disallow: /junk/[/code]
شما حتی می توانید یک فایل خاص را با دستور زیر محدود کنید:
[code]User-agent: * Disallow: /directory/file.html[/code]
البته فایل های دیگر موجود در این مسیر مشاهده می شوند.
می خواهید ربات خاصی را از تصمیم خود مطلع کنید؟ مثلا میخواهید به او بگو ید وارد سایت نشود:
[code]User-agent: BadBot # replace ‘BadBot’ with the actual user-agent of the bot Disallow: /[/code]
حال اگر میخواهید 2 روبات را از وارد شدن به سایت منع کنید دستور زیر را بنویسید
این مثال به دو ربات خاص میگوید که وارد یک دایرکتوری خاص نشوند:
[code]User-agent: BadBot # replace ‘BadBot’ with the actual user-agent of the bot User-agent: Googlebot Disallow: /private/[/code]
این هم برای نوشتن یادداشت یا همان کامنت :
[code]# Comments appear after the “#” symbol at the start of a line, or after a directive User-agent: * # match all bots Disallow: / # keep them out [/code]
دستورات اجازه Allow به ربات ها
گاهی می خواهید یک صفحه را نادیده بگیرند ولی محتویات آن را ایندکس کنند ، مثلا تصاویر و نوشته ها ایندکس شود اما فایل نه ، برای این کار این کد را بنویسید و دستور دهید:
[code]Allow: /directory1/myfile.html Disallow: /directory1/[/code]
دستور نقشه سایت
همچنین شما می توانید نقشه سایت را در فایل robots.txt مدیریت کنید :
Sitemap: Sitemap:
بستن فایل image در robots.txt
اگر می خواهید گوگل فایل تصاویر شما را در نتایج جستجو تصاویر نشان ندهد می توانید این را در فایل robots.txt تنظیم کنید.
[code] Disallow: /images[/code]
با کد بالا ما اجازه دسترسی تصاویر را از ربات های گوگل می گیریم.
تنظیمات فایل robots.txt برای سئو سایت
با توجه با قابلیتی که فایل robots.txt دارد ما باید چه فایل ها و دایرکتوری هایی را از دسترس ربات های گوگل حذف نماییم. فولدر و دایرکتوری مدیریت که در آن موارد امنیتی وجود دارد آیتم مناسبی می باشد که باید در فایل robots.txt بسته شود. البته فایل مدیریت در سیستم مدیریت محتوای جوملا و وردپرس متفاوت است. برای مثال برای فایل robots.txt برای جوملا کد زیر را درج کنید.
[code]Disallow: /administrator/[/code]
همچنین برای سیستم مدیریت محتوا وردپرس کد زیر را در فایل robots.txt قرار دهید.
[code]Disallow: /wp-admin/[/code]
فایل های js و css در robots.txt را محدود نکنید
گوگل در اپدیت خود موبایل فرندلی خود را ملاکی در سئو سایت قرار داده است و از این رو نباید فایل های css و js را در فایل robots.txt ببندید زیرا که در این صورت موبایل فرندلی بودن سایت رعایت نمی گردد. بنابراین دقت داشته باشید که فایل js و css را در فایل robots.txt به صورت disallow نباشد.
عدم بستن images در robots.txt
جستجو تصاویر و سرچ تصاویر نیز از دیگر مواردی است که توسط کاربران جستجو می گردد و در واقع می تواند جزو ترافیک ورودی به سمت سایت شما باشد. بنابراین نباید اجازه دسترسی و ذخیره فایل تصاویر را برای ربات های گوگل ببندید. بنابراین اگر کد زیر در فایل robots.txt شما وجود دارد پاک نمایید.
[code]Disallow: /images/[/code]
عدم دسترسی گوگل به صفحه در robots.txt
اگر می خواهید ربات های گوگل صفحات و یا دایرکتوری خاصی را در سایت شما را نداشته باشند و در پایگاه داده خود ایندکس نکنند می توانید در فایل robots.txt این آیتم را درج نمایید.
Disallow: /template/ Disallow:
دستورات متا تگها اما خارج از فایل robots.txt
دسترات بالا همگی در فایل robots.txt اجرا می شوند ، اما دستوراتی وجود دارد که در صفحات نیز اجرا می شوند و با ربات ها ارتباط بر قرار می کنند ، این دستورات متا تگهای رباتها و تگهای X-Robots هستند.
متا تگ noindex چیست؟
متا تگ noindex یک متا تگ است که به موتورهای جستجو میگوید که یک صفحه خاص را در نتایج جستجو نمایش ندهند. این تگ به صورت زیر در کد HTML صفحه قرار میگیرد:
<meta name="robots" content="noindex">
با استفاده از این تگ، رباتهای خزنده موتورهای جستجو همچنان میتوانند صفحه را خزیده و محتوای آن را پردازش کنند، اما این صفحه در نتایج جستجو ظاهر نمیشود.
متا تگ noindex میتواند برای اهداف مختلفی استفاده شود، از جمله:
- جلوگیری از ایندکس شدن صفحاتی که در حال توسعه هستند
- جلوگیری از ایندکس شدن صفحاتی که حاوی محتوای تکراری یا نامناسب هستند
- جلوگیری از ایندکس شدن صفحاتی که به دلیل دلایل فنی نمیتوانند توسط رباتهای خزنده پردازش شوند
- جلوگیری از ایندکس شدن صفحاتی که برای اهداف خاص، مانند تستهای A/B، طراحی شدهاند
قبل از استفاده از متا تگ noindex، مهم است که مطمئن شوید که صفحاتی را که نمیخواهید در نتایج جستجو ظاهر شوند، شناسایی کردهاید. استفاده نادرست از متا تگ noindex میتواند به کاهش رتبهبندی وبسایت شما در موتورهای جستجو منجر شود.
در اینجا چند نکته برای کمک به شما در استفاده از متا تگ noindex آورده شده است:
- از متا تگ noindex فقط برای صفحاتی استفاده کنید که واقعاً نمیخواهید در نتایج جستجو ظاهر شوند.
- اگر مطمئن نیستید که از متا تگ noindex استفاده کنید یا نه، با یک متخصص سئو مشورت کنید.
- از متا تگ noindex به عنوان آخرین راهحل استفاده کنید. اگر میتوانید، صفحاتی را که نمیخواهید در نتایج جستجو ظاهر شوند، از وبسایت خود حذف کنید.
[code]<meta name=”robots” content=”noindex” />[/code]
- فایل robots.txt فقط دستورالعملهایی را برای رباتهای خزنده موتورهای جستجو ارائه میدهد. رباتهای دیگر، مانند رباتهای خزنده شبکههای اجتماعی یا رباتهای خزنده اسپم، ممکن است دستورالعملهای فایل robots.txt را نادیده بگیرند.
- فایل robots.txt فقط برای صفحاتی اعمال میشود که میتوان آنها را از طریق URL دسترسی پیدا کرد. صفحاتی که از طریق فایلهای CSS یا JavaScript دسترسی پیدا میشوند، تحت تأثیر فایل robots.txt قرار نمیگیرند.
- فایل robots.txt تنها راه برای کنترل نحوه خزیدن و ایندکس شدن وبسایت شما توسط موتورهای جستجو نیست. میتوانید از متا تگهای robots یا نقشههای سایت برای کنترل نحوه تعامل موتورهای جستجو با وبسایت خود نیز استفاده کنید.
بهتر است هنگام استفاده از فایل robots.txt احتیاط کنید و یا از یک متخصص کمک بگیرید، در صورت اشتباه ممکن است کل سایت از ایندکس خارج شود و یا با مشکل جدی روبرو شود.