فایل robots.txt: چطور با ربات گوگل حرف بزنیم؟

فایل robots.txt

فایل robots.txt یک فایل متنی است که به موتورهای جستجو می‌گوید کدام صفحات وب را نباید ایندکس کنند. این یک فایل مهم برای هر وب‌سایتی است، زیرا به موتورهای جستجو کمک می‌کند تا وب‌سایت شما را به درستی فهرست کنند.

اصولا پایه و اساس ربات ها هم ربات های فیزیکی و هم ربات های نرم افزاری وابسته به دستور است ، دستور همیشه مشخص می کند چه کاری انجام شود و چه کاری لازم نیست انجام شود.

حال بنا به دلایلی اگر نمی خواهید ربات گوگل مسیر و یا دایرکتوری خاصی را بازبینی کند بهتر است با دستورات فایل robots.txt آشنا شوید.

فایل robots.txt در دایرکتوری ریشه وب‌سایت شما قرار دارد. می‌توانید آن را با استفاده از یک ویرایشگر متن ساده ایجاد یا ویرایش کنید.

فایل robots.txt از دو نوع دستور استفاده می‌کند:

  • دستورات disallow: به موتورهای جستجو می‌گوید که صفحات خاصی را نباید ایندکس کنند.
  • دستورات allow: به موتورهای جستجو می‌گوید که صفحات خاصی را حتماً ایندکس کنند.

برای استفاده از دستور disallow، URL صفحه‌ای را که نمی‌خواهید ایندکس شود، وارد کنید. به عنوان مثال، برای جلوگیری از ایندکس شدن صفحه تماس با ما، دستور زیر را در فایل robots.txt اضافه کنید:

User-agent: *
Disallow: /contact-us

برای استفاده از دستور allow، URL صفحه‌ای را که می‌خواهید حتماً ایندکس شود، وارد کنید. به عنوان مثال، برای اطمینان از ایندکس شدن صفحه اصلی وب‌سایت، دستور زیر را در فایل robots.txt اضافه کنید:

User-agent: *
Allow: /

می‌توانید از دستورات disallow و allow را با هم در یک فایل robots.txt استفاده کنید. به عنوان مثال، دستور زیر از موتورهای جستجو می‌خواهد که صفحات تماس با ما و فهرست محصولات را ایندکس نکنند، اما صفحه اصلی را حتماً ایندکس کنند:

User-agent: *
Disallow: /contact-us
Disallow: /products
Allow: /

فایل robots.txt یک ابزار قدرتمند برای کنترل نحوه خزیدن و ایندکس شدن وب‌سایت شما توسط موتورهای جستجو است. با استفاده صحیح از این فایل، می‌توانید به بهبود عملکرد سئوی وب‌سایت خود کمک کنید.

در اینجا چند نکته برای ایجاد یک فایل robots.txt موثر آورده شده است:

  • از دستورات disallow برای مسدود کردن صفحاتی استفاده کنید که برای کاربران ارزشمند نیستند یا ممکن است باعث مشکلات فنی شوند.
  • از دستورات allow برای اطمینان از ایندکس شدن صفحات مهمی که ممکن است توسط موتورهای جستجو نادیده گرفته شوند، استفاده کنید.
  • فایل robots.txt خود را به طور منظم بررسی کنید تا مطمئن شوید که همچنان نیازهای وب‌سایت شما را برآورده می‌کند.

اگر در ایجاد یا ویرایش فایل robots.txt خود مشکل دارید، می‌توانید از یک ابزار آنلاین ساخت فایل Robots.txt یا کمک از یک متخصص سئو استفاده کنید.

ربات گوگل چیست؟

ربات گوگل یا گوگل بات (Googlebot) یک ربات خزنده است که توسط گوگل برای ایندکس کردن و رتبه بندی وب سایت ها استفاده می شود. ربات گوگل از طریق لینک ها از یک وب سایت به وب سایت دیگر حرکت می کند و محتوای هر صفحه را پردازش می کند. این اطلاعات سپس برای ایجاد یک نمایه از وب استفاده می شود که موتور جستجو برای یافتن و رتبه بندی صفحات وب استفاده می کند.

ربات گوگل به طور مداوم در حال به روز رسانی نمایه خود از وب است، بنابراین مهم است که وب سایت شما برای ربات گوگل بهینه باشد. این بدان معناست که وب سایت شما باید به طور منظم محتوای جدید داشته باشد، از کلمات کلیدی مناسب استفاده کند و برای موتورهای جستجو بهینه سازی شود.

ربات گوگل همچنین می تواند برای اهداف دیگر استفاده شود، مانند جمع آوری داده ها برای تبلیغات گوگل یا نظارت بر عملکرد وب سایت ها.

گوگل از انواع مختلفی از ربات‌های خزنده برای ایندکس کردن و رتبه‌بندی وب‌سایت‌ها استفاده می‌کند. برخی از مهم‌ترین ربات‌های گوگل عبارتند از:

  • Googlebot: این ربات خزنده اصلی گوگل است که برای ایندکس کردن و رتبه‌بندی وب‌سایت‌ها استفاده می‌شود.
  • Googlebot-Mobile: این ربات خزنده برای بررسی نسخه‌های موبایل وب‌سایت‌ها استفاده می‌شود.
  • Googlebot-News: این ربات خزنده برای بررسی وب‌سایت‌های خبری استفاده می‌شود.
  • Googlebot-Video: این ربات خزنده برای بررسی وب‌سایت‌های ویدیویی استفاده می‌شود.
  • Googlebot-Image: این ربات خزنده برای بررسی وب‌سایت‌های تصویری استفاده می‌شود.
  • Googlebot-Ads: این ربات خزنده برای جمع‌آوری داده‌ها برای تبلیغات گوگل استفاده می‌شود.
  • Googlebot-Crawlbot: این ربات خزنده برای بررسی وب‌سایت‌هایی که توسط Googlebot ایندکس نشده‌اند استفاده می‌شود.
  • Googlebot-Test: این ربات خزنده برای آزمایش ویژگی‌های جدید گوگل استفاده می‌شود.

علاوه بر این ربات‌های اصلی، گوگل از انواع دیگری از ربات‌های خزنده نیز استفاده می‌کند که برای اهداف خاص طراحی شده‌اند. به عنوان مثال، گوگل از ربات‌های خزنده برای بررسی وب‌سایت‌های جدید، وب‌سایت‌هایی که در معرض حمله قرار گرفته‌اند و وب‌سایت‌هایی که محتوای اسپم دارند استفاده می‌کند.

در اینجا چند نکته برای بهینه سازی وب سایت خود برای ربات گوگل آورده شده است:

  • وب سایت خود را به طور منظم به روز نگه دارید. ربات گوگل به دنبال وب سایت هایی است که محتوای جدیدی دارند، بنابراین مهم است که وب سایت خود را به طور منظم به روز نگه دارید.
  • از کلمات کلیدی مناسب استفاده کنید. ربات گوگل از کلمات کلیدی برای خزیدن و رتبه بندی وب سایت ها استفاده می کند، بنابراین مهم است که از کلمات کلیدی مناسب در محتوای خود استفاده کنید.
  • وب سایت خود را برای موتورهای جستجو بهینه کنید. این بدان معناست که از عناوین و توضیحات متا مناسب استفاده کنید، از ساختار URL مناسب استفاده کنید و فایل های robots.txt خود را به درستی پیکربندی کنید.

تاریخچه فایل robots.txt

فایل robots.txt توسط آقای Martijn Koster در فوریه سال 1993 برای کنترل ربات هایی مثل ربات خزنده گوگل ساخته شده ، هر چند همه روبات ها از آن پیروی نمی گیرند.

کوستر متوجه شد که ربات‌های خزنده موتورهای جستجو می‌توانند منابع وب را به خطر بیندازند و باعث تأخیر در عملکرد و افزایش هزینه‌ها شوند. او پروتکل robots.txt را به عنوان راهی برای کنترل نحوه تعامل ربات‌های خزنده با وب‌سایت‌ها پیشنهاد کرد.

عملکرد فایل robots.txt به این صورت است که اگر چیزی در آن دستور داده شده باشد ربات از آن پیروی می کند در غیر اینصورت به فرض اینکه صاحب وب سایت هیچ دستورالعمل خاصی را ندارد همه سایت را میخزد.

خوشبختانه موتورهای جستجو زیادی مانند Ask , AOL , Baidu , Bing , Google , Yahoo! و Yandex از دستورات فایل فایل robots.txt پیروی می کنند.

فایل robots.txt

چند نمونه دستور فایل robots.txt

دستور فوق به همهٔ ربات‌ها اجازه می دهد از همهٔ فایل‌ها را ببینند ، علامت * یه معنی همهٔ ربات‌ها می‌باشد در اینجا دستور disallow هیچ مقداری ندارد به این معنی است که هیچ صفحه‌ای disallowed نشده.

[code]User-agent: * Disallow:[/code]

البته یک فایل خالی robot.txt نیز نتیجه مشابه دستور بالا دارد.

اگر نمیخواهید ربات ها وارد سایت شوند از دستور زیر استفاده کنید:

[code]User-agent: * Disallow: /[/code]

حال اگر میخواهید تنها چند مسیر از داخل سایت را محدود کنید دستور زیر را بنویسید:

[code]User-agent: * Disallow: /cgi-bin/ Disallow: /tmp/ Disallow: /junk/[/code]

شما حتی می توانید یک فایل خاص را با دستور زیر محدود کنید:

[code]User-agent: * Disallow: /directory/file.html[/code]

البته فایل های دیگر موجود در این مسیر مشاهده می شوند.

می خواهید ربات خاصی را از تصمیم خود مطلع کنید؟ مثلا میخواهید به او بگو ید وارد سایت نشود:

[code]User-agent: BadBot # replace ‘BadBot’ with the actual user-agent of the bot Disallow: /[/code]

حال اگر میخواهید 2 روبات را از وارد شدن به سایت منع کنید دستور زیر را بنویسید

این مثال به دو ربات خاص می‌گوید که وارد یک دایرکتوری خاص نشوند:

[code]User-agent: BadBot # replace ‘BadBot’ with the actual user-agent of the bot User-agent: Googlebot Disallow: /private/[/code]

این هم برای نوشتن یادداشت یا همان کامنت :

[code]# Comments appear after the “#” symbol at the start of a line, or after a directive User-agent: * # match all bots Disallow: / # keep them out [/code]

دستورات اجازه Allow به ربات ها

گاهی می خواهید یک صفحه را نادیده بگیرند ولی محتویات آن را ایندکس کنند ، مثلا تصاویر و نوشته ها ایندکس شود اما فایل نه ، برای این کار این کد را بنویسید و دستور دهید:

[code]Allow: /directory1/myfile.html Disallow: /directory1/[/code]

دستور نقشه سایت

همچنین شما می توانید نقشه سایت را در فایل robots.txt مدیریت کنید :

Sitemap: Sitemap:

بستن فایل image در robots.txt

اگر می خواهید گوگل فایل تصاویر شما را در نتایج جستجو تصاویر نشان ندهد می توانید این را در فایل robots.txt تنظیم کنید.
[code] Disallow: /images[/code]
با کد بالا ما اجازه دسترسی تصاویر را از ربات های گوگل می گیریم.

تنظیمات فایل robots.txt برای سئو سایت

با توجه با قابلیتی که فایل robots.txt دارد ما باید چه فایل ها و دایرکتوری هایی را از دسترس ربات های گوگل حذف نماییم. فولدر و دایرکتوری مدیریت که در آن موارد امنیتی وجود دارد آیتم مناسبی می باشد که باید در فایل robots.txt بسته شود. البته فایل مدیریت در سیستم مدیریت محتوای جوملا و وردپرس متفاوت است. برای مثال برای فایل robots.txt برای جوملا کد زیر را درج کنید.

[code]Disallow: /administrator/[/code]

همچنین برای سیستم مدیریت محتوا وردپرس کد زیر را در فایل robots.txt قرار دهید.

[code]Disallow: /wp-admin/[/code]

فایل های js و css در robots.txt را محدود نکنید

googlebot blocked

گوگل در اپدیت خود موبایل فرندلی خود را ملاکی در سئو سایت قرار داده است و از این رو نباید فایل های css و js را در فایل robots.txt ببندید زیرا که در این صورت موبایل فرندلی بودن سایت رعایت نمی گردد. بنابراین دقت داشته باشید که فایل js و css را در فایل robots.txt به صورت disallow نباشد.

عدم بستن images در robots.txt

googlebot access overview

جستجو تصاویر و سرچ تصاویر نیز از دیگر مواردی است که توسط کاربران جستجو می گردد و در واقع می تواند جزو ترافیک ورودی به سمت سایت شما باشد. بنابراین نباید اجازه دسترسی و ذخیره فایل تصاویر را برای ربات های گوگل ببندید. بنابراین اگر کد زیر در فایل robots.txt شما وجود دارد پاک نمایید.

[code]Disallow: /images/[/code]

عدم دسترسی گوگل به صفحه در robots.txt

اگر می خواهید ربات های گوگل صفحات و یا دایرکتوری خاصی را در سایت شما را نداشته باشند و در پایگاه داده خود ایندکس نکنند می توانید در فایل robots.txt این آیتم را درج نمایید.

Disallow: /template/ Disallow:

دستورات متا تگ‌ها اما خارج از فایل robots.txt

دسترات بالا همگی در فایل robots.txt اجرا می شوند ، اما دستوراتی وجود دارد که در صفحات نیز اجرا می شوند و با ربات ها ارتباط بر قرار می کنند ، این دستورات متا تگ‌های ربات‌ها و تگ‌های X-Robots هستند.

متا تگ noindex چیست؟

متا تگ noindex یک متا تگ است که به موتورهای جستجو می‌گوید که یک صفحه خاص را در نتایج جستجو نمایش ندهند. این تگ به صورت زیر در کد HTML صفحه قرار می‌گیرد:

<meta name="robots" content="noindex">

با استفاده از این تگ، ربات‌های خزنده موتورهای جستجو همچنان می‌توانند صفحه را خزیده و محتوای آن را پردازش کنند، اما این صفحه در نتایج جستجو ظاهر نمی‌شود.

متا تگ noindex می‌تواند برای اهداف مختلفی استفاده شود، از جمله:

  • جلوگیری از ایندکس شدن صفحاتی که در حال توسعه هستند
  • جلوگیری از ایندکس شدن صفحاتی که حاوی محتوای تکراری یا نامناسب هستند
  • جلوگیری از ایندکس شدن صفحاتی که به دلیل دلایل فنی نمی‌توانند توسط ربات‌های خزنده پردازش شوند
  • جلوگیری از ایندکس شدن صفحاتی که برای اهداف خاص، مانند تست‌های A/B، طراحی شده‌اند

قبل از استفاده از متا تگ noindex، مهم است که مطمئن شوید که صفحاتی را که نمی‌خواهید در نتایج جستجو ظاهر شوند، شناسایی کرده‌اید. استفاده نادرست از متا تگ noindex می‌تواند به کاهش رتبه‌بندی وب‌سایت شما در موتورهای جستجو منجر شود.

در اینجا چند نکته برای کمک به شما در استفاده از متا تگ noindex آورده شده است:

  • از متا تگ noindex فقط برای صفحاتی استفاده کنید که واقعاً نمی‌خواهید در نتایج جستجو ظاهر شوند.
  • اگر مطمئن نیستید که از متا تگ noindex استفاده کنید یا نه، با یک متخصص سئو مشورت کنید.
  • از متا تگ noindex به عنوان آخرین راه‌حل استفاده کنید. اگر می‌توانید، صفحاتی را که نمی‌خواهید در نتایج جستجو ظاهر شوند، از وب‌سایت خود حذف کنید.

[code]<meta name=”robots” content=”noindex” />[/code]

  • فایل robots.txt فقط دستورالعمل‌هایی را برای ربات‌های خزنده موتورهای جستجو ارائه می‌دهد. ربات‌های دیگر، مانند ربات‌های خزنده شبکه‌های اجتماعی یا ربات‌های خزنده اسپم، ممکن است دستورالعمل‌های فایل robots.txt را نادیده بگیرند.
  • فایل robots.txt فقط برای صفحاتی اعمال می‌شود که می‌توان آنها را از طریق URL دسترسی پیدا کرد. صفحاتی که از طریق فایل‌های CSS یا JavaScript دسترسی پیدا می‌شوند، تحت تأثیر فایل robots.txt قرار نمی‌گیرند.
  • فایل robots.txt تنها راه برای کنترل نحوه خزیدن و ایندکس شدن وب‌سایت شما توسط موتورهای جستجو نیست. می‌توانید از متا تگ‌های robots یا نقشه‌های سایت برای کنترل نحوه تعامل موتورهای جستجو با وب‌سایت خود نیز استفاده کنید.
فایل robots.txt: چطور با ربات گوگل حرف بزنیم؟

بهتر است هنگام استفاده از فایل robots.txt احتیاط کنید و یا از یک متخصص کمک بگیرید، در صورت اشتباه ممکن است کل سایت از ایندکس خارج شود و یا با مشکل جدی روبرو شود.

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *