آموزش فایل robots.txt و چیست؟

فایل robots.txt چیست؟ آموزش ساخت آن

فایل robots.txt یک راه برای ایجاد سد در مقابل ربات موتور جستجو می تواند باشد به زبان ساده تر در این فایل مشخص می کنید که ربات به کدام نوع یا بخش از url های سایت شما می تواند دسترسی داشته باشد. دقت داشته باشید با این مکانیسم می توانید تعداد درخواست را سمت سرور یا هاست سایت خودتون کمتر کنید و یک عمل درست برای نوایندکس کردن نخواهد بود گوگل دقیقا اشاره کرده که برای نوایندکس کردن در بخش head از متای robots برای نوایندکس کردن استفاده کنید و یا سطح دسترسی (دسترسی با پسورد) (auth acl) برای رسیدن به صفحه مورد نظر قرار بدید

فایل robots.txt چه نقشی در سئو‌ دارد؟

در فایل robots.txt دستورالعمل هایی تعیین می کنید که کدام بخش از دامنه توسط ربات ها خزیده شود یا نه.

نقش اصلی آن بهینه سازی نرخ خزش است و اینکه به ربات ها بگویید کجا را کراول کنند و کجا‌ را کراول نکنند تا فرصت کراول برای صفحات مهم تر ایجاد شود.

ربات ها پیش از اینکه سایت را بررسی کنند از فایل ربات اولویت های خزش را در نظر می گیرند.(اما اجبار صد در صدی نیست)

 فایل ربات این پتانسیل را دارد که بخش‌هایی از وب‌سایت را برای موتورهای جستجو از دسترس خارج کند.

فایل robots.txt حساس ترین فایل در دنیای سئو نیست. اما یک دستور اشتباه می تواند وضعیت کراول سایت را با خطر مواجه کند.

توجه داشته باشید فایل ربات در روت سایت باید با حروف کوچک انگلیسی نوشته شود و همینطور محتوای ربات به حروف بزرگ و کوچک حساس است.

زمان مطالعه: 3 دقیقه
بازدید: 4112
پرسش و پاسخ: 10

فایل robots.txt چیست؟

از فایل robots.txt برای مدیریت ترافیک مصرفی توسط ربات ها استفاده می شود بسته به نوع فایل شما می توانید از جدول زیر راهنمایی اولیه را دریافت کنید:

کاربرد robots.txt نسبت به نوع صفحه یا فایل شما
صفحه وب (وب سایت)

برای جلوگیری از کراول صفحات بی اهمیت در سایت یا برخی از موارد مثل یک فایل pdf که ارزشی نداشته باشد می توانید از robots.txt استفاده کنید و دستورات لازم را بنویسید تا گوگل فایل مربوطه را خزش یا کراول نکند این کار کمک می کند ترافیک سایت را مدیریت کنید.

هشدار: شما نمی توانید برای حذف url از نتایج جستجوی گوگل از robots.txt استفاده کنید

اگر url ای از سایت را با این روش مسدود کرده باشید باز هم در نتایج جستجو خواهد بود این روش برای فایل‌های ویدیویی، فایل‌های PDF و سایر فایل‌های غیر HTML قابل قبول برای گوگل است.

فایل های چندرسانه ای

از فایل robots.txt برای مدیریت درست کراول ربات موتور جستجو استفاده کنید مثلا برای جلوگیری از نمایش فایل های تصویری، ویدیویی و صوتی در نتایج جستجوی گوگل استفاده کنید

فایل منبع اگر برای نشان دادن یک فایل نیاز به منبعی نیست می توانید آن را از دسترس گوگل با روشی که گفته شد خارج کنید در غیر اینصورت اجازه دهید عملیات خزش انجام شود

فایل robots.txt چه محدودیت هایی دارد؟

باید بدانید در استفاده از robots.txt محدودیت هایی دارید که باید دقیق آشنا بشید با این محدودیت ها تا دچار اشتباه نشوید این 3 گزینه را دقیق به یاد داشته باشید:

  • دستورات robots.txt ممکن است توسط همه موتورهای جستجو پشتیبانی نشود. دستورالعمل‌های موجود در فایل‌های robot.txt نمی‌توانند رفتار خزنده را در سایت شما اعمال کنند. این به خزنده بستگی دارد که از آنها اطاعت کند. در حالی که Googlebot و سایر خزنده‌های وب معتبر از دستورالعمل‌های این فایل پیروی می‌کنند، خزنده‌های دیگر ممکن است این کار را نکنند. بنابراین، اگر می‌خواهید اطلاعات را از خزنده‌های مخفی نگه دارید، بهتر است از روش‌های مسدودسازی دیگر مانند محافظت از فایل‌های خصوصی با رمز عبور روی سرور خود استفاده کنید.
  • هر خزنده ای ممکن است سینتکس کد شما را متفاوت تفسیر کند اگرچه خزنده‌های وب معتبر دستورالعمل‌های موجود در فایل robots.txt را قبول می‌کنند، اما هر خزنده ممکن است دستورالعمل‌ها را متفاوت تفسیر کند. شما باید سینتکس مناسب برای آدرس دادن به خزنده های وب مختلف را بدانید زیرا ممکن است برخی دستورالعمل های خاصی را درک نکنند.
  • url ای که در robots.txt نوایندکس شده است، در صورت لینک به سایت‌ یا urlهای دیگر، همچنان می‌تواند ایندکس شود. در حالی که Google محتوای مسدود شده توسط یک فایل robots.txt را نمی‌خزد یا فهرست‌بندی نمی‌کند، اما اگر از مکان‌های دیگر در وب لینک داده شده باشد، ممکن است URL غیرمجاز را پیدا کرده و فهرست‌بندی کند. در نتیجه، آدرس URL و احتمالاً سایر اطلاعات عمومی در دسترس مانند متن انکرتکست در پیوندهای صفحه همچنان می توانند در نتایج جستجوی Google ظاهر شوند. برای جلوگیری از نمایش صحیح URL خود در نتایج جستجوی Google، از فایل های سرور خود با رمز عبور محافظت کنید ، باز هم تاکید میکنیم از متای noindex برای حذف کامل استفاده کنید.

آموزش ساخت فایل robots.txt

برای ساخت فایل robots.txt و دسترسی موتورهای جستجو این فایل باید در ریشه اصلی سایت قرار بگیرد یعنی نقطه شروع سایت شما از پوشه ای در هاست یا سرور فعلیتون مثلا سایت jobteam.ir آدرس سایت فعلی ما است که از طریق آدرس jobteam.ir/robots.txt قابل دسترسی خواهد بود. دقت کنید این فقط یک فایل ساده با پسوند txt است.

همه مسیرها در حالت عادی برای ربات ها قابل دسترسی هستند مگر اینکه شما با دستوراتی ساده قوانینی برای دسترسی ایجاد کنید در مثال ذیل فایل robots.txt با دو قانون ساده را مشاهده می کنید:

User-agent: Googlebot
Disallow: /nogooglebot/

User-agent: *
Allow: /

Sitemap: https://jobteam.ir/sitemap.xml

در کد بالا Googlebot (خط 1 و 2) مجاز به خزیدن در url ای که با nogooglebot شروع می شود نخواهد بود در دستور دوم (خط 3 و 4) سایر ربات ها قادر به خزیدن در هر نوع url ای هستند که اگر نوشته نمی شد هم همین تاثیر را داشت خط آخر نیز فایل نقشه سایت را به خزنده ها معرفی می کند.

مراحل ساخت و تست فایل robots.txt

  1. فایلی به نام robots.txt ایجاد کنید (دقت کنید دقیقا نام باید robots باشد با پسوند فایل txt)
  2. قوانین مدنظر خود را به فایل اضافه کنید
  3. این فایل را در مسیر اصلی سایت خود اضافه کنید
  4. در آخر فایل را تست کنید تا از درستی قوانین خود مطلع شوید

در cms هایی مثل وردپرس و wix این فایل را خود cms میسازد و از طریق خود cms به راحتی قابلیت تغییرات هست اما باز هم می توانید به صورت دستی تغییرات را از طریق هاست به این فایل اعمال کنید.

ساخت فایل robots.txt با پسوند txt

برای ساخت فایل robots.txt می توانید از ویرایشگر های مختلفی استفاده کنید مثل vi،notepad و ... که برای موتورهای جستجو نیز معتبر خواهد بود به هیچ عنوان از برنامه هایی مثل word و دیگر واژه پردازها استفاده نکنید چون این برنامه ها نحوه کدگزاری متفاوتی دارند و در برخی موارد کاراکترهای به فایل اضافه می کنند که ربات ها را دچار مشکل خواهد کرد

حتما دقت کنید که فایل را با کدگزاری UTF-8 ایجاد کنید.

قوانین فایل robots.txt

  • نام فایل باید robots.txt باشد.
  • فقط یک فایل به این اسم می توانید داشته باشید
  • باید در مسیر اصلی سایت قرار داشته باشد
  • پورت و ساب دامنه ها می توانند برای خود فایل robots.txt داشته باشند
  • فایل شما فقط بر روی پورت فعلی یا ساب دامینی که اعمال کردید قوانین را اعمال خواهد کرد و برای ساب دامین ها و پورت های دیگر بی اثر خواهد بود
  • فایل robots.txt باید یک فایل متنی کدگذاری شده UTF-8 باشد (که شامل ASCII است). Google ممکن است نویسه‌هایی را که بخشی از محدوده UTF-8 نیستند نادیده بگیرد، و احتمالاً قوانین robot.txt را نامعتبر می‌کند.

فرمت فایل robots.txt

فایل robots.txt باید یک فایل متنی ساده با کدگذاری UTF-8 باشد و خطوط باید با CR یا CR/LF یا LF از هم جدا شوند.

Google خطوط نامعتبر را در فایل‌های robots.txt، از جمله علامت ترتیب بایت یونیکد (BOM) در ابتدای این فایل نادیده می‌گیرد و فقط از خطوط معتبر استفاده می‌کند. به عنوان مثال، اگر محتوای دانلود شده به جای قوانین robots.txt HTML باشد، گوگل سعی می کند محتوا را تجزیه کند و قوانین را استخراج کند و هر چیز دیگری را نادیده بگیرد.

به طور مشابه، اگر رمزگذاری نویسه فایل robots.txt UTF-8 نباشد، Google ممکن است نویسه‌هایی را که بخشی از محدوده UTF-8 نیستند نادیده بگیرد و قوانین این فایل را نامعتبر کند.

Google در حال حاضر محدودیت اندازه فایل robots.txt را 500 کیلوبایت (KiB) اعمال می کند. محتوایی که پس از حداکثر اندازه فایل است نادیده گرفته می شود. می‌توانید با ادغام دستورالعمل‌هایی که منجر به ایجاد یک فایل بزرگ‌تر می‌شود، اندازه فایل را کاهش دهید. به عنوان مثال، مطالب حذف شده را در یک فهرست جداگانه قرار دهید.

سینتکس و قوانین دستورات robots.txt برای ربات گوگل

فایل robots.txt یکسری قوانین در نوشتن دستورات دارد این دستورات برای ربات های موتورهای جستجو قابل هضم و اجراست خطوط معتبر robot.txt از یک فیلد، یک کولون و یک مقدار تشکیل شده است. فضاهای خالی اختیاری هستند، اما برای بهبود خوانایی توصیه می شود. فاصله در ابتدا و انتهای خط نادیده گرفته شود 

ساخت فایل robots.txt و سینتکس و قوانین دستورات آن برای ربات گوگل

گوگل از فیلدهای زیر پشتیبانی می کند:

  • user-agent: مشخص می کند که قوانین روی کدام خزنده اعمال می شود.
  • allow: یک مسیر URL که ممکن است خزیده شود.
  • disallow: یک مسیر URL که ممکن است خزیده نشود.
  • sitemap: URL کامل نقشه سایت.

دستورالعمل های ذیل را برای این مورد در نظر بگیرید:

  • یک فایل robots.txt از یک یا چند مجموعه دستور تشکیل شده است.
  • هر مجموعه دستور از چندین قانون یا دستورالعمل (دستورالعمل) تشکیل شده است، یک دستورالعمل در هر خط. هر مجموعه دستور با یک User-agent خط شروع می شود که هدف مجموعه دستور ها را مشخص می کند.
  • یک مجموعه دستور اطلاعات زیر را می دهد:
    • مجموعه دستور برای چه کسانی اعمال می شود (user-agent).
    • کدام دایرکتوری ها یا فایل هایی که user-agent می تواند به آن دسترسی داشته باشد.
    • کدام دایرکتوری ها یا فایل هایی که user-agent نمی تواند به آن دسترسی داشته باشد.
  • خزنده ها مجموعه دستور ها را از بالا به پایین پردازش می کنند. یک user-agent می تواند تنها با یک مجموعه قوانین مطابقت داشته باشد، که اولین و خاص ترین مجموعه دستوری است که با یک user-agent مشخص مطابقت دارد.
  • فرض پیش‌فرض این است که یک user-agent می‌تواند هر صفحه یا فهرستی را که توسط یک disallow قانون مسدود نشده است بخزد.
  • قواعد دستوری به حروف کوچک و بزرگ حساس هستند. به عنوان مثال، disallow: /file.asp در مورد اعمال می شود https://jobteam.ir/file.asp، اما نه https://jobteam.ir/FILE.asp.
  • با علامت # می توانید کامنت بنویسید در واقع شروع کامنت رو نشون میده و هیچ تاثیری برای ربات ها نخواهد داشت

دستوراتی که ربات گوگل در فایل robots.txt پشتیبانی می کند:

user-agent : [الزامی، یک یا چند مورد در هر مجموعه دستور] این دستورالعمل نام انجین خودکار شناخته شده به عنوان خزنده موتور جستجو را مشخص می کند که این قانون برای آن اعمال می شود. این اولین خط برای هر مجموعه دستور است. استفاده از یک ستاره (*) با همه خزنده ها به جز خزنده های مختلف AdsBot که باید به صراحت نامگذاری شوند مطابقت دارد. مثلا:

# Example 1: Block only Googlebot
User-agent: Googlebot
Disallow: /

# Example 2: Block Googlebot and Adsbot
User-agent: Googlebot
User-agent: AdsBot-Google
Disallow: /

# Example 3: Block all crawlers except AdsBot (AdsBot crawlers must be named explicitly)
User-agent: *
Disallow: /
  • disallow : [حداقل یک یا چند disallow یا چند allow ورودی در هر مجموعه دستور] دایرکتوری یا صفحه ای، نسبت به دامنه ریشه، که نمی خواهید انجین کاربر آن را بخزد. اگر سینتکس یا کد شما به یک صفحه اشاره دارد، باید نام کامل صفحه همانطور که در مرورگر نشان داده شده است باشد. باید با یک کاراکتر بک اسلش (/) شروع شود و اگر به دایرکتوری اشاره دارد باید با بک اسلش (/) علامت پایان یابد.
  • allow : [حداقل یک یا چند disallow یا چند allow ورودی در هر مجموعه دستور] دایرکتوری یا صفحه، نسبت به دامنه ریشه، که ممکن است توسط انجین کاربری که ذکر شد، خزیده شود. این برای نادیده گرفتن یک disallowدستورالعمل استفاده می شود تا اجازه خزیدن یک زیر شاخه یا صفحه در یک فهرست غیر مجاز را بدهد. برای یک صفحه، نام کامل صفحه را همانطور که در مرورگر نشان داده شده است، مشخص کنید. در مورد دایرکتوری، دستور را با /علامت پایان دهید.
  • sitemap : [اختیاری، صفر یا بیشتر در هر فایل] آدرس نقشه سایت برای این وب سایت. URL نقشه سایت باید یک URL کاملا واجد شرایط باشد. Google موارد جایگزین http/https/www.non-www را فرض نمی‌کند یا بررسی نمی‌کند. نقشه سایت راه خوبی برای نشان دادن محتوایی است که گوگل باید بخزد، بر خلاف محتوایی که می تواند یا نمی تواند بخزد. مثال:
Sitemap: https://jobteam.ir/sitemap.xml
Sitemap: http://www.jobteam.ir/sitemap.xml

همه دستورات، به جز sitemap، از علامت (*) برای پیشوند مسیر، پسوند یا کل رشته پشتیبانی می کنند.

خطوطی که با هیچ یک از این دستورالعمل ها مطابقت ندارند نادیده گرفته می شوند. مثل همان بحث کامنت نویسی در برنامه نویسی.

گروه بندی قوانین robots.txt

اگر چندین گروه در یک فایل robots.txt وجود داشته باشد که مربوط به یک انجین کاربر خاص باشد، خزنده‌های Google به صورت داخلی گروه‌ها را ادغام می‌کنند. مثلا:

user-agent: googlebot-news
disallow: /fish

user-agent: *
disallow: /carrots

user-agent: googlebot-news
disallow: /shrimp

خزنده ها به طور داخلی قوانین را بر اساس عامل کاربر گروه بندی می کنند، به عنوان مثال:

user-agent: googlebot-news
disallow: /fish
disallow: /shrimp

user-agent: *
disallow: /carrots

قوانینی غیر از allow, disallow و user-agent توسط تجزیه کننده robots.txt نادیده گرفته می شوند. این بدان معنی است که کد ذیل زیر به عنوان یک گروه در نظر گرفته می شود و بنابراین هر دو user-agent نوع a و b تحت تأثیر دستور disallow: / قرار می گیرند:

user-agent: a
sitemap: https://example.com/sitemap.xml

user-agent: b
disallow: /

هنگامی که خزنده ها قوانین robots.txt را پردازش می کنند، خط sitemap را نادیده می گیرند. برای مثال، خزنده‌ها قطعه کد قبلی را به این ترتیب درک می‌کنند:

user-agent: a
user-agent: b
disallow: /

آنالیز فایل robots تست درستی آن با ابزار گوگل

برای آزمایش و آنالیز این فایل اول چک کنید که آیا به صورت عمومی می توان به این فایل دسترسی داشت یا نه برای همین بعد از آپلود این فایل در هاست (مسیر اصلی پروژه) مثل این آدرس در جاب تیم می توانید به این فایل دسترسی داشته باشید https://jobteam.ir/robots.txt دقت کنید برای سایت خودتون بجای jobteam.ir از اسم دامنه فعلیتون استفاده کنید. اگر بعد از وارد کردن آدرس گفته شده دسترسی دیده شدن را داشتید می توانید این فایل را از طریق ابزار گوگل بررسی کنید

گوگل دو راه برای آزمایش کدنویسی درست این فایل به شما پیشنهاد کرده است:

  1. آزمایشگر robots.txt در کنسول جستجو. شما فقط می توانید از این ابزار برای فایل های robots.txt استفاده کنید که از قبل در سایت شما قابل دسترسی هستند. https://support.google.com/webmasters/answer/6062598
  2. اگر برنامه نویس هستید، کتابخانه منبع باز robots.txt Google را بررسی کرده و بسازید، که در جستجوی Google نیز استفاده می‌شود. می توانید از این ابزار برای آزمایش فایل هایی از این جنس به صورت محلی در رایانه خود استفاده کنید. github.com/google/robotstxt

بعد از بارگذاری این فایل در هاست خود نیازی به هیچ فعالیت دیگری برای معرفی به گوگل ندارید خود این موتور جستجو در همین مسیر استاندارد آپدیت های شما را نیز دریافت خواهد کرد.

گروه بندی خطوط و قوانین در robots.txt

می توانید قوانینی را که برای چندین انجین اعمال می شود با تکرار user-agent خطوط برای هر خزنده، گروه بندی کنید. مثلا:

user-agent: a
disallow: /c

user-agent: b
disallow: /d

user-agent: e
user-agent: f
disallow: /g

user-agent: h

در این مثال چهار گروه قانون متمایز وجود دارد:

  • یک گروه برای انجین کاربر "a".
  • یک گروه برای انجین کاربر "b".
  • یک گروه برای عوامل کاربر "e" و "f".
  • یک گروه برای انجینکاربر "h".

ترتیب تقدم برای انجین های کاربران در فایل robots.txt

فقط یک گروه برای یک خزنده خاص معتبر است. خزنده‌های Google با یافتن گروهی با خاص‌ترین انجین کاربر که با انجین کاربر خزنده مطابقت دارد، در فایل robots.txt گروه درستی از قوانین را تعیین می‌کنند. گروه های دیگر نادیده گرفته می شوند. همه متن‌های غیر منطبق نادیده گرفته می‌شوند (به عنوان مثال، هر دو googlebot/1.2 و *googlebot معادل هستند با googlebot). ترتیب گروه ها در این فایل بی ربط است.

اگر بیش از یک گروه خاص برای یک انجین کاربر اعلام شده باشد، همه قوانین از گروه های قابل اعمال برای انجین کاربر خاص به صورت داخلی در یک گروه واحد ترکیب می شوند. گروه های خاص انجین کاربر و گروه های عمومی (*) با هم ترکیب نمی شوند. مثال ها:

تطبیق فیلدهای user-agent در فایل robots.txt

user-agent: googlebot-news
(group 1)

user-agent: *
(group 2)

user-agent: googlebot
(group 3)

به این ترتیب خزنده ها گروه مربوطه را انتخاب می کنند:

گروه دنبال شده در هر خزنده
اخبار Googlebot googlebot-news از گروه 1 پیروی می کند، زیرا گروه 1 خاص ترین گروه است.
Googlebot (وب) googlebot گروه 3 را دنبال می کند.
Googlebot Storebot Storebot-Google از گروه 2 پیروی می کند، زیرا گروه خاصی وجود ندارد.
Googlebot News (هنگام خزیدن تصاویر) هنگام خزیدن تصاویر، googlebot-news گروه 1 googlebot-news را دنبال می کند. تصاویر را برای Google Images نمی خزند، بنابراین فقط گروه 1 را دنبال می کند.
ربات دیگر (وب) سایر خزنده های گوگل گروه 2 را دنبال می کنند.
ربات دیگر (اخبار) سایر خزنده‌های Google که محتوای خبری را می‌خزند، اما به‌عنوان گروه 2 دنبال‌کننده شناسایی نمی‌شوند googlebot-news. حتی اگر ورودی برای یک خزنده مرتبط وجود داشته باشد، فقط در صورتی معتبر است که به‌طور خاص مطابقت داشته باشد.

قوانین دستوری برای فایل robots.txt

قوانین مفید و کلی در مورد نحوه نوشتن کد در این فایل
خریدن کامل سایت را برای ربات ها ممنوع کنیم
User-agent: *
Disallow: /

در این کد User-agent برابر با علامت ستاره قرار گرفته که یعنی تمام پلتفرم های مختلف و دستور Disallow برابر اسلش قرار گرفته که یعنی ریشه و تمام مسیرهای دیگر دیگر قابل کراول یا خریدن نباشند

به یاد داشته باشید این کار برای نوایندکس کردن صفحات در گوگل اثری نخواهد داشت

خزیدن پوشه (دایرکتوری) و محتویات آن را ممنوع کنید

یک اسلش رو به جلو به نام پوشه اضافه کنید تا خزیدن کل پوشه و محتویان آن ممنوع شود.

User-agent: *
Disallow: /calendar/
Disallow: /junk/
Disallow: /books/fiction/contemporary/

در این کد User-agent برابر با علامت ستاره قرار گرفته که یعنی تمام پلتفرم های مختلف و دستور disallow اول تمام فایل های و خود پوشه 

/calendar/ و مسیرهای بعد از این پوشه رو برای ربات ممنوع می کند /junk/ هم مثل مثال قبل عمل میکند

اما در دستور سوم مسیر بعد از contemporary ممنوع خواهد بود

اجازه دسترسی به یک خزنده را بدهید

فقط googlebot-news ممکن است کل سایت را بخزد.

User-agent: Googlebot-news
Allow: /

User-agent: *
Disallow: /
اجازه دسترسی به همه خرنده ها به جز یک خزنده خاص را صادر کنید

Unnecessarybot ممکن است در سایت خزیده نشوند، همه ربات های دیگر ممکن است.

User-agent: Unnecessarybot
Disallow: /

User-agent: *
Allow: /
خزیدن یک آدرس از سایت را ممنوع کنید

به عنوان مثال، صفحه jquery.html واقع در مسیر https://jobteam.ir/jquery.html و jquery-new.html در پوشه jquery را مجاز نکنید.

User-agent: *
Disallow: /jquery.html
Disallow: /jquery/jquery-new.html
ممنوع کردن خزیدن کل سایت بجز مسیر public

در مثال ذیل خزنده ها فقط می توانند مسیر public شما را کراول کنند

User-agent: *
Disallow: /
Allow: /public/
یک تصویر خاص را از ربات Google Images مسدود کنید

به عنوان مثال، جلوی کراول یک تصویر به اسم logo.png را در جاب تیم برای ربات Google Images مسدود می کنیم دقت کنید این فایل در مسیر https://jobteam.ir/img/logo.png قرار دارد پس برای مسدود سازی از کد ذیل استفاده می کنیم

User-agent: Googlebot-Image
Disallow: /img/logo.png
مسدود سازی تمام تصاویر برای ربات Google Images

گوگل نمی تواند تصاویر و ویدیوها را بدون خزیدن در آنها فهرست کند.

​
User-agent: Googlebot-Image
Disallow: /

​
یک پسوند خاص را برای ممنوع کردن خزیدن مشخص کنید

به عنوان مثال، خزیدن همه فایل های gif را ممنوع کنید.

User-agent: Googlebot
Disallow: /*.gif$
خزیدن کل سایت را ممنوع کنید، اما اجازه دهید ربات Mediapartners-Google صفحات شما را بخزد

این پیاده سازی صفحات شما را از نتایج جستجو پنهان می کند، اما خزنده وب Mediapartners-Google همچنان می تواند آنها را تجزیه و تحلیل کند تا تصمیم بگیرد چه تبلیغاتی را به بازدیدکنندگان سایت شما نشان دهد.

User-agent: *
Disallow: /

User-agent: Mediapartners-Google
Allow: /
برای مطابقت با URL هایی که به یک پسوند خاص ختم می شوند، از علامت *و $ استفاده کنید

به عنوان مثال، همه فایل ها xls را غیر مجاز کنید.

User-agent: Googlebot
Disallow: /*.xls$

مطابقت URL بر اساس مقادیر مسیر در robots.txt

Google از مقدار مسیر در دستورالعمل‌ها allow و disallow به‌عنوان مبنایی برای تعیین اینکه آیا یک قانون برای یک URL خاص در یک سایت اعمال می‌شود یا خیر، استفاده می‌کند. این کار با مقایسه قاعده با مؤلفه مسیر URL که خزنده سعی در واکشی آن را دارد کار می کند.

گوگل، بینگ و سایر موتورهای جستجوی اصلی از شکل محدودی از حروف عام برای مقادیر مسیر پشتیبانی می کنند. این کاراکترهای wildcard عبارتند از:

  • * 0 یا بیشتر از هر کاراکتر معتبر را مشخص می کند.
  • $ انتهای URL را مشخص می کند.
منطبقات مسیرهای وارد در سایت برای درک بیشتر این موضوع برای شما
/ با ریشه و هر URL سطح پایین‌تر مطابقت دارد.
/* معادل علامت بک اسلش
/$ فقط با ریشه مطابقت دارد. هر URL سطح پایین تر برای خزیدن مجاز است
/fish

با هر مسیری که با /fish شروع می شود مطابقت دارد. توجه داشته باشید که تطبیق به حروف کوچک و بزرگ حساس است.

مطابقات:

  • /fish
  • /fish.html
  • /fish/salmon.html
  • /fishheads
  • /fishheads/yummy.html
  • /fish.php?id=anything

مطابقت ندارد:

  • /Fish.asp
  • /catfish
  • /?id=fish
  • /desert/fish
/fish*

معادل /fish. علامت ستاره آخر نادیده گرفته می شود.

مطابقات:

  • /fish
  • /fish.html
  • /fish/salmon.html
  • /fishheads
  • /fishheads/yummy.html
  • /fish.php?id=anything

مطابقت ندارد:

  • /Fish.asp
  • /catfish
  • /?id=fish
  • /desert/fish
/fish/

با هر چیزی در پوشه /fish/ مطابقت دارد.

مطابقات:

  • /fish/
  • /fish/?id=anything
  • /fish/salmon.htm

مطابقت ندارد:

  • /fish
  • /fish.html
  • /animals/fish/
  • /Fish/Salmon.asp
/*.php

با هر مسیری که حاوی .php 

مطابقات:

  • /index.php
  • /filename.php
  • /folder/filename.php
  • /folder/filename.php?parameters
  • /folder/any.php.file.html
  • /filename.php/

مطابقت ندارد:

  • /(حتی اگر به /index.php نگاشت شود)
  • /windows.PHP
/*.php$

با هر مسیری که به .php ختم می شود مطابقت دارد.

مطابقات:

  • /filename.php
  • /folder/filename.php

مطابقت ندارد:

  • /filename.php?parameters
  • /filename.php/
  • /filename.php5
  • /windows.PHP
/fish*.php

با هر مسیری که حاوی /fishو .php، به ترتیب، مطابقت دارد.

مطابقات:

  • /fish.php
  • /fishheads/catfish.php?parameters

مطابقت ندارد: /Fish.PHP

ترتیب تقدم برای قوانین فایل robots.txt

هنگام تطبیق قوانین robots.txt با URL ها، خزنده ها از خاص ترین قانون بر اساس طول مسیر قانون استفاده می کنند. در صورت وجود قوانین متناقض، از جمله مواردی که دارای حروف عام (*) هستند، Google از حداقل قانون محدودکننده استفاده می کند.

مثال‌های زیر نشان می‌دهند که خزنده‌های Google کدام قانون را روی یک URL خاص اعمال می‌کنند.

نمونه مثال های ترتیب تقدم قوانین در فایل robots.txt
http://example.com/page
allow: /p
disallow: /

دستور قابل اجرا : allow: /p چون خاص تر است.

http://example.com/folder/page
allow: /folder
disallow: /folder

دستور قابل اجرا : allow: /folder زیرا در صورت تضاد قوانین، گوگل از حداقل قانون محدودکننده استفاده می کند.

http://example.com/page.htm
allow: /page
disallow: /*.htm

دستور قابل اجرا : disallow: /*.htm، زیرا مسیر قانون طولانی‌تر است و با کاراکترهای بیشتری در URL مطابقت دارد، بنابراین مشخص‌تر است.

http://example.com/page.php5
allow: /page
disallow: /*.ph

دستور قابل اجرا : allow: /page زیرا در صورت تضاد قوانین، گوگل از حداقل قانون محدودکننده استفاده می کند.

http://example.com/
allow: /$
disallow: /

دستور قابل اجرا : allow: /$ چون خاص تر است.

http://example.com/page.htm
allow: /$
disallow: /

دستور قابل اجرا : disallow: /، زیرا دستور allow فقط در URL ریشه اعمال می شود.

نحوه دانلود robots.txt

به روش های مختلفی می توانید این فایل را دانلود کنید:

  • وارد مسیر فعلی این فایل شوید در سایت جاب تیم این آدرس https://jobteam.ir/robots.txt میشه بعد میتونید با کلید های ctrl + s را بزنید این فایل توسط مرورگر با پسوند txt قابل ذخیره هستش
  • با استفاده از دستور ذیل در ترمینال لینوکس اقدام به دانلود این فایل کنید (با ابزار گیت در ویندوز هم می توانید این دستور را اجرا کنید)
curl https://jobteam.ir/robots.txt -o robots.txt
  • برای دانلود یک کپی از این فایل از تستینگ robots.txt در سرچ کنسول استفاده کنید .
    1. روی ارسال در گوشه سمت راست پایین ویرایشگر robots.txt کلیک کنید. این عمل یک گفتگوی ارسال را باز می کند.
    2. کد خود را از صفحه robots.txt تستر با کلیک روی دانلود در کادر گفتگوی ارسال دانلود کنید.

به روز رسانی robots.txt برای موتورهای جستجو

ربات های گوگل هر 24 ساعت یکبار عملیات خزیدن این فایل را انجام می دهند اگر نیاز دارید سریعتر این فایل توسط گوگل بازبینی شود مراحل ذیل را در robots.txt tester انجام دهید:

  1. روی مشاهده نسخه آپلود شده (View uploaded version) کلیک کنید تا ببینید robots.txt زنده شما نسخه ای است که می خواهید Google آن را بخزد.
  2. روی ارسال (Submit) کلیک کنید تا به Google اطلاع دهید که تغییراتی در فایل robots.txt شما ایجاد شده است و از Google درخواست کنید آن را بخزد.
  3. با بازخوانی صفحه در مرورگر خود برای به روز رسانی ویرایشگر ابزار و دیدن کد این فایل به صورت زنده، بررسی کنید که جدیدترین نسخه شما با موفقیت توسط Google خزیده شده است. پس از بازخوانی صفحه، همچنین می‌توانید روی منوی کشویی کلیک کنید تا مُهر زمانی را که Google برای اولین بار آخرین نسخه فایل robots.txt شما را مشاهده کرده است، مشاهده کنید.

محل ذخیره سازی و محدوده اعتبار یک فایل robots.txt

شما باید فایل robots.txt را در دایرکتوری سطح بالای یک سایت، روی یک پروتکل پشتیبانی شده قرار دهید. آدرس این فایل (مانند سایر URL ها) به حروف کوچک و بزرگ حساس است. در مورد جستجوی گوگل، پروتکل های پشتیبانی شده HTTP، HTTPS و FTP هستند. در HTTP و HTTPS، خزنده ها این فایل را با یک درخواست غیرشرطی HTTP واکشی می کنند مثل درخواست از نوع GET. در FTP، خزنده ها از یک استاندارد استفاده می کنند RETR (RETRIEVE).

فایل robots.txt و محل ذخیره سازی و محدوده اعتبار آن

قوانین فهرست شده در فایل robots.txt فقط برای میزبان، پروتکل و شماره پورتی که این فایل در آن میزبانی می شود اعمال می شود.

نمونه هایی از آدرس های معتبر و غیرمعتبر در فایل robots.txt

جدول زیر شامل نمونه‌هایی از آدرس‌های اینترنتی robots.txt و مسیرهای URL است که برای آنها معتبر هستند. ستون یک شامل URL است و ستون دو شامل دامنه‌هایی است که آن برای آنها اعمال می‌شود و نمی‌خواهد.

نمونه آدرس های معتبر و غیر معتبر در robots.txt
http://example.com/robots.txt

این حالت کلی برای سایت است. برای سایر زیر دامنه‌ها، پروتکل‌ها یا شماره‌های پورت معتبر نیست. برای همه فایل‌ها در همه زیرشاخه‌ها در همان دامنه، پروتکل و شماره پورت معتبر است.

معتبر برای:
  • http://example.com/
  • http://example.com/folder/file
معتبر نیست برای:
  • http://other.example.com/
  • https://example.com/
  • http://example.com:8181/
http://www.example.com/robots.txt

robots.txt در یک زیر دامنه فقط برای آن زیر دامنه معتبر است.

معتبر برای: http://www.example.com/

معتبر نیست برای:

  • http://example.com/
  • http://shop.www.example.com/
  • http://www.shop.example.com/
http://example.com/folder/robots.txt این فایل معتبر نیست. خزنده ها فایل های robots.txt را در زیر شاخه ها بررسی نمی کنند.
http://www.exämple.com/robots.txt معتبر برای:
  • http://www.exämple.com/
  • http://xn--exmple-cua.com/ (نکته : معادل با آدرس بالایی است برای موتور جستجو)

معتبر نیست برای: http://www.example.com/

ftp://example.com/robots.txt

معتبر برای: ftp://example.com/

معتبر نیست برای: http://example.com/

http://212.96.82.21/robots.txt

یک robots.txt با یک آدرس IP به عنوان نام میزبان فقط برای خزیدن آن آدرس IP به عنوان نام میزبان معتبر است. این به طور خودکار برای همه وب‌سایت‌هایی که روی آن آدرس IP میزبانی می‌شوند معتبر نیست (اگرچه ممکن است فایل robots.txt به اشتراک گذاشته شود، در این صورت تحت نام میزبان مشترک نیز در دسترس خواهد بود).

معتبر برای: http://212.96.82.21/

معتبر نیست برای: http://example.com/ (حتی اگر در 212.96.82.21 میزبانی شود)

http://example.com:80/robots.txt

شماره پورت های استاندارد ( 80 برای http و 443 برای https و پورت 21 برای ftp ) معادل نام های میزبان پیش فرض آنها است.

معتبر برای:

  • http://example.com:80/
  • http://example.com/

معتبر نیست برای: http://example.com:81/

http://example.com:8181/robots.txt

فایل‌های Robots.txt روی شماره‌های پورت غیراستاندارد فقط برای محتوایی که از طریق آن شماره‌های پورت در دسترس است معتبر هستند.

معتبر برای: http://example.com:8181/

معتبر نیست برای: http://example.com/

خطاها و کدهای وضعیت http برای فایل robots.txt

هنگام درخواست فایل robots.txt، کد وضعیت HTTP پاسخ سرور بر نحوه استفاده از این فایل توسط خزنده‌های Google تأثیر می‌گذارد. جدول زیر نحوه برخورد ربات Googlebot با این فایل‌ها را برای کدهای وضعیت مختلف HTTP خلاصه می‌کند.

رسیدگی به خطاها و کدهای وضعیت HTTP
2xx (success) کدهای وضعیت HTTP که نشان دهنده موفقیت هستند، از خزنده‌های Google می‌خواهند فایل robots.txt را همانطور که توسط سرور ارائه شده است پردازش کنند.
3xx (redirection)

گوگل حداقل پنج ریدایرکت را طبق تعریف RFC 1945 قبول می کند و سپس متوقف می کند و آن را به عنوان یک 404 robots.txt در نظر می گیرد. این همچنین برای هر URL غیرمجاز در زنجیره تغییر مسیر اعمال می شود، زیرا خزنده به دلیل تغییر مسیرها نمی تواند قوانین را واکشی کند.

Google از تغییر مسیرهای منطقی در فایل‌های robots.txt (فریم‌ها، جاوا اسکریپت یا تغییر مسیرهای نوع تازه‌سازی متا) پیروی نمی‌کند

4xx (client errors)

خزنده های گوگل همه خطاهای 4xx را نادیده می گیرند، به جز خطای 429 ، به‌گونه‌ای که گویی این فایل معتبر نیست. این به این معنی است که گوگل فرض می کند که هیچ محدودیتی برای خزیدن وجود ندارد.

5xx (server errors)

از آنجایی که سرور نمی تواند پاسخ قطعی به درخواست robots.txt گوگل بدهد، گوگل موقتاً خطاهای سرور را 5xx و 229 تفسیر می کند که گویی سایت کاملاً غیر مجاز است. Google سعی می‌کند فایل robots.txt را بخزد تا زمانی که کد وضعیت HTTP بدون خطای سرور را دریافت کند. یک 503 (service unavailable) خطا منجر به تلاش مجدد نسبتاً مکرر می شود. اگر این فایل بیش از 30 روز در دسترس نباشد، Google از آخرین نسخه کش شده robots.txt استفاده خواهد کرد. اگر در دسترس نباشد، گوگل فرض می کند که هیچ محدودیتی برای خزیدن وجود ندارد.

اگر نیاز به تعلیق موقت خزیدن دارید، توصیه می‌کنیم برای هر URL در سایت یک کد وضعیت 503 HTTP ارائه دهید.

سایر خطاها فایل robots.txt که به دلیل مشکلات DNS یا شبکه قابل واکشی یا خواندن نیست، مانند timeouts، پاسخ‌های نامعتبر، بازنشانی یا قطع شدن اتصالات، و خطاهای  HTTP، به عنوان یک خطای سرور تلقی می‌شود .

معمولا صفحاتی که در این فایل قرار میگیرند آدرس هایی هستند که امکان ایجاد آدرس های متفاوتی را ایجاد میکنن، مثل صفحات پنل ادمین، سرچ، فیلتر، utm و...

نکته: یک اشتباه رایج که در پروژه ها تکرار میشود این است که کاراکتر ؟ رو توی فایل برای محدود کردن صفحات سرچ محدود می کنند!
این کار اشتباهه چون خیلی از فایل های css, js توی آدرسشون علامت سوال هست و با این کار اونا هم محدود میشن (البته در هر سایتی هم صدق نمیکنه)

نمونه فایل robots.txt سایت جاب تیم

در سایت جاب تیم بخش هایی رو disallow کردیم مثلا مسیر سبد خرید، که در سایت ما بر چند مورد اضافه شده و ما همه مسیرهای ختم شده به سبد خرید رو disallow کردیم بخش بعدی مسیر جستجو هست و بخش آخر مسیر public که نمیخایم این مسیر هم توسط کراولرها بررسی شود:

user-agent: *
disallow: /Cart
disallow: /Cart/*
disallow: /CartPackage
disallow: /CartPackage/*
disallow: /CartCourse
disallow: /CartCourse/*
disallow: *?*
disallow: /search?q=*
disallow: /public
disallow: /public/*

Sitemap: https://jobteam.ir/sitemap.xml

آخر سر هم حتما فایل robots.txt خودتون رو توی robots.txt tester گوگل تست کنید تا از محدود شدنشون مطمئن بشید. 

مثال از feed ها در robots.txt

اگر نگران این مورد هستید که feed ها باعث هدر رفتن بودجه خزش سایت شما میشه این دستور رو توی فایل robots.txt سایتتون بزارین : 

Disallow : *feed*

جلوگیری از کراول کل سایت توسط موتورهای جستجو با robots

گاهی نیاز داریم در سایت های تخصصی و یا در سایت هایی که امکان نوایندکس در قالب وجود ندارد جلوی خزش ربات موتور جستجو رو بگیریم در مثال ذیل نمونه کدی برای اینکار برای شما آماده شده است:

User-agent: * 
Disallow: /

جلوگیری از کراول یک آدرس صفحه در سایت با فایل robots.txt

گاهی نیاز هست یک آدرس خاص را برای کراول موتورهای جستجوی محدود کنیم این عمل عموما بخاطر عدم دسترسی به حذف یا ریدایرکت صفحه مورد نظر اتفاق خواهد افتاد. که در مثال ذیل این روش به صورت ساده برای شما آماده شده است تا مفهوم کاملتری درک کنید:

user-agent: *

Disallow: /index_test.php
Disallow: /products/test_product.html

برای آشنایی بیشتر فرض کنید همین صفحه robots.txt در جاب تیم را می خواهیم برای موتورهای جستجو غیرقابل کراول کنیم پس به صورت ذیل عمل خواهیم کرد:

User-agent: * 
Disallow: ProductUser/752-robots$

جلوگیری از خواندن اطلاعات سایت توسط ربات های چت جی پی تی با robots.txt

با استفاده از robots.txt وب سایتها میتونن از خوانده شدن محتواشون توسط چت جی بی تی (chat gpt) جلوگیری کنند.

User-agent: GPTBot 
Disallow: /
بهزاد میرزازاده
مسیر درست با پرسش های درست ساخته می شود

مشاهده تمام مطالب نویسنده