• مشکی
  • سفید
  • سبز
  • آبی
  • قرمز
  • نارنجی
  • بنفش
  • طلایی
وبلاگ نویسان (بازدید: 1240)
شنبه 7/5/1391 - 22:2 -0 تشکر 483360
فایل robot.txt چیست و چرا باید از آن استفاده کرد ؟

موتورهای جستجو همانند گوگل ، یاهو و بینگ مایکروسافت برای برای یافتن و ایندکس کردن صفحات مختلف وب و سایت های موجود از روبات های جستجو که به spider , robot و یا crawler معروف هستنداستفاده می کننید . این روبوت ها با پیمایش خودکار در صفحات وب اطلاعات مربوط به صفحات رو بدست میارند و اونها رو به موتور جستجوی مربوطه ارسال میکنند . معمولا بر اساس اینکه یک سایت چند مدت به چند مدت آپدیت میشه تعداد دفعاتی که این روبات های جستجوگر در روز به سایت مراجعه می کنند متفاوته .
صفحات موجود در سایتهای مختلف از لحاظ امنیتی و درجه حساسیت متفاوت هستند و شاید شما دوست نداشته باشید بعضی از صفحات (مثل صفحات مدیریتی و ادمین سایت) در موتورهای جستجو ایندکس بشه و آدرسش در این موتورها در اختیار عموم باشه . برای اینکه به موتورهای جستجو بگید چه صفحات یا فولدرهایی در سایت رو پیمایش و ایندکس کنه و اینکه چه صفحاتی رو ایندکس نکنه می تونید از یک فایل با نام robot.txt در ایندکس هاستینگ سایتتون و یا در پوشه ای خاص استفاده کنید تا به موتورهای جستجو بگید جا مجازید پیمایش کنید و کجا مجاز نیستید :
ربات های موتورهای جستجو
فایل robot.txt چیست
همونطور که در عکس بالا میبینید ، در سایتی که از فایل robot.txt استفاده نشده باشه روبات های موتورهای جستجو همه ی صفحات رو ایندکس می کنند در صورتی که با استفاده از این فایل میشه این ایندکس شدنها رو برای پوشه های مختلف کنترل کرد ! از این فایل همچنین برای جلوگیری از ایندکس شدن تکراری صفحات با url های مختلف استفاده میشه .
:: خوب حالا که فهمیدید دلیل استفاده از فایل مهم robot.txt چی هست ، نحوه استفاده از اون رو براتون توضیح میدیم :
فایل robot.txt یک فایل متنی ساده (دقیقا با همین نام و پسوند txt) است . در زیر چند تا از مهمترین دستوراتی که توی این فایل می تونید بیارید آوردم .
User-agent
در خط اول این فایل معمولا نوع روباتی که قراره محدودیت ایندکسینگ رو براش اعمال کنیم با دستور *:User-agent میاریم . به شکل زیر :

User-agent: *

علامت * میگه که همه ی ربات های پیمایشگر ، این دستورات براشون اعمال بشه .
مثلا اگه بخواید بگید فقط روبات های گوگل این محدودیت ها رو داشته باشند ، این دستور رو به این شکل داریم :

User-agent: googlebot

در اینجا میتونید لیست همه ی روبوت های موجود و معروف رو ببینید .
اگر فایل فقط حاوی این خط باشه همچنان پیمایشگران محترم موتورهای جستجو بدون محدودیت به ایندکس کردن همه صفحات ادامه می دن .
Disallow
برای جلوگیری از ایندکس شدن ادرس خاصی از سایت از دستور Disallow استفاده میشه . بزارید چندتا مثال بزنیم :

User-agent: googlebot
Disallow: /

این دوخط فوق باعث میشه که جلوی ایندکس شدن همه ی صفحات توسط روبوت های گوگل گرفته بشه .

User-agent: *
Disallow: /admin.php

در مثال فوق همه ی روبوت ها رو محدود میکنید که اجازه ایندکس کردن صفحه admin.php رو نداشته باشند .

User-agent: *
Disallow: /cgi-bin/
Disallow: /images/
Disallow: /private.html

در این مثال هم همه ی روبوت ها رو محدود میکنید که اجازه ایندکس کردن صفحه private.html و پوشه های cgi-bin و images رو نداشته باشند .

البته میتونید برای روبوت های مختلف محدودیت های مختلف تعیین کنید :

User-agent: *
Disallow: /cgi-bin/
Disallow: /admin/
Disallow: /private.html
User-agent: googlebot
Disallow: /images/
User-agent: BadBot
Disallow: /

Allow
از دستور Allow هم معمولا برای اجازه دادن ایندکسینگ به زیرپوشه ای که درون یک پوشه Dissallow شده قرار داده استفاده میشه . مثال زیر رو ببینید :

User-agent: *
Disallow: /files/
Allow: /files/public/

در اینجا ما می گیم که روبات ها اجازه ایندکس کردن محتویات درون پوشه files رو ندارند به جز پوشه public که در پوشه files قرار داره !

robot.txt برای سایت های وردپرسی !
در زیر یک فایل مناسب برای استفاده وب سایت هایی که با وردپرس ساخته شدند آوردم . می تونید ازش استفاده کنید . میبینید که به پوشه های مدیریتی و حاوی فایل ها قالب و پلاگین ها و … اجازه دسترسی داده نشده .

User-agent: *
Disallow: /feed/
Disallow: /trackback/
Disallow: /wp-admin/
Disallow: /wp-content/
Disallow: /wp-includes/
Disallow: /xmlrpc.php
Disallow: /wp-
Sitemap: http://www.7Learn.com/Sitemap.xml

همونطور که در مثال بالا می بینید می تونید به این طریق Sitemap سایت خودتون رو هم در این فایل قرار بدید تا در معرض دید روبات ها باشه . انشاءالله در آینده در مورد فایل sitemap و دلایل استفاده از اون هم صحبت خواهیم کرد .

robot.txt برای سایت های پیاده سازی شده با جوملا !

User-agent: *
Disallow: /component

:: در آخر هم بد نیست یه نگاهی به فایل robot.txt خود سایت گوگل بکنید !

برو به انجمن
انجمن فعال در هفته گذشته
مدیر فعال در هفته گذشته
آخرین مطالب
  • آلبوم تصاویر بازدید از کلیسای جلفای...
    آلبوم تصاویر بازدید اعضای انجمن نصف جهان از کلیسای جلفای اصفهان.
  • بازدید از زیباترین کلیسای جلفای اصفهان
    جمعی از کاربران انجمن نصف جهان، در روز 27 مردادماه با همکاری دفتر تبیان اصفهان، بازدیدی را از کلیسای وانک، به عمل آورده‌اند. این کلیسا، یکی از کلیساهای تاریخی اصفهان به شمار می‌رود.
  • اعضای انجمن در خانه شهید بهشتی
    خانه پدری آیت الله دکتر بهشتی در اصفهان، امروزه به نام موزه و خانه فرهنگ شهید نام‌گذاری شده است. اعضای انجمن نصف جهان، در بازدید دیگر خود، قدم به خانه شهید بهشتی گذاشته‌اند.
  • اطلاعیه برندگان جشنواره انجمن‌ها
    پس از دو ماه رقابت فشرده بین کاربران فعال انجمن‌ها، جشنواره تابستان 92 با برگزاری 5 مسابقه متنوع در تاریخ 15 مهرماه به پایان رسید و هم‌اینک، زمان اعلام برندگان نهایی این مسابقات فرارسیده است.
  • نصف جهانی‌ها در مقبره علامه مجلسی
    اعضای انجمن نصف جهان، در یك گردهمایی دیگر، از آرامگاه علامه مجلسی و میدان احیا شده‌ی امام علی (ع) اصفهان، بازدیدی را به عمل آوردند.