วิธีสร้างไฟล์-robots.txt

robots.txt คืออะไร และวิธีสร้างไฟล์ robots.txt

robots.txt คืออะไร และวิธีสร้างไฟล์ robots.txt



ไฟล์ robots.txt จะทำหน้าที่อนุญาติและยกเว้นการเข้าถึงไฟล์และโฟลเด้อต่าง ๆ ที่อยู่บน web server ให้กับ web robots ซึ่งเป็นโปรแกรมรวมรวมข้อมูลเว็บไซต์ ( Crawlers หรือบางทีเรียกว่า Spider ) ซึ่งถูกรันแบบอัตโนมัติจาก

หลากหลายแหล่งที่มา และเพื่อความเป็นส่วนตัวของข้อมูลบนโลกอินเตอร์เนต ซึ่งอาจจะมีข้อมูลบางอย่างบนเว็บไซต์ที่เราไม่ต้องการให้ robots เหล่านี้นำไปทำ index หรือทำอย่างอื่น จึงเกิดไฟล์ robots.txt ขึ้นมาเพื่อบอกให้ robots เหล่านั้นรู้ว่า directory ส่วนไหน หรือไฟล์ไหนบนเว็บไซต์ของเรา ที่สามารถนำไปทำ index ได้และไฟล์ไหนไม่อนุญาติให้นำไปสร้าง index เมื่อ web robots เข้ามายังเว็บไซต์ของเรา จะทำการอ่านไฟล์ robots.txt และรับรู้ว่าส่วนไหนอนุญาติและไม่อนุญาติ ก่อนที่จะไปเก็บข้อมูลหน้าเว็บไซต์ของเรา

เหตุผลที่เราควรสร้างไฟล์ robots.txt

สำหรับนักพัฒนาเว็บไซต์โดยทั่วไป เมื่อเราพัฒนาเว็บไซต์ให้ลูกค้าในขั้นตอนของการพัฒนา ( development ) ก่อนที่จะนำขึ้นใช้งานจริง ( production ) อาจจะต้องรักษาข้อมูลทั้งหมดในเว็บไซต์ให้เป็นความลับ เราอาจจะคิดว่าสร้างเว็บไซต์และเก็บไว้ใน sub directory คงไม่ใครรู้ ถ้าไม่ได้ส่งให้ใคร แต่ในความเป็นจริง Web Robots ได้เก็บข้อมูลเว็บไซต์ของเราไปแล้ว และถ้าเราลองพิมพ์คำสั่ง site:www.your-domain.com ใน addresss bar ของเว็บเบราว์เซอร์ จะเห็นว่ามีรายการเว็บไซต์ที่เป็นความลับอยู่ในลิสต์รายการด้วย

สร้างไฟล์ robots.txt

เราสามารถสร้างไฟล์ robots.txt โดยใช้โปรแกรม editor ทั่วไป และสามารถเขียนคำสั่งลงไปได้ แต่มีกฏอยู่ว่าไฟล์ต้องมีชื่อว่า robots.txt เท่านั้น


วิธีสร้างไฟล์ robots.txt

ตัวอย่างคำสั่งใน robots.txt

  • อนุญาติให้ทุก Web Robots
    User-agent: *
  • อนุญาติเฉพาะ Google Web Robots เท่านั้น
    User-agent: Googlebot 
  • ไม่อนุญาติให้ทุก Web Robots เก็บข้อมูลใด ๆ ในเว็บไซต์
    User-agent: *
    Disallow: /
  • อนุญาติให้ทุก Web Robots เก็บข้อมูลในเว็บไซต์ได้ทั้งหมด
    User-agent: *
    Disallow: 
  • ไม่อนุญาติให้ทุก Web Robots เก็บข้อมูลใน directory ในรายชื่อ
    User-agent: *
    Disallow: /cgi-bin
    Disallow: /project
    Disallow: /email


อัพโหลดไฟล์ robots.txt

หลังจากที่เราสร้างไฟล์ robots.txt และเขียนคำสั่งต่าง ๆ เรียบร้อยแล้ว ให้อัพโหลดไฟล์ไปไว้ใน top-level directory ของเว็บไซต์ อาจจะเป็นโฟลเด้อ public_html หรือ htdocs อยู่ทีว่า web server ของเราเป็นระบบปฏิบัติการอะไร ตัวอย่างเช่น https://www.your-domain.com/robots.txt