File robots.txt giúp cho trình thu thập dữ liệu của các công cụ tìm kiếm hiểu rằng khả năng yêu cầu thu thập dữ liệu từ các trang hoặc tệp trên website của bạn. Trong bài viết này mình sẽ chia sẻ một số kiến thức về file robots.txt và hướng dẫn tạo file robots.txt. Cùng xem nhanh thôi!
1. File robots.txt là gì?
File robots.txt là một tập tin văn bản đơn giản có dạng đuôi mở rộng txt. Tệp này là một phần của Robots Exclusion Protocol (REP) chứa 1 nhóm các chỉ tiêu Web quy định cách Robot Web (hoặc Robot của các công cụ tìm kiếm) thu thập dữ liệu trên web, truy cập, index nội dung và cung cấp nội dung đó cho người dùng.
File robots.txt giúp cho trình thu thập dữ liệu
2. Cú pháp của file robots.txt
Các cú pháp được tính là ngôn ngữ riêng cho các tập tin robots.txt. Có 5 thuật ngữ thông dụng trong 1 file robots.txt, bao gồm như sau:
– User-agent : Phần này là tên của các trình thu thập, truy cập dữ liệu web. (Ví dụ: Googlebot, Bingbot,…).
– Disallow : Được sử dụng để thông báo cho những User-agent không thu thập bất kì dữ liệu URL cụ thể nào. Mỗi URL chỉ được dùng 1 dòng Disallow.
– Allow (chỉ áp dụng cho bộ kiếm tìm Googlebot): Lệnh thực hiện thông báo cho Googlebot rằng nó sẽ truy cập một trang hoặc thư mục con. Mặc dù các trang hoặc các thư mục con của nó có thể không được phép.
Những cú pháp được là ngôn ngữ riêng cho các tập tin robots.txt
– Crawl – delay : Thông báo cho những Web Crawler hiểu được phải đợi bao nhiêu giây trước lúc tải và thu thập nội dung của trang. Tuy nhiên, lưu ý rằng bộ tìm kiếm Googlebot không thừa nhận lệnh này và bạn phải cài đặt vận tốc thu thập dữ liệu trong Google Search Console.
– Sitemap : Được sử dụng để cung cấp các vị trí của bất kì Sitemap XML nào được liên kết với URL này. Lưu ý lệnh này chỉ được bổ trợ bởi công cụ Google, Ask, Bing và Yahoo.
3. Tại sao bạn phải tạo file robots.txt?
Việc tạo robots.txt cho website giúp bạn khống chế việc truy cập của các con Bots đến nhiều khu vực nhất định trên trang web. Điều này mang đến nhiều lợi ích cho bạn bởi nhiều lí do:
– Ngăn chặn nội dung trùng lặp xuất hiện trong website (các Robot Meta thường là chọn lựa tốt).
– Giữ một số phần của trang ở chế độ riêng tư.
– Giữ các trang kết quả kiếm tìm nội bộ không hiển thị trên SERP.
– Chỉ định địa thế của Sitemap.
– Ngăn các công cụ của Google Index một số tệp nhất định trên trang web của bạn (hình ảnh từ máy tính, PDF, …).
– Dùng lệnh Crawl-delay để cài đặt thời gian, ngăn việc máy server của bạn bị quá tải lúc các trình thu thập dữ liệu tải nhiều nội dung cùng một lúc.
Tạo robots.txt cho website giúp bạn khống chế việc truy cập của các con Bots
4. Những có hạn của file robots.txt
File robots.txt mang nhiều ưu điểm như phía trên nhưng không bị mất một số yếu điểm nhất định:
– Một số công cụ tìm kiếm có thể không bổ trợ các lệnh trong tệp robots.txt.
– Mỗi trình thu thập dữ liệu sẽ phân tích cú pháp theo những cách riêng.
– Google vẫn có thể lập chỉ mục một trang bị tệp robots.txt chặn nếu có những trang web khác liên kết đến trang đó.
Một số hạn chế của file robots.txt cần lưu ý
5. File robots.txt hoạt động như làm sao?
Phương thức hoạt động của file robots.txt xảy ra như sau:
– Bước 1 : Crawl (cào/phân tích) dữ liệu trên trang web để khám phá nội dung bằng cách đưa công cụ đi theo những liên kết từ trang này đến trang khác, sau đó thu thập dữ liệu thông qua hàng tỷ trang web khác nhau. Quá trình crawl dữ liệu này còn được biết tới với tên khác là “Spidering”.
– Bước 2 : Index nội dung đó để đáp ứng yêu cầu cho những kiếm tìm của người dùng. File robots.txt sẽ chứa các tin tức về phong thái các công cụ của Google nhằm thu thập dữ liệu của website. Lúc này, các con bots sẽ được hướng dẫn thêm nhiều thông tin cụ thể cho qui trình này.
Phương thức hoạt động của file robots.txt
6. File robots.txt nằm ngay đâu trên một website?
Khi bạn tạo website WordPress, web sẽ tự động tạo ra một file robots.txt đặt ngay bên dưới thư mục gốc của server.
Ví dụ : Nếu site của bạn đặt trong thư mục gốc của địa điểm thegioididong.com , bạn sẽ được thể truy cập file robots.txt ở đường dẫn thegioididong.com/robots.txt , kết quả ban đầu sẽ tương tự như sau:
Trong đó:
– User-agent: * có nghĩa là quy tắc được áp dụng cho mọi loại bots trên mọi nơi trên website. Trong trường hợp này, file này sẽ nói cho bots biết là chúng không được phép vào trong file thư mục wp-admin và wp-includes.
Vị trí file robots.txt trên một website
7. Làm ra sao để kiểm tra website có file robots.txt không?
Để kiểm tra website có file robots.txt không, bạn cũng có thể có thể thi hành theo một số bước dưới đây:
Nhập Root Domain (ví dụ: thegioididong.com) > Chèn /robots.txt vào cuối (ví dụ: thegioididong.com/robots.txt) > Nhấn Enter .
Chèn thegioididong.com/robots.txt
8. Quy tắc nào cần được bổ sung vào trong file robots.txt WordPress?
File robots.txt WordPress đều giải quyết một quy tắc tại một thời điểm. Tuy nhiên, nếu bạn mong muốn áp dụng các quy tắc không trùng lặp cho các bot không giống nhau thì bạn chỉ cần thêm từng bộ quy tắc trong phần khai báo User-agent cho mỗi bot.
Ví dụ: Nếu bạn mong muốn tạo một quy tắc áp dụng cho tất cả những bot và một quy tắc khác chỉ áp dụng cho Bingbot, bạn cũng có thể thực hiện như sau:
Từ đó, mọi thứ các bot sẽ bị chặn truy cập / wp-admin / nhưng Bingbot sẽ bị chặn truy cập toàn bộ trang web của bạn.
Thêm từng bộ quy tắc trong phần khai báo User-agent cho từng bot
9. 3 Cách tạo file robots.txt WordPress dễ dàng
Trên thực tế, tạo robots.txt WordPress giúp các nhà quản trị web linh hoạt, chủ động hơn trong việc cho phép hay là không cho các con bot của công cụ Google index một số phần nào đó trong trang của mình.
Nếu sau khi kiểm tra, bạn nhận thấy website của mình không có tệp robots.txt hay đơn giản là bạn đang muốn thay đổi tệp robots.txt của mình. Dưới này là 3 cách tạo robots.txt cho WordPress:
Cách 1: Sử dụng Yoast SEO
Bước 1 : Đăng nhập vào website của bạn trên WordPress, khi đăng nhập vào sẽ thấy giao diện của trang WordPress Dashboard .
Bước 2 : Chọn mục SEO > Chọn Tools .
Chọn Tools trong mục SEO
Bước 3 : Chọn File editor .
Chọn File editor
Như vậy, bạn sẽ thấy mục robots.txt và .htaccess file . Đây là nơi giúp bạn tạo file robots.txt .
Mục robots.txt và .htaccess file tạo file robots.txt
Cách 2: Qua bộ Plugin All in One SEO
Bạn có thể sử dụng bộ Plugin All in One SEO để tạo file robots.txt WordPress nhanh chóng. Đây cũng là một plugin tiện ích cho WordPress đơn giản, dễ sử dụng.
Để tạo file robots.txt WordPress, bạn cũng có thể thi hành theo những bước sau:
Bước 1 : Truy cập giao diện chính của Plugin All in One SEO Pack.
Nếu bạn chưa có bộ Plugin, tải về TẠI ĐÂY.
Bước 2 : Chọn All in One SEO > Chọn Feature Manager > Nhấp Activate cho mục Robots.txt .
Active cho mục robots.txt
Bước 3 : Tạo lập và điều tiết file robots.txt WordPress .
Tạo lập và điều tiết file robots.txt WordPress
Cách 3: Tạo rồi upload file robots.txt qua FTP
Nếu bạn không thích sử dụng plugin để tạo file robots.txt WordPress thì bạn có thể tự tạo file robots.txt thủ công cho WordPress của mình.
Để tạo file robots.txt WordPress bằng tay bằng phương pháp tạo rồi upload file robots.txt qua FTP, bạn cũng có thể thực hành theo các bước sau đây:
Bước 1 : Mở Notepad hoặc Textedit để tạo mẫu file robots.txt WordPress.
Bước 2 : Mở FTP > Chọn thư mục public_html > Chọn file robots.txt > Chọn Upload .
Upload file robots.txt qua FTP
10. Một số quy tắc khi tạo file robots.txt
Việc tạo file robots.txt càng phải lưu ý một số quy tắc sau để không bị lỗi:
– Để được các con bot tìm thấy thì những file robots.txt WordPress phải được đặt trong những thư mục cấp đỉnh cao của trang web.
– File txt phân biệt chữ hoa và chữ thường, vì thế tệp phải được đặt tên là robots.txt (không phải Robots.txt hay robots.TXT,…).
– Không nên đặt /wp-content/themes/ hay /wp-content/plugins/ vào mục Disallow . Điều đó sẽ cản trở các công cụ nhìn nhận chính xác về giao diện blog hay website.
– Một số User-agent chọn cách bỏ lỡ các file robots.txt chuẩn. Điều này khá thông dụng với những User-agent bất chính như Malware robots (bot của các đoạn mã độc hại), các trình Scraping địa chỉ Email.
Các quy tắc dễ thấy khi tạo file robots.txt
– Các tệp robots.txt thường sẽ có sẵn và được công khai trên web và chỉ cần thêm /robots.txt vào cuối bất kì Root Domain để xem những chỉ thị của trang web đó. Điều này còn có nghĩa là bất kì ai cũng thấy các trang bạn mong muốn hoặc không muốn crawl. Vì vậy, đừng sử dụng các tệp này để ẩn tin tức cá nhân của người dùng.
– Mỗi Subdomain trên một Root Domain sẽ sử dụng các file robots.txt riêng biệt. Điều này có nghĩa là cả blog.example.com và example.com có những tệp robots.txt riêng. Đây được tính là cách tốt nhất để chỉ ra địa thế của bất kì sitemaps nào được liên kết với domain ở cuối tệp robots.txt.
Đừng sử dụng các tệp robots.txt để ẩn thông tin cá nhân của người dùng
11. Một số lưu ý khi sử dụng file robots.txt
Khi sử dụng file robots.txt, bạn cần lưu ý một số điểm như sau:
– Các liên kết trên trang bị chặn bởi việc robots.txt sẽ không được những bots theo dõi, trừ khi các link này còn có liên kết với các trang khác. Nếu không, các tài nguyên được liên kết có thể sẽ không được thu thập và lập chỉ mục.
– Link juice sẽ chưa được truyền từ các chuẩn bị chặn đến các trang đích. Vì thế, nếu muốn dòng sức mạnh Link juice truyền qua các trang này thì nên sử dụng một phương pháp khác thay vì tạo robots.txt WordPress.
– Không nên sử dụng file robots.txt để ngăn dữ liệu mẫn cảm như tin tức người dùng riêng tư xuất hiện trong kết quả SERP bởi vì trang web chứa tin tức cá nhân này có thể liên kết với nhiều trang web khác. Do đó các con bots sẽ bỏ quá các chỉ thị của tệp robots.txt trên Root Domain hay trang chủ của bạn.
Những lưu ý khi dùng file robots.txt
– Nếu muốn chặn trang web khỏi các kết quả tìm kiếm, hãy sử dụng một cách thức khác thay vì tạo file robots.txt cho WordPress như dùng mật khẩu bảo vệ hay Noindex Meta Directive . Một số công cụ tìm kiếm có biết bao User-agent chẳng hạn Google sử dụng Googlebot cho những kiếm tìm miễn phí và Googlebot-Image cho các tìm kiếm hình ảnh.
– Hầu hết các User-agent từ và một công cụ đều tuân theo một quy tắc. Do đó, bạn không cần chỉ định các lệnh cho từng User-agent. Tuy nhiên, việc làm này vẫn cũng đều có thể giúp bạn điều chỉnh được cách Index nội dung trang web.
– Các công cụ kiếm tìm sẽ lưu giữ nội dung file robots.txt WordPress. Tuy nhiên nó vẫn thường cập nhật nội dung trong bộ nhớ cache ít nhất một lần một ngày. Nếu bạn thay đổi tệp và muốn cập nhật tệp của mình nhanh hơn thì hãy sử dụng ngay chức năng Gửi của Trình kiểm tra tệp robots.txt.
Không cần chỉ định các lệnh cho mỗi User-agent
12. Câu hỏi thường gặp về robots.txt
Kích thước nhiều nhất của file robots.txt là bao nhiêu?
Trả lời: Kích thước nhiều nhất của file robots.txtKhoảng 500 kilobyte.
File robots.txt WordPress nằm ở đâu trên website?
Trả lời: File robots.txt WordPress nằm tại vị trí domain.com/robots.txt.
Làm cách nào để chỉnh sửa robots.txt WordPress?
Trả lời: Bạn cũng đều có thể thực hành theo cách thủ công hoặc sử dụng một trong nhiều plugin WordPress SEO như Yoast, cho phép bạn chỉnh sửa robots.txt từ WordPress backend.
Điều gì xảy ra nếu Disallow vào nội dung Noindex trong robots.txt?
Trả lời: Nếu Disallow vào nội dung Noindex trong robots.txt thì Google sẽ không khi nào thấy lệnh Noindex vì nó không thể Crawl dữ liệu trang.
Những câu hỏi thường gặp về robots.txt
Làm sao tạm ngừng toàn bộ hoạt động thu thập dữ liệu trang web?
Trả lời: Bạn có thể tạm ngừng toàn bộ hoạt động thu thập dữ liệu bằng cách trả về một mã kết quả HTTP 503 cho mọi URL, lẫn cả về tệp robots.txt. Bạn không nên thay đổi tệp robots.txt để chặn hoạt động thu thập dữ liệu.
Điều gì sẽ diễn ra nếu bạn không có tệp robots.txt?
Trả lời: Nếu tệp robots.txt bị thiếu, trình thu thập tin tức của công cụ tìm kiếm giả sử rằng mọi thứ các trang có sẵn trên trang web của bạn đều ở chế độ công khai và nó cũng đều có thể được thu thập dữ liệu , sau đó thêm nữa chỉ mục của nó.
Điều gì sẽ xảy ra nếu robots.txt không được định dạng tốt?
Trả lời: Điều này phụ thuộc vào vấn đề: Nếu các công cụ tìm kiếm chẳng thể hiểu nội dung của tệp tin vì nó bị định cấu hình sai, họ vẫn truy cập vào trang web và bỏ lỡ bất kể điều gì trong robots.txt.
Không nên thay đổi tệp robots.txt để chặn hoạt động thu thập dữ liệu
Một số mẫu laptop giúp bạn xem file Robots.txt mượt mà và nhanh chóng:
Hy vọng sau khi tham khảo bài viết này bạn đã có những kiến thức về file Robots.txt và hướng dẫn 3 cách tạo file robots.txt WordPress. Cám ơn các bạn đã theo dấu bài viết, hẹn hội ngộ các bạn ở những bài viết tiếp theo!
file,file robots txt là gì,quy tắc khi tạo file robots txt,cú pháp của file robots txt,tạo file robots txt wordpress
Bài viết (post) File Robots.txt là gì? Hướng dẫn 3 cách tạo file robots.txt WordPress – Thủ thuật máy tính được tổng hợp và biên tập bởi: suamaytinhpci.com. Mọi ý kiến đóng góp và phản hồi vui lòng gửi Liên Hệ cho suamaytinhpci.com để điều chỉnh. suamaytinhpci.com xin cảm ơn.