Thứ Bảy, 24 tháng 5, 2008

Lấy toàn bộ nội dung trang Web, không bóc.

VietSpider 10 đã có. Nhưng chỉ là bước thử nghiệm đầu tiên của chức năng này. Bắt đầu từ phiên bản build 11, việc lấy toàn bộ nội dung trang web sẽ được triển khai.

1 nhận xét:

  1. Việc tải và không bóc nội dung trang web đảm bảo khả năng có thể làm việc với các web không có cấu trúc ổn định hoặc là web tĩnh cho VietSpider. Đặc biệt cần thiết trong các hệ thống Search Engine.


    Những triển khai ban đầu với build 11 đã thành công. Toàn bộ nội dung không bị thay đổi về mặt cấu trúc thiết kế giao diện. Các trang sẽ hiển thị nguyên hình khi view. Một số kỹ thuật thông minh trích rút meta data, chẳng hạn: title, desc, ngày tháng cập nhật,... mà không phụ thuộc vào HTML. Đây là những cơ sở ban đầu để đẩy VietSpider trở thành một robot giống như con người. Nghĩa là khi nó nhìn vào trang web, nó sẽ tự nhận biết được vùng dữ liệu quan trọng từ đó rút trích chính xác các đặc tả nội dung. Việc rút trích chính xác đặc tả nội dung sẽ tăng cường độ chính xác của ranking trong các hệ thống search. Chẳng hạn, nếu như một search engine có thể đánh chỉ mục title bài viết (không phải là thẻ title trong HTML) thì kết quả tìm kiếm sẽ chính xác hơn rất nhiều.

    Những triển khai ban đầu đã thành công trên các trang báo (bao gồm tất cả trang của Vietnam và một số trang nổi tiếng trên thế giới). Khả năng rút trích tự động sẽ tự tìm tên, mô tả, hình ảnh của nội dung,... Chẳng hạn với www.vietimes.com.vn, đầu đề bài báo không nằm trong thẻ title của HTML nhưng VietSpider đã rút trích chính xác tên bài này.

    Như vậy, nếu thành công mỹ mãn, người dùng VietSpider có thể không cần phải cấu hình (chọn vùng) trong bóc tách. Khi đó, người dùng chỉ cần cung cấp url của trang web và hệ thống sẽ tự động bóc tách nội dung cho họ.

    Một trong những khả năng khác của build 10 là tự động dò tìm website. Ngoài khả năng lần website, hệ thống còn có thêm module nhận biết đó là trang tiếng Việt hoặc trang tiếng Anh. Việc này là cần thiết với các Search Engine. Với blog, VietSpider được thiết kế đặc biệt cho khả năng dò tìm các blog thông qua friend list (danh mục bạn bè). Đây là một trong những khả năng thích ứng đầu tiên với trào lưu web 2.0. Blog có thể được quét chung một cấu hình. Hàng ngàn blog chỉ dùng một cấu hình bóc tách chính xác từng entry.

    Một số khả năng khác của VietSpider là khả năng quét sâu với hàng triệu link trong một website. Khả năng tự động sinh link để dò tìm nội dung trong website. Sinh link ứng dụng rất hiệu quả trong lĩnh vực tra cứu như các website từ điển. Hiện moom.vn đang lưu trữ một lượng từ khá lớn trên các từ điển. Người dùng có thể tra cứu nhanh. Bản demo 2 vào tháng 6 sẽ cập nhật thêm.

    Trả lờiXóa

nhudinhthuan@gmail.com