Thứ Năm, 31 tháng 12, 2009

VietSpider build 16: Tích hợp thành công với Solr.

Solr - một giải pháp tìm kiếm doanh nghiệp nguồn mở được cung cấp bởi Apache. Solr là một full-text search dựa trên Lucence có hỗ trợ clustering, tích hợp database, highly scalable, distributed search,... đặc biệt có sự hỗ trợ các API có output định dang qua HTTP/XML and JSON, do đó các hệ thống phát triển trên nền tảng khác Java đề có thể tích hợp.

Xem thêm về Solr tại http://lucene.apache.org/solr/

6 nhận xét:

  1. Lỗi upload ảnh với Joomla plugin
    Tôi sử dụng Joomla plugin thì post được bài tuy nhiên gặp lỗi upload ảnh như sau:
    - đối với bài có 1 ảnh thì upload được ảnh lên server, nhưng tên file ảnh upload và đường link ảnh ở trong bài viết không khớp với nhau nên không hiển thị được ảnh. Ví dụ: tên file upload lên là 201001251409340002.jpg còn trong bài viết link ảnh là 201001251409340002.1.jpg
    - đối với bài có nhiều ảnh thì chỉ upload được 1 ảnh đầu tiến, cũng bị tình trạng không khớp.
    Không biết có ai bị như tôi không. Tôi đã kiểm tra kỹ, download phiên bản .15 cả JRE và không có JRE đều không được.
    Regards!

    Trả lờiXóa
  2. - Anh Thuận ơi có cách nào để load clip video không anh?
    - Có những trang báo không load được theo chuyên mục riêng: TD thanh niên,lao động mặc dù đã cấu hình theo chuyên mục riêng hoặc load trùng http://nhipsongso.tuoitre.com.vn/ lấy tin trùng với http://www.tuoitre.com.vn/ mặc dù đã cấu hình trang mẫu
    - Có những trang thời gian load luồng rất lâu : thesaigontime, vnexpress; hoặc lấy tin cũ nhiều :vnexpress
    Mong anh hướng dẫn
    Cám ơn anh!

    Trả lờiXóa
  3. - VietSpider không support load video.
    - Trường hợp như trang của Tuổi trẻ thì buộc phải lấy 1 thôi.
    - Trường hợp báo Thanh Niên vào Lao động, sử dụng Chọn vùng duyệt trang (biểu tượng ô vuông trắng cuối mục Trang chủ trong phần cấu hình kênh bóc tách).
    - Trường hợp vnexpress lấy tin cũ thì cũng chọn vùng duyệt trang hoặc:
    + Lấy cả thời gian tải bài.
    + vào phần Cấu hình -> Cấu hình Crawler -> Giới hạn nội dung tải, đặt là 1 hoặc 2 hoặc 3 sau đó Save lại, khởi động lại VietSpider.
    - Trang load rất lâu là do server quá tải đó. Cái đó khó can thiệp lắm.

    Trả lờiXóa
  4. Cám ơn anh Thuận, để em cấu hình lại!

    Trả lờiXóa
  5. Chào anh Thuận,
    Tôi đọc bài: http://nhuthuan.blogspot.com/2009/12/vietspider-build-16-tich-hop-thanh-cong.html#comments
    Và có một câu hỏi về solr: Anh có biết làm thế nào để sử lý có dấu và không dấu như của baamboo.com không ví dụ như search từ "Dan Truong" với "Đan Trường" thì kết quả khác nhau nhưng cùng hướng về kết quả của Đan Trường

    Trả lờiXóa
  6. Hi anh... ah có tài liệu hoặc sample nào về xây dựng solr trên web application, cho em tham khảo với được không ạ, tiếng việt hoặc tiếng anh cũng đươc anh ạ. email của em: dinhitdlu@gmail.com

    Trả lờiXóa

nhudinhthuan@gmail.com