Thứ Ba, 1 tháng 6, 2010

VietSpider 3 build 16 phiên bản tin tức phát hành.

Phiên bản mới đã sửa lỗi và cập nhật Joomla Plugin. Download VietSpider 3.16 Vietnamese News bản Windows, bản cho người dùng Windows bình thường (không cần cài Java), Linux.

31 nhận xét:

  1. Anh ơi em mới biết đến phần mềm này, em dùng bản 3 build 16 và đã bóc tách đc dữ liệu rồi, nhưng em ko biết làm thế nào để xuất dữ liệu ra sql cả. Em chưa chưa biết mong anh giúp em nhé

    Trả lờiXóa
  2. Em vào mục Cấu hình -> Cấu hình hệ thống -> Database setting nhé. Sau đó chọn database và save lại rồi khởi động lại VietSpider.

    Trả lờiXóa
  3. Em làm như anh nói nhưng vẫn ko đc anh ạ. Có phải cấu hình nào khác ko anh? http://c.upanh.com/upload/7/722/VZ0.11935995_1_1.png

    Trả lờiXóa
  4. nhấn nút kiểm tra xem việc connect tới database okies hay chưa.

    Vào thư mục data/system/ mở file database.xml xem giá trị của inited là false hay chưa. Nếu nó là true thì đổi thành false. Khởi động lại VietSpider.

    Trả lờiXóa
  5. anh cho em hỏi, em cũng làm như bạn ở trên, và đã connect được, em muốn hỏi trong DB phải đặt như thế nào để trùng khớp với dữ liệu vietspider lấy về hay là cứ tạo một db là vietspider tự động tạo bảng trong đó hả anh ?

    Trả lờiXóa
  6. hi anh
    em đã lấy đưojwc dữ liệu rồi, nhưng giờ gặp vấn đề là cái file database mà anh có đề cập tới, cứ một lúc sau giá trị của inited lại đổi thành true ? làm sao khắc phục nó vậy hả anh ?

    Trả lờiXóa
  7. sau khi tạo xong các bảng và ghi dữ liệu, vietspider sẽ đổi thành true, nó làm việc đúng, ko cần phải đổi lại thành false đâu.

    Trả lờiXóa
  8. nhưng anh ơi, nếu để true nó lại ko insert vào DB anh à :( ko hiểu tại sao luôn đấy ạ

    Trả lờiXóa
  9. em lại gặp một vấn đề là không thể đồng bộ với joomla được, em đã ấn gửi mà không được, rất mong anh support

    Trả lờiXóa
  10. Anh ơi, khi load dữ liệu, vietspider không load hết các mục tin, thí dụ có 50 mục tin thì nó load khoảng 30 mục sau đó nó quay lại từ đầu, nhờ anh hướng dẫn!

    Trả lờiXóa
  11. Chào anh, em cũng rất thích viết crawler nhưng khi lấy được nội dung về, có những cách nào để làm mượt nội dung? có rất nhiều trang khi đăng tin họ để rất nhiều thẻ thừa, hoặc họ copy ngay của word sang nên có rất nhiều các thẻ của word. Gây ra 1 số lỗi hoặc dữ liệu hiển thị không đẹp.

    Trả lờiXóa
  12. loại nó đi, còn loại thế nào thì tự bạn làm trong crawler của bạn.

    Trả lờiXóa
  13. Chào anh, em mới tập làm quen, cho em hỏi phần Deep crawler cụ thể dùng để làm gì? Sao có lúc dùng 1,2 lúc thì 1000. Cho em một và ví dụ và cách sử dụng, khi nào thì dùng 1,2 hoặc một con số khác, thanks anh

    Trả lờiXóa
  14. Chào anh, em rất thích chương trình này và đang học cách sử dụng nó. NHưng e chưa sử dụng thành thạo lắm. ANh có thể hướng dẫn em cách lấy dữ liệu từ trang : http://data.vietstock.vn/TradingResult/Hose_StockIndicator.aspx?TransactionISN=2337&tab=0 . Em biết cách lọc dữ liệu, loại bỏ dữ liệu thừa. Nhưng yêu cầu của e là lấy toàn bộ TransactionISN từ 1-> bây giờ và của tab 0 thôi . Anh có thể giúp e mô tả các thành phần:
    - Home page
    - Crawled Link Pattern
    - Sample Page
    - Link Pattern ( cho em hỏi nó khác cái Link Pattern trên như thế nào? tại sao có lúc cái trên để trống?)
    Em cảm ơn anh nhiều lắm. thanks anh

    Trả lờiXóa
  15. Phần Link Pattern em để là : http://data.vietstock.vn/TradingResult/Hose_StockIndicator.aspx?TransactionISN=*&tab=0 nhưng sao kết quả em vẫn không lấy về toàn bộ Transaction được. Anh test giúp em với nhé. Với lại phần Crawled Link Pattern em ko biết để cái gì vô nữa. Thanks anh

    Trả lờiXóa
  16. Anh ơi, giúp em với, em đã đọc và làm theo hướng dẫn, nhưng nó chỉ lấy được transationISN cuối thôi, em muốn lấy toàn bộ transaction nhưng không được. http://data.vietstock.vn/TradingResult/Hose_StockIndicator.aspx?TransactionISN=*&tab=0 . Giúp em anh ơi

    Trả lờiXóa
  17. Hiện nay có rất nhiều trang Web phát triển bằng nukeviet, Anh có thể phát triển plugin đồng bộ tin tức cho nukeviet được không

    Trả lờiXóa
  18. Anh sẽ xem xét nhưng không thể hứa trước vì đang quá bận.

    Trả lờiXóa
  19. rất hay, cố gắng học

    Trả lờiXóa
  20. Tham khảo thêm http://web-harvest.sourceforge.net/

    Trả lờiXóa
  21. mình cũng mới dùng tool này để lấy tin trên dantri.com.vn nhưng sao chỉ lưu được khoảng 1400 bài là không lưu được nữa, mặc dù VietSpider vẫn chạy, vẫn request URL bình thường.

    Trả lờiXóa
  22. Cám ơn bạn đã trả lời. Nhân tiện cho mình hỏi mức quét là gì? lấy trang dantri.com.vn làm ví dụ thì để mức quét bao nhiêu nếu muốn lấy tất cả tin tức mới của các chuyên mục trong ngày.

    Trả lờiXóa
  23. Chào anh!
    Anh hướng dẫn em xuất dữ liệu và upload dữ liệu từ vietspider lên wordpress
    Cám ơn anh

    Trả lờiXóa
  24. Về mức quét, bạn đọc thêm tài liệu.

    Version hiện tại không support việc đẩy dữ liệu lên wordpress. Sorry.

    Trả lờiXóa
  25. Chào anh!
    Em down ve làm theo hướng dẫn, nhưng khi crawl thì ko biết các file XML chứa nội dung lưu ở đâu, em chỉ cần nội dung lưu về là dạng xml là được. em xài Ubuntu.

    Trả lờiXóa
  26. Anh ơi! e mới phát hiện ra cái phần mềm này ak. e tim trên mạng nhưng k thấy có hướng dẫn dùng như thế nào. a có file hướng dẫn nào thì send cho e với. mail e: nguyenthinhcntt@gmail.com

    Trả lờiXóa
  27. Em chào anh !
    Em đang làm đồ án về bóc tách thông tin về laptop và cung cấp thông tin laptop nào có giá rẻ nhất mà phù hợp với các tiêu chí đưa ra của khách hàng (loại gì, của hàng nào). Em định dùng phần mềm vietspider của anh để bóc tách thông tin về laptop trên các website như benComputer, Trần Anh,... sau đó tổng hợp lại cho vào CSDL và dùng câu query truy vấn kết quả cho người dùng. Vậy phần mềm của anh đáp ứng được yêu cầu đó đúng ko ạ.
    Em có 1 câu hỏi nữa, đo là : nếu giá laptop thay đổi thươg xuyên thì phần mềm của anh có tự động cập nhật thay đổi đó ko ? nếu ko anh có thể gợi ý cho em cách giải quyết đc không ạ ?
    Em cảm ơn anh.

    Trả lờiXóa
  28. anh cho em hỏi làm thế nào mình có thể view đc cái HTML tag tree của trang web mình vừa tải về ạ. Em tìm mãi mà ko thấy chức năng đó. Cảm ơn anh.

    Trả lờiXóa

nhudinhthuan@gmail.com