11 Tự xây dựng "cổng thông tin cá nhân" bằng VietSpider

Xuất phát từ lòng đam mê CNTT, một lập trình viên – cựu sinh viên Aptech – đã miệt mài trong hai năm để hoàn thành sản phẩm Hệ thống khai thác thông tin trực tuyến Việt Nam – VietSpider, với nhiều tính năng ưu việt và được cung cấp hoàn toàn miễn phí cho mọi người.

“Chưa bao giờ nguồn thông tin điện tử lại phát triển mạnh mẽ như hiện nay. Chia sẻ và khai thác nội dung – vì thế đã trở thành một trong những nhu cầu thiết yếu của các hệ thống thông tin. Với lượng tin tức khổng lồ trên mạng. Người đọc rất dễ bị “nhấn chìm” trong biển thông tin nếu không có sự trợ giúp của công nghệ. Một hệ thống khai thác thông tin toàn diện, tiện dụng để “thu thập tin tức theo cách của bạn” chắc chắn sẽ rất cần thiết”, Nhữ Đình Thuận (sinh năm 1983, hiện là nhân viên công ty Công ty ExoPlatform) mở đầu phần giới thiệu về sản phẩm của mình.

Từ đó, cùng với nhu cầu khai thác thông tin hàng ngày, hàng giờ, trong khi tìm ý tưởng cho đồ án tốt nghiệp tại trung tâm lập trình viên Aptech, Thuận đã lựa chọn giải pháp khai thác thông tin trực tuyến để xây dựng phầm mềm VietSpider, với nền tảng là ngôn ngữ lập trình Java và mã nguồn mở.

“Bình cũ rượu mới”

Thực ra, các hệ thống spider – nôm na giống như một robot tự động chuyên lấy thông tin từ một website, trang báo trực tuyến… do người dùng chọn trước không phải là mới (spider tiếng Anh nghĩa là con nhện). Trước đây, nhiều người hẳn đã từng biết đến phần mềm ICPS, hệ thống thu thập và bóc tách tin tức của Nguyễn Phú Bình và Nguyễn Thành Long. Đây là sản phẩm đoạt giải nhì cuộc thi Trí tuệ Việt nam năm 2002. Sau đó là ICAClient – chương trình đoạt giải ấn tượng trong TTVN 2004. Ngoài ra còn có NewSpider – phần quan trọng trong iCMS của VinaComm…

Tuy nhiên, theo giải thích của Thuận, thì các phần mềm trên có kỹ thuật bóc tách rất phức tạp, đòi hỏi người sử dụng phải thực hiện nhiều thao tác khó khăn. Một điểm yếu nữa là nguồn tin được cấu hình sẵn trong phần mềm hoàn toàn phụ thuộc vào nhà cung cấp sản phẩm. Do đó, mỗi khi website nguồn thay đổi hay người dùng muốn thêm bớt nguồn tin mới thì lập trình viên mất nhiều thời gian để can thiệp. Chẳng hạn nhà cung cấp cho phép bạn khai thác thông tin trong mục kinh tế ở báo điện tử A hoặc B nhưng bạn cần khai thác thêm thông tin tại báo điện tử C. Khi đó không còn cách nào khác là bạn phải nhờ đến lập trình viên can thiệp.

Nhận biết được yếu điểm trên, tác giả đã mất nhiều thời gian để tìm tòi một giải pháp cho phép bóc tách nội dung từ bất cứ nguồn tin nào. Không phụ thuộc vào các chuẩn có sẵn như RSS, RDF,… VietSpider đã đề xuất một công nghệ mới cho phép phân tích, trích xuất một phần một dung từ một tài liệu HTML. Công nghệ đó, được tác giả gọi là định khối, sẽ mở ra một hướng đi mới cho kỹ thuật bóc tách nội dung, theo lời tác giả. Với đầu vào là một vài thông số cơ bản, người dùng dễ dàng thêm bớt, xóa sửa những thiết lập của một nguồn thông tin bất kỳ. Công cụ cấu hình trực quan cho phép người dùng chỉ ra phần nội dung mình muốn lấy. Hiện tại, VietSpider đã thiết lập sẵn hàng trăm kênh tin.

Tự tạo “cổng thông tin cá nhân”

VietSpider có thể lấy thông tin bóc tách từ bất kỳ site nào mà không cần hỗ trợ RSS. Đồng thời sau khi khởi động, nó sẽ tự động load các tin bài về ngay khi trang chủ mà nó lấy tin có update tin bài mới.

Quy trình hoạt động của VietSpider được tác giả đơn giản hoá tối đa, việc tải thông tin từ Internet khá dễ dàng. Sau khi cài đặt, VietSpider trở thành một cửa sổ rất thân thiện với giao diện tùy biến ở hai ngôn ngữ: Anh và Việt. Tính cá nhân của người dùng được thể hiện tối đa: Bạn có thể đọc thể thao trên website A, đọc các bài thời sự nội chính nóng hổi trên Báo điện tử B, nếu bạn cho mục Kinh tế của trang tin C là hay nhất trong các nguồn thông tin có trên mạng, bạn cũng có thể làm chủ nó hoàn toàn với VietSpider trên góc độ độc giả.

Tích hợp các chức năng cơ bản của một CMS đơn giản bao gồm biên soạn, sửa, xóa…VietSpider trợ giúp việc quản trị nội dung tương đối tốt. Các chức năng như xuất nhập dữ liệu, xuất thành tài liệu HTML trợ giúp việc đóng gói, chuyển mang dữ liệu, tuy nhiên tài liệu HTML xuất bản còn tương đối thô sơ. Với các tính năng này, người dùng có thể đóng gói và chuyển mang, lưu trữ dữ liệu ở bất cứ đâu.

Ngoài bóc tách thông tin, VietSpider còn đóng vai trò như một trình duyệt. Cơ chế duyệt theo tab, đọc RSS,… sản phẩm này có hầu hết các tính năng được hứa hẹn cho Internet Explorer 7. Tuy nhiên, VietSpider chỉ là ứng dụng dạng Embeded Browser, có thể chạy trên nền các phiên bản IE khác nhau.

Tuy nhiên theo lời Thuận: “Sản phẩm hiện tại mới chỉ phát hành dưới bản build do chưa đóng lại các tính năng của chương trình. Đồng thời, bộ cài đặt ứng dụng khá nặng (hơn 40 MB)”. Đồng thời VietSpider vẫn còn một số lỗi làm sai lệch nguyên dạng thông tin khi thu thập từ Internet. Chức năng tìm kiếm kém, việc xuất bản ra tài liệu HTML còn tương đối đơn giản, chưa có phần tài liệu Help trợ giúp… Tác giả cho biết đang cố gắng khắc phục các nhược điểm trên, tích hợp thêm các tính năng khác như desktop search, slidebar…. nghiên cứu, thử nghiệm và phát triển các giải pháp liên kết với các hệ thống thông tin khác như CMS, Portal…

Theo tìm hiểu của VietNamNet, VietSpider hiện là là sản phẩm đầu tiên ở Việt Nam có khả năng bóc tách một phần tài liệu html từ một website bất kỳ khá chuẩn xác và đơn giản. Một số đánh giá ban đầu thấy đây là sản phẩm bóc tách nội dung tốt hiện nay. Sản phẩm đã tham gia cuộc thi Nhân tài đất Việt 2005.

Thuận chia sẻ: “Nhiều người nói tôi “rỗi hơi” khi mất hàng năm trời tạo ra một phần mềm để mọi người dùng miễn phí. Nhưng tôi có suy nghĩ khác… Ngay từ khi tham gia một số diễn đàn về công nghệ trên Internet như javavietnam.org, tôi đã phát hiện ra rằng mỗi khi mình tham gia trả lời thành viên, quá trình đi tìm câu hỏi giải đáp các thắc mắc cho họ là quá trình tự học tốt nhất!”

“Cũng như vậy, VietSpider là “chứng chỉ” của riêng tôi khi tự học thêm trên mạng. Bằng việc tham khảo các tài nguyên mã nguồn mở dường như vô tận trên mạng, tôi tạo ra VietSpider, nên nó cũng phải là một phần mềm nguồn mở – miễn phí. Hơn nữa, nhờ quá trình phát triển sản phẩm, tôi có thêm nhiều kinh nghiệm và mối quan hệ quý báu”.

“Tôi khẳng định rằng: khi đứng ra phục vụ lợi ích cộng đồng một cách trong sáng, chính mình lại là người được hưởng lợi nhiều nhất.”

Thế Phong
(Theo VietnamNet)

FPT Aptech trực thuộc Tổ chức Giáo dục FPT có hơn 25 năm kinh nghiệm đào tạo lập trình viên quốc tế tại Việt Nam, và luôn là sự lựa chọn ưu tiên của các sinh viên và nhà tuyển dụng.
0981578920
icons8-exercise-96