TEXT CLASSIFICATION BASED ON SUPPORT VECTOR MACHINE
Sự phát triển của Internet làm cho thông tin lưu trữ trực tuyến hàng ngày gia tăng nhanh chóng. Do vậy, để tìm đúng thông tin mà chúng ta cần quan tâm thì mất khá nhiều thời gian nên cần phải dùng những kỹ thuật tổ chức và xử lý dữ liệu về văn bản. Kỹ thuật này được gọi là phân lớp văn bản hay nói cách khác là phân loại văn bản. Đã có rất nhiều phương pháp nghiên cứu về phân loại văn bản nhưng trong bài viết này chúng tôi tìm hiểu và áp dụng phương pháp Support Vector Machine và so sánh hiệu quả của nó với phương pháp phân loại theo xác suất Naïve Bayes. Ngoài ra, trước khi thực hiện phân lớp chúng tôi thực hiện các bước tiền xử lý bằng cách trích xuất các từ khóa đặc trưng với kỹ thuật giảm chiều tập huấn luyện nhằm làm giảm thời gian trong quá trình phân lớp.