Chào mừng bạn đến với pipeline dự đoán xu hướng phim sử dụng Apache Spark MLlib! 🎥✨ Đây là công cụ mạnh mẽ giúp bạn dự đoán "trend" của các bộ phim dựa trên dữ liệu có sẵn. Từ xử lý dữ liệu, huấn luyện mô hình, đến phân tích kết quả – tất cả đều được gói gọn trong một quy trình đơn giản nhưng hiệu quả! 📊🔍
- Đọc dữ liệu: Lấy dữ liệu từ file
movies_cleaned.csv. - Tạo biến mục tiêu: Dùng median của cột
profitđể xác định "trend". - Dọn dẹp: Loại bỏ các cột không cần thiết để tránh rò rỉ thông tin.
- Xử lý genre: Nhóm các thể loại hiếm thành
genre_rarecho dữ liệu gọn gàng hơn. - Chuyển đổi: Biến dữ liệu thành vector feature bằng
VectorAssembler. - Chia dữ liệu: 80% để huấn luyện, 20% để kiểm tra.
- Ma trận nhầm lẫn: Xem chi tiết kết quả dự đoán đúng/sai.
- 📊 Biểu đồ phân phối của
vote_average.
- 🐍 Python 3.7+
- ⭐ Apache Spark 3.x
Chạy lệnh sau để cài đặt các thư viện cần thiết:
pip install pyspark pandas matplotlib seaborn scikit-learn- Trên terminal:
spark-submit main_pyspark.py








