✅ 1. Bài toán & thuật toán phù hợp
Bài toán ML | Mô tả | Thuật toán phù hợp |
---|---|---|
🔮 Dự đoán giá bán xe (pred ) |
Dựa vào đặc điểm xe, tính năng, thời gian đăng bán | - Linear Regression (cơ bản) - XGBoost / LightGBM (mạnh mẽ, cho structured data) - Random Forest Regression - Neural Network (MLP) |
📦 Dự đoán số lượng xe còn tồn kho (mov_ave_xx_predict_car ) |
Cho biết có bao nhiêu xe sẽ tồn trong 30/60/90 ngày tới | - Time Series Regression (ARIMA, Prophet) - Gradient Boosted Trees - LSTM (nếu dữ liệu có chuỗi thời gian dài) |
⏳ Dự đoán số ngày để bán xe (days ) |
Hỗ trợ người bán biết khi nào xe sẽ bán được | - Survival Analysis (Cox Regression) - Regression |
🎯 Phân loại xe dễ bán / khó bán (judg_pm5 , judg_pm10 ) |
Phân nhóm xe có sai số giá bán lớn/nhỏ | - Classification (Binary/Multiclass) → Logistic Regression, XGBoost, Random Forest |
🧠 Feature Importance | Biết tính năng nào ảnh hưởng đến giá bán | - Tree-based models (XGBoost, RF) - SHAP / Permutation Importance |
🧪 Đánh giá độ chính xác mô hình (abs , true , pred ) |
Đo lường sai số | - MAE, RMSE, MAPE, R² Score |
📊 Đặc điểm dữ liệu gợi ý model:
- Tabular data (structured): phù hợp với XGBoost, LightGBM, CatBoost.
- Có nhiều cột categorical: cần encode (Label/One-hot), hoặc dùng CatBoost (xử lý trực tiếp categorical).
- Có nhiều cột boolean (0/1): là dữ liệu input quan trọng cho tree-based model.
- Dữ liệu dạng chuỗi thời gian (
StartPublished
,days
,Reference_date
) → phù hợp với mô hình time series.
🧰 Pipeline gợi ý:
Raw Data → Data Cleaning → Feature Engineering (encode categorical, normalize, extract features from date) → Train/Test Split → Model Training (XGBoost / RandomForest / etc.) → Evaluation (MAE, RMSE, R²) → Model Deployment
🔧 Gợi ý công cụ triển khai:
- Python + scikit-learn (cho baseline model)
- XGBoost / LightGBM cho hiệu quả cao
- TensorFlow/Keras nếu dùng MLP hoặc RNN
- SHAP để giải thích mô hình