- vừa được xem lúc

Áp dụng nhiều thuật toán Machine Learning (ML) để giải quyết các bài toán như: dự đoán giá xe, dự đoán lượng xe tồn kho, thời gian bán xe, hoặc xác định tính năng nào ảnh hưởng mạnh đến giá bán.

0 0 1

Người đăng: Phan Ngoc

Theo Viblo Asia

1. Bài toán & thuật toán phù hợp

Bài toán ML Mô tả Thuật toán phù hợp
🔮 Dự đoán giá bán xe (pred) Dựa vào đặc điểm xe, tính năng, thời gian đăng bán - Linear Regression (cơ bản)
- XGBoost / LightGBM (mạnh mẽ, cho structured data)
- Random Forest Regression
- Neural Network (MLP)
📦 Dự đoán số lượng xe còn tồn kho (mov_ave_xx_predict_car) Cho biết có bao nhiêu xe sẽ tồn trong 30/60/90 ngày tới - Time Series Regression (ARIMA, Prophet)
- Gradient Boosted Trees
- LSTM (nếu dữ liệu có chuỗi thời gian dài)
Dự đoán số ngày để bán xe (days) Hỗ trợ người bán biết khi nào xe sẽ bán được - Survival Analysis (Cox Regression)
- Regression
🎯 Phân loại xe dễ bán / khó bán (judg_pm5, judg_pm10) Phân nhóm xe có sai số giá bán lớn/nhỏ - Classification (Binary/Multiclass)
→ Logistic Regression, XGBoost, Random Forest
🧠 Feature Importance Biết tính năng nào ảnh hưởng đến giá bán - Tree-based models (XGBoost, RF)
- SHAP / Permutation Importance
🧪 Đánh giá độ chính xác mô hình (abs, true, pred) Đo lường sai số - MAE, RMSE, MAPE, R² Score

📊 Đặc điểm dữ liệu gợi ý model:

  • Tabular data (structured): phù hợp với XGBoost, LightGBM, CatBoost.
  • Có nhiều cột categorical: cần encode (Label/One-hot), hoặc dùng CatBoost (xử lý trực tiếp categorical).
  • Có nhiều cột boolean (0/1): là dữ liệu input quan trọng cho tree-based model.
  • Dữ liệu dạng chuỗi thời gian (StartPublished, days, Reference_date) → phù hợp với mô hình time series.

🧰 Pipeline gợi ý:

Raw Data → Data Cleaning → Feature Engineering (encode categorical, normalize, extract features from date) → Train/Test Split → Model Training (XGBoost / RandomForest / etc.) → Evaluation (MAE, RMSE, R²) → Model Deployment

🔧 Gợi ý công cụ triển khai:

  • Python + scikit-learn (cho baseline model)
  • XGBoost / LightGBM cho hiệu quả cao
  • TensorFlow/Keras nếu dùng MLP hoặc RNN
  • SHAP để giải thích mô hình

Bình luận

Bài viết tương tự

- vừa được xem lúc

Hành trình AI của một sinh viên tồi

Mình ngồi gõ những dòng này vào lúc 2h sáng (chính xác là 2h 2 phút), quả là một đêm khó ngủ. Có lẽ vì lúc chiều đã uống cốc nâu đá mà giờ mắt mình tỉnh như sáo, cũng có thể là vì những trăn trở về lý thuyết chồng chất ánh xạ mình đọc ban sáng khiến không tài nào chợp mắt được hoặc cũng có thể do mì

0 0 157

- vừa được xem lúc

[Deep Learning] Key Information Extraction from document using Graph Convolution Network - Bài toán trích rút thông tin từ hóa đơn với Graph Convolution Network

Các nội dung sẽ được đề cập trong bài blog lần này. . Tổng quan về GNN, GCN. Bài toán Key Information Extraction, trích rút thông tin trong văn bản từ ảnh.

0 0 235

- vừa được xem lúc

Tìm hiểu về YOLO trong bài toán real-time object detection

1.Yolo là gì. . Họ các mô hình RCNN ( Region-Based Convolutional Neural Networks) để giải quyết các bài toán về định vị và nhận diện vật thể.

0 0 302

- vừa được xem lúc

Encoding categorical features in Machine learning

Khi tiếp cận với một bài toán machine learning, khả năng cao là chúng ta sẽ phải đối mặt với dữ liệu dạng phân loại (categorical data). Khác với các dữ liệu dạng số, máy tính sẽ không thể hiểu và làm việc trực tiếp với categorical variable.

0 0 268

- vừa được xem lúc

TF Lite with Android Mobile

Như các bạn đã biết việc đưa ứng dụng đến với người sử dụng thực tế là một thành công lớn trong Machine Learning.Việc làm AI nó không chỉ dừng lại ở mức nghiên cứu, tìm ra giải pháp, chứng minh một giải pháp mới,... mà quan trọng là đưa được những nghiên cứu đó vào ứng dụng thực tế, được sử dụng để

0 0 81

- vừa được xem lúc

Xây dựng hệ thống Real-time Multi-person Tracking với YOLOv3 và DeepSORT

Trong bài này chúng ta sẽ xây dựng một hệ thống sử dụng YOLOv3 kết hợp với DeepSORT để tracking được các đối tượng trên camera, YOLO là một thuật toán deep learning ra đời vào tháng 5 năm 2016 và nó nhanh chóng trở nên phổ biến vì nó quá nhanh so với thuật toán deep learning trước đó, sử dụng YOLO t

0 0 327