- vừa được xem lúc

Tìm hiểu về lập trình dự báo theo chuỗi thời gian từ tổng quát đến chi tiết

0 0 11

Người đăng: Lazy CatIT

Theo Viblo Asia

1. Lời nói đầu

Mình đơn giản là thích lập trình, có tìm hiểu đôi chút về machine learning, các thuật toán, dưới đây là chia sẻ của mình trong thời gian tìm hiểu. Bài viết dưới đây mình viết dưới góc nhìn của người bắt đầu mò mẫm những bước đầu, mình sẽ đi từ tổng quát đến chi tiết những bước mình tìm hiểu được, từ đó đưa cái nhìn tổng quát (theo góc nhìn của mình) từ lý thuyết đi đến áp dụng thực tiễn cụ thể một vấn đề như thế nào. Chú ý: Mình không phải chuyên gia trong lĩnh vực này, nên có nhiều khái niệm có thể sẽ diễn dịch sai, cũng như hiểu ý sai, mọi người có thể coi đó như để tham khảo, cũng như đóng góp kiến thức để chúng ta cùng hoàn thiện hơn.

2. Giới thiệu

Dữ liệu chuỗi thời gian (time-series data) là dữ liệu được thu thập về cùng một vấn đề tại các thời điểm khác nhau. Chẳng hạn như GDP của một quốc gia theo năm, giá cổ phiếu của một công ty cụ thể trong một khoảng thời gian, doanh thu của chuỗi cửa hàng theo tháng và ngay cả nhịp tim của bạn ghi lại trong mỗi giây. Bất kỳ dữ liệu nào bạn có thể thu thập liên tục ở các khoảng thời gian khác nhau đều là dạng dữ liệu chuỗi thời gian. Dưới đây là ví dụ về dữ liệu chuỗi thời gian hiển thị số ca mắc Covid-19 tại Hoa Kỳ được báo cáo cho CDC. Trục x hiển thị thời gian trôi qua, trục y biểu thị trường hợp nhiễm Covid 19 tính bằng đơn vị nghìn. Mặt khác trong thực tế thì một tập dữ liệu thường lưu trữ nhiều hơn một thông tin ở cùng một thời điểm, thí dụ như doanh thu của các cửa hàng trong một chuỗi trong ngày, số lượng trường hợp nhiễm Covid ở các đất nước khác nhau trong cùng một ngày. Chúng được hiểu như là dữ liệu lát cắt (cross-sectional data). Ta có biểu đồ dưới đây chỉ ra những quốc gia có nhiều trường hợp nhiễm Covid nhất trong khoảng thời gian cố định. Không khó phân biệt dữ liệu chuỗi thời gian (time-series data) và dữ liệu lát cắt (cross-sectional data) vì mục tiêu phân tích của 2 bộ dữ liệu này rất khác nhau. Như ví dụ trên: Đầu tiên chúng ta theo số lượng trường hợp nhiễm Covid theo khoảng thời gian. (time-series data). Tiếp theo mới cắt ra theo trường hợp nhiễm theo các đất nước khác nhau theo khoảng thời gian cố định (cross-sectional data).

Một tập dữ liệu thực tế thì có thể sẽ là sự kết hợp của cả 2 dạng dữ liệu này. Ví dụ chúng ta có thể nghĩ đến nhà bán lẻ như “Thế giới di động” có thể bán hàng nghìn sản phẩm mỗi ngày. Thì nếu bạn muốn phân tích dữ liệu bán hàng và lấy ra doanh thu theo loại sản phẩm trong một ngày cụ thể thì đó là phân tích dữ liệu lát cắt (lát cắt ở đây là loại sản phẩm). Còn bạn muốn phân tích về doanh thu bán một mặt hàng cụ thể trong vòng 3 năm qua thì đây là dữ liệu thời gian (dữ liệu chuỗi thời gian ở đây là doanh thu).

(Tiếp theo)

Bình luận

Bài viết tương tự

- vừa được xem lúc

Hành trình AI của một sinh viên tồi

Mình ngồi gõ những dòng này vào lúc 2h sáng (chính xác là 2h 2 phút), quả là một đêm khó ngủ. Có lẽ vì lúc chiều đã uống cốc nâu đá mà giờ mắt mình tỉnh như sáo, cũng có thể là vì những trăn trở về lý thuyết chồng chất ánh xạ mình đọc ban sáng khiến không tài nào chợp mắt được hoặc cũng có thể do mì

0 0 148

- vừa được xem lúc

[Deep Learning] Key Information Extraction from document using Graph Convolution Network - Bài toán trích rút thông tin từ hóa đơn với Graph Convolution Network

Các nội dung sẽ được đề cập trong bài blog lần này. . Tổng quan về GNN, GCN. Bài toán Key Information Extraction, trích rút thông tin trong văn bản từ ảnh.

0 0 219

- vừa được xem lúc

Tìm hiểu về YOLO trong bài toán real-time object detection

1.Yolo là gì. . Họ các mô hình RCNN ( Region-Based Convolutional Neural Networks) để giải quyết các bài toán về định vị và nhận diện vật thể.

0 0 285

- vừa được xem lúc

Encoding categorical features in Machine learning

Khi tiếp cận với một bài toán machine learning, khả năng cao là chúng ta sẽ phải đối mặt với dữ liệu dạng phân loại (categorical data). Khác với các dữ liệu dạng số, máy tính sẽ không thể hiểu và làm việc trực tiếp với categorical variable.

0 0 259

- vừa được xem lúc

TF Lite with Android Mobile

Như các bạn đã biết việc đưa ứng dụng đến với người sử dụng thực tế là một thành công lớn trong Machine Learning.Việc làm AI nó không chỉ dừng lại ở mức nghiên cứu, tìm ra giải pháp, chứng minh một giải pháp mới,... mà quan trọng là đưa được những nghiên cứu đó vào ứng dụng thực tế, được sử dụng để

0 0 72

- vừa được xem lúc

Xây dựng hệ thống Real-time Multi-person Tracking với YOLOv3 và DeepSORT

Trong bài này chúng ta sẽ xây dựng một hệ thống sử dụng YOLOv3 kết hợp với DeepSORT để tracking được các đối tượng trên camera, YOLO là một thuật toán deep learning ra đời vào tháng 5 năm 2016 và nó nhanh chóng trở nên phổ biến vì nó quá nhanh so với thuật toán deep learning trước đó, sử dụng YOLO t

0 0 317