- vừa được xem lúc

Tập hợp các câu hỏi phỏng vấn trong cuốn DEEP LEARNING INTERVIEWS (ví dụ Dịch bệnh Ebola)

0 0 4

Người đăng: Phan Ngoc

Theo Viblo Asia

REAL-WORLD DEEP LEARNING INTERVIEW

Muốn cuốn sách khá hay cho a.e ôn luyện các thuật toán deep learning 😀

PROBLEMS & SOLUTIONS

  • Logistic Regression
  • Information Theory
  • Calculus
  • Algorithmic Differentiation
  • Bayesian Deep Learning
  • Probabilistic Programming
  • Ensemble Learning
  • CNN Feature Extraction
  • Deep Learning: Expanded Chapter second edition

https://arxiv.org/pdf/2201.00650

Ví dụ 1 bài toán, PRB-56 CH.PRB- 3.27.

Dịch bệnh Ebola ở Tây Phi năm 2014 (Hình 9.10) đã trở thành đợt bùng phát lớn nhất và lan rộng nhanh nhất của căn bệnh này trong lịch sử hiện đại [2] với số ca tử vong vượt xa tất cả các đợt bùng phát trước đây cộng lại. Ebola (được đặt tên theo sông Ebola ở Zaire) lần đầu tiên xuất hiện vào năm 1976 ở Sudan và Zaire và đã lây nhiễm cho hơn 284 người với tỷ lệ tử vong là 53%.

HÌNH 3.9: Virus Ebola.

Đợt bùng phát hiếm hoi này nhấn mạnh thách thức mà các đội ngũ y tế đang đối mặt trong việc ngăn chặn dịch bệnh. Một nhà khoa học dữ liệu cấp thấp tại Trung tâm Kiểm soát Dịch bệnh (CDC) đã mô hình hóa khả năng lây lan và kiểm soát virus Ebola bằng một mô phỏng số. Anh ta biết rằng trong một quần thể gồm k người (số lần thử), có x người mang virus (thành công theo thuật ngữ thống kê). Anh ta tin rằng khả năng mẫu của virus trong quần thể tuân theo phân phối Nhị thức:

L(γy)=(ny)γy(1γ)ny,γ[0,1],y=1,2,...,nL(\gamma | y) = \binom{n}{y} \gamma^y (1-\gamma)^{n-y}, \gamma \in [0,1], y = 1,2,...,n

Là nhà nghiên cứu cấp cao trong nhóm, bạn hướng dẫn anh ta rằng tham số quan tâm là γ, tỷ lệ người bị nhiễm bệnh trong toàn bộ dân số. Kỳ vọng và phương sai của phân phối nhị thức là:

E(yγ,n)=nγ,V(yγ,n)=nγ(1γ)E(y|\gamma, n) = n\gamma, V(y|\gamma, n) = n\gamma(1-\gamma)

Trả lời các câu hỏi sau đây; cho hàm hợp lý dạng Lx(γ):

  1. Tìm hàm log-hợp lý lx(γ) = ln Lx(γ).
  2. Tìm gradient của lx(γ).
  3. Tìm ma trận Hessian H(γ).
  4. Tìm thông tin Fisher I(γ).
  5. Trong quần thể bao gồm 10.000 cá nhân, 300 người đã bị nhiễm Ebola. Tìm MLE cho γ và sai số chuẩn liên quan đến nó.

Câu trả lời:

Tôi sẽ giải quyết từng bước bài toán về mô hình hóa dịch bệnh Ebola sử dụng ước lượng hợp lý cực đại.

1. Tìm hàm log-hợp lý lx(γ)=lnLx(γ)l_x(\gamma) = \ln L_x(\gamma)

Bắt đầu với hàm hợp lý nhị thức:

L(γy)=(ny)γy(1γ)nyL(\gamma | y) = \binom{n}{y} \gamma^y (1-\gamma)^{n-y}

Lấy logarit tự nhiên:

lx(γ)=ln(ny)+yln(γ)+(ny)ln(1γ)l_x(\gamma) = \ln\binom{n}{y} + y\ln(\gamma) + (n-y)\ln(1-\gamma)

Lưu ý rằng ln(ny)\ln\binom{n}{y} là hằng số đối với γ\gamma, vì vậy khi tìm MLE, ta có thể làm việc với:

lx(γ)yln(γ)+(ny)ln(1γ)l_x(\gamma) \propto y\ln(\gamma) + (n-y)\ln(1-\gamma)

2. Tìm gradient của lx(γ)l_x(\gamma)

Lấy đạo hàm của lx(γ)l_x(\gamma) theo γ\gamma:

dlx(γ)dγ=yγny1γ\frac{dl_x(\gamma)}{d\gamma} = \frac{y}{\gamma} - \frac{n-y}{1-\gamma}

3. Tìm ma trận Hessian H(γ)H(\gamma)

γ\gamma là tham số vô hướng, Hessian chỉ là đạo hàm bậc hai:

H(γ)=d2lx(γ)dγ2=yγ2ny(1γ)2H(\gamma) = \frac{d^2l_x(\gamma)}{d\gamma^2} = -\frac{y}{\gamma^2} - \frac{n-y}{(1-\gamma)^2}

4. Tìm thông tin Fisher I(γ)I(\gamma)

Thông tin Fisher là giá trị kỳ vọng âm của Hessian:

I(γ)=E[H(γ)]=E[yγ2+ny(1γ)2]I(\gamma) = -E[H(\gamma)] = E\left[\frac{y}{\gamma^2} + \frac{n-y}{(1-\gamma)^2}\right]

E(y)=nγE(y) = n\gamma, ta có:

I(γ)=nγγ2+nnγ(1γ)2=nγ+n(1γ)(1γ)2=nγ+n1γ=nγ(1γ)I(\gamma) = \frac{n\gamma}{\gamma^2} + \frac{n-n\gamma}{(1-\gamma)^2} = \frac{n}{\gamma} + \frac{n(1-\gamma)}{(1-\gamma)^2} = \frac{n}{\gamma} + \frac{n}{1-\gamma} = \frac{n}{\gamma(1-\gamma)}

5. Tìm MLE cho γ\gamma và sai số chuẩn

Để tìm MLE, ta đặt gradient bằng không và giải phương trình cho γ\gamma:

yγny1γ=0\frac{y}{\gamma} - \frac{n-y}{1-\gamma} = 0

Nhân cả hai vế với γ(1γ)\gamma(1-\gamma):

y(1γ)(ny)γ=0y(1-\gamma) - (n-y)\gamma = 0

yyγnγ+yγ=0y - y\gamma - n\gamma + y\gamma = 0

ynγ=0y - n\gamma = 0

γ=yn\gamma = \frac{y}{n}

Với thông tin 300 trong số 10.000 người bị nhiễm bệnh:

γ^MLE=30010.000=0,03\hat{\gamma}_{MLE} = \frac{300}{10.000} = 0,03

Sai số chuẩn được tính bằng cách sử dụng thông tin Fisher:

SE(γ^)=1I(γ^)=γ^(1γ^)n=0,03×0,9710.0000,00171SE(\hat{\gamma}) = \sqrt{\frac{1}{I(\hat{\gamma})}} = \sqrt{\frac{\hat{\gamma}(1-\hat{\gamma})}{n}} = \sqrt{\frac{0,03 \times 0,97}{10.000}} \approx 0,00171

Do đó, MLE cho tỷ lệ cá nhân bị nhiễm bệnh là 0,03 (3%) với sai số chuẩn khoảng 0,00171.

Bình luận

Bài viết tương tự

- vừa được xem lúc

Thuật toán quay lui (Backtracking)

Quay lui là một kĩ thuật thiết kế giải thuật dựa trên đệ quy. Ý tưởng của quay lui là tìm lời giải từng bước, mỗi bước chọn một trong số các lựa chọn khả dĩ và đệ quy.

0 0 54

- vừa được xem lúc

Các thuật toán cơ bản trong AI - Phân biệt Best First Search và Uniform Cost Search (UCS)

Nếu bạn từng đọc các thuật toán trong AI (Artificial Intelligence - Trí tuệ nhân tạo), rất có thể bạn từng nghe qua về các thuật toán tìm kiếm cơ bản: UCS (thuộc chiến lược tìm kiếm mù) và Best First Search (thuộc chiến lược tìm kiếm kinh nghiệm). Khác nhau rõ từ khâu phân loại rồi, thế nhưng hai th

0 0 176

- vừa được xem lúc

Sử dụng vector trong lập trình C++ - giải bài toán lập trình muôn thủa

Chào buổi tối mọi người, hôm nay lang thang trên mạng bắt gặp bài toán quen thuộc một thời của quãng đường sinh viên IT. Đấy chính là câu số 1 trong đề thi dưới đây:.

0 0 64

- vừa được xem lúc

MÔ PHỎNG THUẬT TOÁN VƯƠNG HẠO TRONG PROLOG

. 1. Các luật suy diễn trong thuật toán Vương Hạo. Luật 1: Chuyển vế các giả thuyết và kết luận ở dạng phủ định. Ví dụ: p v q, !(r ^ s), !q, p v r -> s, !p <=> p v q, p v r, p -> s, r ^ s, q.

0 0 95

- vừa được xem lúc

A* Search Algorithm

What is A* Search Algorithm. How it works. . Explanation.

0 0 60

- vừa được xem lúc

Python: Jump Search

Search là một từ khóa khá là quen thuộc đối với chúng ta. Hiểu theo đúng nghĩa đen của nó chính là "Tìm kiếm".

0 0 56