Sơ lược về các mô hình dự đoán Covid phổ biến trên thế giới
Nam Anh
Senior Economic Analyst
Đại dịch Covid-19 đang thúc đẩy vai trò của các mô hình toán học trong các vấn đề của con người. Những dự báo về nó mà các mô hình này đưa ra thực sự là những vấn đề của sự sống và cái chết, giúp con người đưa ra các quyết định trọng yếu như số trang thiết bị y tế cần thiết cho các bệnh viện, đóng cửa doanh nghiệp, hay hạn chế việc đi lại của hàng triệu người.
Tuy nhiên, không nhiều người thực sự hiểu nguyên lý đằng sau các mô hình này. Do đó, trong bài viết này, tôi sẽ đưa ra nhận định dưới góc nhìn của 1 nhà khoa học dữ liệu, nhằm đánh giá mức độ tin cậy của các mô hình này,
Hãy bắt đầu bằng cách xác định như thế nào là 1 mô hình dự đoán hoạt động. Đôi khí nó đơn giản chỉ là vấn đề về độ chính xác, ví dụ, 1 mô hình về thiên văn học tốt sẽ giúp dự đoán thời điểm sao chổi Haley trở lại với độ sai số thấp. Tuy nhiên, ở những trường hợp khác lại phức tạp hơn: các mô hình dịch tễ học trong cuộc khủng hoảng Covid-19 có một mục tiêu kép là dự đoán và thuyết phục. Một mô hình tốt sẽ mang lại cho mọi người cảm giác thực tế về những gì sẽ xảy ra nếu họ không thay đổi hành vi, đồng thời cũng là một bức tranh thuyết phục về kết quả mà họ có thể đạt được nếu họ thực sự thay đổi hành vi.
Nhìn chung, có bốn loại mô hình đang khá nổi bật trong cuộc khủng hoảng hiện nay. Đầu tiên là SIR, các phiên bản đã được sử dụng ở Washington và Pennsylvania. Nó dự báo diễn biến của đại dịch bằng cách tập trung vào ba quần thể: nhóm dễ mắc bệnh (mang lại cơ hội lây lan), nhóm lây nhiễm (giúp xác định tốc độ lây lan) và nhóm đã phục hồi (nếu miễn dịch, sẽ làm chậm sự lây lan).
Tham số quan trọng ở đây là R (t), là số người trung bình mà mỗi người nhiễm bệnh sẽ lây nhiễm (không liên quan gì đến chữ cái R trong SIR). Nếu một loại virus rất dễ lây lan và không bị ngăn cản, R (t) sẽ lớn hơn nhiều so với 1 và nhóm quần thể bị nhiễm bệnh (nhóm lây nhiễm) sẽ tăng theo cấp số nhân, trong trường hợp coronavirus, gây quá tải cho hệ thống y tế. Nếu mọi người cố gắng đẩy R(t) xuống dưới 1 bằng cách ở nhà, đeo khẩu trang và giữ khoảng cách, số ca lây nhiễm sẽ giảm (như đã xảy ra ở thành phố New York). Ngoài ra, R (t) chắc chắn thay đổi theo thời gian: Khi càng nhiều người bị nhiễm bệnh hoặc miễn dịch, nó dần dần về 0.
Khái niệm về R (t) làm cho các mô hình SIR rất thuyết phục. Nó có thể được ước tính từ các dữ liệu sẵn có và mọi người có thể thấy những nỗ lực đẩy nó xuống cũng sẽ làm giảm độ dốc của đồ thị dự báo số ca nhiễm bệnh, nhập viện và tử vong theo thời gian. Nó là thứ con người có thể kiểm soát và theo dõi.
Mặc dù vậy, về mặt dự đoán, các mô hình SIR không ổn cho lắm. Đó là vì những thay đổi nhỏ trong R (t) sẽ tạo ra những thay đổi lớn trong quỹ đạo của dịch bệnh. Nó bắt nguồn từ bản chất của sự tăng trưởng theo cấp số nhân. Điều này giúp giải thích, ví dụ, tại sao tiểu bang New York nghĩ rằng họ sẽ cần hàng chục ngàn máy thở nhưng cuối cùng lại bị dư thừa.
Tiếp theo, có các mô hình lây lan tác tử (agent-based) hoặc cá nhân. Nó có thể tạo ra quần thể gồm hàng triệu người ảo, mỗi người được chỉ định 1 R (t) riêng biệt để có thể lây nhiễm cho gia đình, đồng nghiệp và những người họ gặp ở nơi công cộng, cũng như các thuộc tính khác như xu hướng di chuyển xung quanh. Thật tuyệt vời khi có thể mô hình hóa cách sự lây nhiễm nhanh chóng diễn ra trên các khu vực rộng lớn nếu mọi người ngày càng đi du lịch xa. Nó cũng hết sức thuyết phục, bởi vì nó cho thấy các cá nhân có thể làm chậm sự lây lan bằng cách thay đổi hành vi của họ. Một mô hình như vậy - mô hình ngày 15 tháng 3 của Đại học Hoàng gia Luân Đôn, dự đoán ban đầu là 2.2 triệu người Mỹ sẽ tử vong - đã đóng một vai trò lớn trong việc thuyết phục cả chính quyền Hoa Kỳ và Anh thực hiện các biện pháp mạnh mẽ hơn để ngăn chặn đại dịch.
Về độ chính xác, nó gặp phải các vấn đề tương tự như các mô hình SIR. Rõ ràng, hiện nay, Hoa Kỳ khó có khả năng ghi nhận tới 2.2 triệu ca tử vong, ít nhất là trong làn sóng lây lan thứ nhất. Nhưng cũng ai biết được? Dự đoán như vậy có thể chính xác nếu không có bất cứ biện pháp kiểm soát nào được áp dụng, và cũng vẫn có thể xảy ra nếu mọi người từ chối ở nhà trong tương lai.
Sau đó, lại có mô hình mạng lưới, coi các cá nhân là các nút trong một mạng lưới rộng lớn - giống như những người bạn trong một mạng xã hội như Facebook. Ý tưởng là một số người có xu hướng trở thành nguồn siêu lây nhiễm - bởi vì họ tương tác với rất nhiều người (hoặc rất nhiều người siêu dễ bị tổn thương), hoặc bởi vì họ làm những việc đặc biệt rủi ro, hoặc tất cả những điều trên. Hãy nghĩ đến trường hợp của các y tá, các nhân viên tuyến đầu khác, hoặc các chính trị gia có nhiệm vụ chính là gặp gỡ mọi người.
Các mô hình mạng lưới có thể có giá trị cho các mục đích cụ thể - chẳng hạn như quyết định ai sẽ được tiêm phòng trước, trong trường hợp thiếu hụt vắc-xin. Tiêm phòng cho những người có mạng lưới quan hệ rộng lớn sẽ giúp giảm tối đa R(t), bởi vì họ là một phần của dân số có xu hướng lây nhiễm cao nhất cho những người khác. Nhóm GLEAM tại Đại học Northeastern sử dụng các mô hình mạng lưới để hiểu rõ hơn những yếu tố như việc du lịch bằng máy bay có thể ảnh hưởng đến sự lây nhiễm như thế nào. Giống như SIR và các mô hình tác tử, phương pháp này có sức thuyết phục nhưng độ chính xác lại không cao.
Cuối cùng, có các mô hình hồi quy. Nó chủ yếu sử dụng xu hướng của lịch sử để phỏng đoán tương lai. Nếu, ví dụ, số ca lây nhiễm đang liên tục tăng gấp đôi cứ sau năm ngày, mô hình có thể dự báo rằng xu hướng này sẽ tiếp diễn. Điều này hiếm khi hữu ích, có thể nhận thấy rõ khi quan sát đồ thị số ca nhiễm bệnh theo thời gian của các quốc gia khác nhau. Tất cả đều bắt đầu với sự tăng trưởng theo cấp số nhân, tuy nhiên sau đó sẽ đi theo các con đường riêng tùy thuộc vào các biện pháp ngăn chặn được áp dụng. Chả có quy luật nào ở đây ngoại trừ sự thiếu chính xác hoàn toàn có thể dự đoán được.
Các mô hình hồi quy đã đưa ra một số dự đoán vô cùng ngu ngốc. Có thể kể đến mô hình mà cố vấn Nhà Trắng Kevin Hassett được cho là đã sử dụng để dự đoán rằng số ca tử vong do Covid-19 sẽ giảm xuống 0 trong 10 ngày. Các mô hình này cũng hoàn toàn không thuyết phục, bởi nó không có bất cứ tham số nào để có thể mô phỏng các kịch bản thay thế- hay nói cách khác, chúng không nói cho bạn cách bạn có thể thay đổi tương lai. Những người xây dựng mô hình này chỉ đơn giản cho rằng tương lai sẽ lặp lại như quá khứ.
Bạn có thể nhận thấy rằng các mô hình hiệu quả đều có chung sự hiện diện của yếu tố R (t). Tôi là một fan hâm mộ của khái niệm này, vì vậy tôi nghĩ rằng tôi sẽ viết về nó nhiều hơn.
Quan điểm của Cathy O’Neil - một tác giả thuộc chuyên mục vĩ mô của Bloomberg. Bà là một nhà toán học, từng làm giáo sư, nhà phân tích quỹ phòng hộ và nhà khoa học dữ liệu. Bà thành lập ORCAA, một công ty kiểm toán sử dụng thuật toán, đồng thời là tác giả của cuốn “Weapon of Math Destruction”.