Tóm tắt
Mục tiêu: Đánh giá độ tin cậy và độ phù hợp của hai AI chatbot gồm Copilot và Gemini Pro trong cung cấp những thông tin để trả lời các câu hỏi về triệu chứng, chẩn đoán, điều trị, chăm sóc, tư vấn và dự phòng thông thường của người bệnh; Phân tích một số yếu tố liên quan đến điểm đánh giá của hai AI chatbot này.
Phương pháp nghiên cứu: Nghiên cứu cắt ngang so sánh 2 cơ sở dữ liệu của 246 câu hỏi về sức khỏe, bệnh tật và 492 câu trả lời của hai chatbot Copilot và Gemini Pro vào tháng 1 năm 2026. Mỗi câu trả lời được đánh giá độc lập bởi 1 bác sỹ và 1 điều dưỡng chuyên khoa (theo 5 bệnh).
Kết quả: Cả hai AI chatbot Gemini Pro và Copilot có độ tin cậy khá cao, với tất cả câu hỏi có điểm trung vị đều ≥ 4, điểm trung bình đạt từ 3,9 đến 4,7 trên thang 5 điểm. Tỷ lệ các câu trả lời ở mức đạt có tỷ lệ cao, với trên 81% do bác sỹ đánh giá Copilot, và 99,6% do điều dưỡng đánh giá Gemini. Mức độ đồng thuận giữa bác sĩ và điều dưỡng đối với Gemini rất cao (Kappa = 0,83) so với mức trung bình của Copilot (Kappa = 0,59). Một số yếu tố liên quan được chỉ ra: điều dưỡng viên có xu hướng đánh giá cao hơn so với bác sỹ, Gemini Pro được đánh giá cao hơn Copilot, độ phù hợp gemini tốt hơn copilot.
Kết luận: Hai chatbot Copilot và Gemini Pro với độ tin cậy cao có thể sử dụng như trợ lý ảo cho công tác tư vấn của thầy thuốc.
Từ khóa
Tài liệu tham khảo
Colak D, Yakut B, Agin A. Comparison of the accuracy, comprehensiveness, and readability of ChatGPT, Google Gemini, and Microsoft Copilot on dry eye disease. Beyoglu Eye J. 2025;10(3):168-174. doi: 10.14744/bej.2025.76743.
Cook DA. Creating virtual patients using large language models: scalable, global, and low cost. Med Teach. 2025 Jan;47(1):40-42. doi: 10.1080/0142159X.2024.2376879
Li D, Lutfi SL. Large language model–based virtual patient systems for history-taking in medical education: a comprehensive systematic review. JMIR Med Inform. 2026;14:e79039. Published January 2, 2026. doi:10.2196/79039
Ito S, Furukawa E, Okuhara T, Okada H, Kiuchi T. Leveraging artificial intelligence chatbots for anemia prevention: a comparative study of ChatGPT-3.5, Copilot, and Gemini outputs against Google Search results. PEC Innov.2025;6:100390. Published April 1, 2025. doi:10.1016/j.pecinn.2025.100390
Sabaner MC, Yozgat Z. Performance of ChatGPT-4 Omni and Gemini 1.5 Pro on ophthalmology-related questions in the Turkish Medical Specialty Exam. Turk J Ophthalmol. 2025 Aug 21;55(4):177-185. doi: 10.4274/tjo.galenos.2025.27895.
Urda-Cîmpean AE, Leucuta DC, Drugan C, Dutu AG, et al. Assessing the accuracy of diagnostic capabilities of large language models. Diagnostics (Basel). 2025 Jun 29;15(13):1657. doi: 10.3390/diagnostics15131657.
World Health Organization. Ethics and governance of artificial intelligence for health: guidance on large multi-modal models. Geneva, Switzerland: World Health Organization; 2024.
công trình này được cấp phép theo Creative Commons Attribution-phi thương mại 4.0 International Giấy phép . p>
Bản quyền (c) 2026 Tạp chí Khoa học Điều dưỡng