Cảm ơn bạn đã ghé thăm thiên nhiên.com.Bạn đang sử dụng phiên bản trình duyệt có hỗ trợ CSS hạn chế.Để có được trải nghiệm tốt nhất, chúng tôi khuyên bạn nên sử dụng trình duyệt cập nhật hơn (hoặc tắt chế độ tương thích trong Internet Explorer).Trong thời gian chờ đợi, để đảm bảo hỗ trợ liên tục, chúng tôi sẽ hiển thị trang web không có kiểu và JavaScript.
Báo cáo Khoa học tập 13, Bài báo số: 3477 (2023 ) Trích dẫn bài viết này Giải pháp chống khủng bố

Chi tiết số liệu
Một số thuật toán trí tuệ nhân tạo đã được phát triển cho các chủ đề liên quan đến COVID-19.Một điều phổ biến là chẩn đoán COVID-19 bằng cách sử dụng chụp X-quang ngực, trong đó mong muốn có được kết quả sớm đã kích hoạt việc xây dựng một loạt bộ dữ liệu mà việc quản lý sai lệch chưa được thấu đáo từ quan điểm của thông tin bệnh nhân, nắm bắt điều kiện, mất cân bằng lớp và hỗn hợp bất cẩn của nhiều bộ dữ liệu.Bài viết này phân tích 19 bộ dữ liệu về hình ảnh X-quang ngực COVID-19, xác định các sai lệch tiềm ẩn.Hơn nữa, các thử nghiệm tính toán đã được tiến hành bằng cách sử dụng một trong những bộ dữ liệu phổ biến nhất trong miền này, đạt được độ chính xác phân loại 96,19% trên bộ dữ liệu hoàn chỉnh.Tuy nhiên, khi được đánh giá bằng công cụ đạo đức Aequitas, nó không thành công trên tất cả các chỉ số.Các công cụ đạo đức được tăng cường với một số cân nhắc về chất lượng hình ảnh và phân phối là chìa khóa để phát triển hoặc chọn tập dữ liệu có ít vấn đề thiên vị hơn.Chúng tôi mong muốn cung cấp nghiên cứu rộng rãi về các vấn đề, công cụ và đề xuất về bộ dữ liệu để phát triển bộ dữ liệu trong tương lai và các ứng dụng COVID-19 bằng cách sử dụng hình ảnh X-quang ngực.
Kể từ lần đầu tiên xuất hiện vào tháng 12 năm 2019 tại Vũ Hán, Trung Quốc1, vi-rút corona chủng mới đã trở thành đại dịch toàn cầu vào ngày 11 tháng 3 năm 20202. Với sự phát triển theo cấp số nhân và việc thiếu vắc-xin hoặc phương pháp điều trị sớm, các chuyên gia y tế đã tập trung vào chẩn đoán sớm căn bệnh này.
Phản ứng chuỗi polymerase phiên mã ngược (RT-PCR) là xét nghiệm chẩn đoán hàng đầu đối với COVID-19.Tuy nhiên, thời gian xử lý kéo dài và chi phí cao;tăng cường tình trạng này với nhiều xét nghiệm mỗi ngày làm cho chẩn đoán chậm.Trong các trường hợp, việc tách bệnh nhân và điều trị hiệu quả không hỗ trợ chẩn đoán sớm3.Một số nghiên cứu đã chỉ ra rằng kết quả chụp X quang ngực (CXR) và chụp cắt lớp vi tính là điển hình của bệnh viêm phổi liên quan đến COVID-194,5,6.Với chi phí thấp hơn so với chụp cắt lớp vi tính, hình ảnh X-quang là tài sản quý giá để nhận dạng (phân loại) và tiên lượng COVID-19 (Phân tích phân loại để biết cách điều trị tốt nhất)7.Đặc biệt, nghiên cứu đã tập trung vào việc phát triển các mô hình trí tuệ nhân tạo (AI) để hỗ trợ chẩn đoán COVID-19 bằng hình ảnh y tế8,9,10.
Việc sử dụng AI trong chẩn đoán và phân loại bệnh nhân nghi ngờ mắc COVID-19 có thể tăng cường nhiệm vụ phân biệt các trường hợp mắc COVID-19 với các trường hợp khác, ngay cả khi có một loại bệnh viêm phổi khác đi kèm.Tuy nhiên, một số người cho rằng có thể phân biệt các vấn đề về COVID-19 với những vấn đề bình thường và những vấn đề viêm phổi do vi khuẩn hoặc vi rút.Sự không chắc chắn tiềm ẩn này có thể là một hạn chế đối với ứng dụng lâm sàng phù hợp, vì thuật toán có thể không xác định được bệnh, điều này có thể dẫn đến chẩn đoán dương tính giả hoặc âm tính giả.Các mô hình có độ chính xác cao được trình bày trong tài liệu, nhưng các bài báo tập trung vào việc thu được kết quả có độ chính xác cao nhưng không xem xét các sai lệch có thể có trong bộ dữ liệu được sử dụng.Do đó, một số bài báo trước đây đã nghiên cứu về độ lệch trong các bộ dữ liệu liên quan đến hình ảnh X-quang ngực trong COVID-1911,12,13.
Trong bài báo này, chúng tôi tìm kiếm 46 bài báo sử dụng AI để phát hiện hoặc phân loại COVID-19 trên hình ảnh chụp X-quang ngực, với kết quả chính xác cao hơn 90.
Như các bài báo này cho thấy, bộ dữ liệu COVID-19 đã được phát triển trong bối cảnh gia tăng sự kiện đại dịch do sự lây lan của COVID-19 gây ra.Do không có bộ dữ liệu tương tự trước quy trình lấy mẫu và việc lựa chọn bệnh nhân phù hợp hiếm khi được thực hiện, nên hầu hết các bộ dữ liệu này là hình ảnh có thể chứa hoặc không chứa COVID-19 của một hoặc nhiều tổ chức y tế.Công việc trước đây về phát hiện COVID-1914 và phát triển bộ dữ liệu sử dụng hình ảnh của SES Hospital de Caldas, sau một số thử nghiệm, cho thấy rằng các xét nghiệm tại bệnh viện không đạt yêu cầu, ngay cả khi kết quả đào tạo và xét nghiệm cao.Chúng tôi nhận thấy sự thiên vị về thiết bị được sử dụng để chụp ảnh.Một bộ dữ liệu được cải thiện đã tính đến sự thiên vị có thể xảy ra và cố gắng tránh nó;đã được phát triển gần đây15.
Sau khi nghiên cứu siêu dữ liệu được cung cấp bởi một số bộ dữ liệu được sử dụng nhiều nhất, chúng tôi nhận thấy rằng về đặc điểm bệnh nhân và điều kiện chụp đôi khi chỉ được cung cấp hoặc chúng cần được cấu trúc tốt hơn.Tuy nhiên, những bài báo này yêu cầu nghiên cứu sâu hơn về những sai lệch có thể xảy ra (và nguồn gốc của những sai lệch đó là gì) và chỉ ra cách đo lường sai lệch trong tập dữ liệu.
Với sự phát triển của AI trên toàn thế giới, nhiều thuật toán đã được chứng minh là có chứa một số loại sai lệch.Đạo đức AI bắt đầu phát triển như một chủ đề nghiên cứu.Một số hướng dẫn đã chứng minh tính hiệu quả trong việc điều chỉnh sự phát triển của AI và tuân theo các tiêu chí đạo đức16,17,18.Theo xu hướng này, chúng tôi đã có động lực để phát triển một thử nghiệm hai giai đoạn, trong đó chúng tôi có thể chứng minh các sai lệch, dựa trên các nghiên cứu y học chứng minh rằng hình ảnh thay đổi (hoặc bị ảnh hưởng) tùy thuộc vào điều kiện chụp và đặc điểm của bệnh nhân, sau đó thực hiện thử nghiệm tương đương với kiểm tra các mô hình bằng các công cụ đạo đức và quy trình thống kê.Do đó, những đóng góp của bài báo này trước tiên là chúng tôi không chỉ nhằm mục đích cung cấp một lập luận sâu sắc hơn với các sự thật rằng các bộ dữ liệu có sai lệch mà chúng tôi còn tiến hành một thử nghiệm cụ thể trên bộ dữ liệu được sử dụng nhiều nhất được tìm thấy.Thứ hai, chúng tôi sử dụng một công cụ đạo đức có tên là Aequitas19 để xác định các thành kiến về vị trí, giới tính và tuổi tác, trong số những thứ khác, trong một thử nghiệm với 96,19
Phần còn lại của bài báo được tổ chức như sau.Đầu tiên, Phần “Tổng quan về cơ sở dữ liệu” trình bày chiến lược tìm cơ sở dữ liệu và các bài viết tương ứng của chúng.Tổng quan về thông tin của cơ sở dữ liệu được đưa ra trong Phần “Xu hướng liên quan đến bộ dữ liệu”.Phần “Phương pháp xác định sai lệch trong bộ dữ liệu COVID-19” trình bày phân loại các loại sai lệch cho vấn đề này.Mặc dù trong phần “Phương pháp xác định thành kiến trong bộ dữ liệu COVID-19”, phương pháp xác định thành kiến có trong cơ sở dữ liệu COVID-19 được mô tả.Thử nghiệm sử dụng bộ dữ liệu của Cohen20 và kết quả của công cụ đạo đức được trình bày trong Phần “Thảo luận”.Chúng tôi kết thúc bằng phần thảo luận về các thành kiến và phân tích công cụ đạo đức trong Phần “Kết luận và khuyến nghị”, và phần kết luận của nghiên cứu với một số khuyến nghị trong Phần “Công việc trong tương lai”.
Chúng tôi tìm kiếm các bài báo trên cơ sở dữ liệu tạp chí như ScienceDirect, PubMed, IEEE và Google Scholar và các kho phần mềm như GitHub hoặc Kaggle.Tìm kiếm này nhằm mục đích tìm tài liệu liên quan đến việc phát hiện, phân loại, chẩn đoán, tiên lượng hoặc phân loại COVID-19 trên hình ảnh X-quang ngực (CXR).Phát hiện, phân loại và chẩn đoán có thể được coi là một nhiệm vụ phân loại trong đó các trường hợp Covid được so sánh với một nhóm hình ảnh kiểm soát.Trong khi đó, nhiệm vụ phân loại bao gồm so sánh các trường hợp dương tính với COVID-19 để biết mức độ nghiêm trọng của ảnh hưởng và dự đoán khả năng xảy ra trong tương lai cho bệnh nhân.Về tiêu chí bài viết bị loại trừ, chúng tôi đã tìm thấy các thông số sau.
Các bài báo sử dụng một loại dữ liệu khác với hình ảnh X-quang Ngực để phân loại hoặc phân loại (Ví dụ CT và các ứng dụng xác thực chẩn đoán khác).
Bộ dữ liệu được sử dụng đang mở.Chỉ có hai bài báo có bộ dữ liệu riêng tư và chỉ để hiển thị rằng các bộ dữ liệu không thể có xác thực Xu hướng.
Chúng tôi tránh các bài viết đánh giá.
Trong những phần này, đối với hầu hết các bài báo, chúng tôi không xem xét bài báo trong đó tập dữ liệu được trình bày.
Chúng tôi đã tìm thấy tổng cộng 46 bài báo;39 tương ứng với nhiệm vụ phân loại8,9,10,14,21,22,23,24,25,26,27,28,29,30,31,32,33,34,35,36,37,38,39 ,40,41,42,43,44,45,46,47,48,49,50,51,52,53,54,55,5 cho tác vụ phân loại56,57,58,59,60 và hai do cả hai nhiệm vụ61,62.
Bảng 1 Chứa số lượng đối tượng trong cơ sở dữ liệu và siêu dữ liệu của từng cơ sở dữ liệu, với điều này, chúng có thể được liên kết nếu có các nhãn được chia sẻ trong bộ dữ liệu và nếu phân phối của các nhãn tương tự nhau để có thể xem xét hỗn hợp của các bộ dữ liệu để tránh sai lệch ban đầu do phân phối không đều, tài liệu tham khảo của các bài báo đó và nơi tải xuống cơ sở dữ liệu.Nếu cơ sở dữ liệu không có sẵn, nó tương ứng với cơ sở dữ liệu riêng.
Sau khi tìm kiếm, chúng tôi đã thu được 21 bộ dữ liệu, một số có một phần của những bộ khác và một số không xuất hiện trong Bảng 1 vì chúng là sự kết hợp của các bộ dữ liệu được đề cập.Trên Bộ dữ liệu hỗn hợp, có thể tìm thấy COVIDx (do Cohen soạn, Hình 1, Actualmed, Đại học Qatar và bộ dữ liệu RSNA Pneumonia cho các hình ảnh kiểm soát xuất hiện trong Bảng 2), QaTa (do SIRM, Radiopaedia và Chest Imaging soạn), BrixIA ( chứa một phần Cohen với một vài thay đổi), RSNA, Radiopaedia và SIRM (bộ dữ liệu nhỏ thường được sử dụng cùng nhau), COVID-QU (chứa QaTa, kho lưu trữ Covid GitHub, Eurorad, Cohen, SIRM, Đại học Qatar, Hình ảnh COVID-CXNet , RSNA, Hình ảnh X-quang ngực (Viêm phổi) và Padchest) là bộ dữ liệu lớn nhất hiện có được tìm thấy cùng với việc bổ sung rằng mọi hình ảnh trên bộ dữ liệu đều có mặt nạ phân đoạn phổi và RYDLS(Cohen cho covid, Radiopaedia cho bệnh thủy đậu và Mers và Ngực X-quang 8 cho bình thường).Mặt khác, có những bộ dữ liệu riêng tư, nghĩa là không có quyền truy cập mở để tải chúng xuống.Các bộ dữ liệu trong tình trạng này là Henry Ford Health System và CHUAC.Tương tự, chúng tôi có thể truy cập các nguồn khác có sẵn theo yêu cầu, chẳng hạn như BrixIA (để lấy bộ dữ liệu hoàn chỉnh), AlforCOVID và nd BIMCV.Phần còn lại của bộ dữ liệu được mở hoàn toàn mà không có bất kỳ yêu cầu nào.
Chúng tôi tin rằng ba khía cạnh chính đặc trưng cho các bộ dữ liệu này.Đầu tiên, kích thước của bộ dữ liệu, sau đó là loại hình ảnh và cuối cùng nhưng không kém phần quan trọng là siêu dữ liệu được liên kết với bộ dữ liệu nói chung.Về kích thước tập dữ liệu, Hình 1 hiển thị số lượng và tỷ lệ phần trăm của các loại hình ảnh trong mỗi tập dữ liệu.
Số lượng và Tỷ lệ hình ảnh theo một bệnh lý cụ thể trên mỗi bộ dữ liệu.
Hình ảnh COVID-19 được xác thực theo hai cách, thứ nhất, bằng xét nghiệm chẩn đoán như RT-PCR hoặc bằng cách xác thực các phát hiện đặc điểm của một chuyên gia.Các bệnh lý khác tương ứng với bất kỳ bệnh lý nào không phải là Viêm phổi hoặc Covid.Các trường hợp không thể kết luận không có chẩn đoán chắc chắn hoặc báo cáo X quang không chứa chẩn đoán liên quan.KHÔNG PHẢI COVID-19 là danh mục kiểm soát nhóm các hình ảnh có bệnh lý đa dạng và bệnh nhân khỏe mạnh.Điều này chủ yếu được sử dụng trong phân loại nhị phân để các mô hình có thể phát hiện chẩn đoán COVID trong số nhiều hình ảnh có thể có, không chỉ các loại bệnh viêm phổi khác hoặc hình ảnh Bình thường.
Về mặt nội dung của bộ dữ liệu, điều này đề cập đến định dạng hình ảnh (thường là DICOM hoặc PNG).Chế độ xem hình ảnh để bao phủ khu vực trong phân loại trước sau (AP), sau trước (PA) hoặc các chế độ xem tương tự được sử dụng hàng đầu và kiểm tra bên thường được tránh.
Có một số phân phối đặc biệt trên một số siêu dữ liệu cho bộ dữ liệu.Hình 2 cho thấy phân phối không điển hình cho Độ tuổi và Hình 3 cho thấy phân phối ngày của Nghiên cứu Cohen khác với những gì đáng lẽ phải có do thông tin đến từ nhiều nguồn khác nhau.Có vấn đề với nhãn thích hợp của siêu dữ liệu.Để biết thêm chi tiết về siêu dữ liệu của bộ dữ liệu, Bảng 1, Hình.1 và 2 của tài liệu bổ sung hiển thị thông tin đầy đủ hơn về siêu dữ liệu của từng cơ sở dữ liệu COVID.
Siêu dữ liệu của một số bộ dữ liệu liên quan đến tuổi của bệnh nhân với các bản phân phối đặc biệt.
Siêu dữ liệu tập dữ liệu Cohen liên quan đến ngày nghiên cứu (cho thấy sự không nhất quán trên nhãn dữ liệu này).
Đối với các bộ dữ liệu này, điều quan trọng là phải xem xét mức độ nguy hại của việc kết hợp cơ sở dữ liệu COVID-19 tích cực và tiêu cực.Bảng 2 cho thấy các cơ sở dữ liệu được sử dụng để kiểm soát hoặc liên kết với các bệnh khác, với cùng thông tin như được cung cấp trong Bảng 1.
Như Bảng 2 cho thấy có tám bộ dữ liệu hình ảnh kiểm soát được sử dụng.Hầu hết các bộ dữ liệu này được sử dụng cho các nhiệm vụ Viêm phổi, chẳng hạn như các nhiệm vụ phát hiện và mức độ nghiêm trọng hoặc phân loại.Tuy nhiên, cũng có các bộ dữ liệu để phân đoạn phổi và chỉ đơn giản là ghi nhớ tia X quan trọng về các bệnh lý khác nhau.Không có bộ dữ liệu riêng tư nào trong số đó và theo yêu cầu, chúng tôi đã tìm thấy CheXpert và JSRT.Phần còn lại đang mở, nhưng bộ dữ liệu RSNA Pneumonia Detection Challenge được sử dụng trong nhiều thử nghiệm và là một phần của bộ dữ liệu COVIDx là một tập hợp con của X-quang Ngực 8 và X-quang Ngực 8 trong phiên bản cuối cùng của nó còn được gọi là X-quang Ngực 14 Ngoài ra, Hình ảnh X-quang Ngực (Viêm phổi) là một dự án kết hợp với Chụp cắt lớp mạch lạc quang học để nó cũng có thể được tìm thấy dưới dạng “Bộ dữ liệu lớn về Chụp cắt lớp mạch lạc quang học được dán nhãn (OCT) và Hình ảnh X-quang ngực”85.Đối với những kết quả tích cực, Hình 4 hiển thị tỷ lệ phần trăm và số lượng hình ảnh liên quan đến các bệnh lý cụ thể.
Số lượng và Tỷ lệ hình ảnh theo một bệnh lý cụ thể trên mỗi Control dataset.
Về cơ sở dữ liệu Kiểm soát, siêu dữ liệu được liên kết đôi khi được sắp xếp hợp lý hơn.Tuy nhiên, chúng tôi cũng tìm thấy các đặc điểm lạ như hình ảnh X-quang Ngực (Viêm phổi) và các đặc điểm về độ tuổi không được chỉ định, nhưng CXR là từ một bệnh viện nhi.Để biết thêm chi tiết về siêu dữ liệu của bộ dữ liệu Kiểm soát, hãy làm theo Bảng 2 và Hình 3 của tài liệu bổ sung.
Sự thiên vị trong AI có thể đến từ nhiều nguồn và điều cần thiết là phát triển các hệ thống công bằng, tạo ra sự thiên vị thấp nhất và dựa vào các công cụ đạo đức trong AI để ngăn người mẫu phân biệt chủng tộc hoặc phân biệt giới tính, tạo ra các vấn đề về phân biệt đối xử và các giả định có thể làm giảm tỷ lệ hiệu suất của mô hình, dẫn đến việc sử dụng các công cụ này thiếu độ tin cậy.Về hình ảnh y tế, nhiều yếu tố có thể ảnh hưởng đến hiệu suất của sai lệch tạo mô hình.Chúng tôi muốn nhóm theo xu hướng liên quan đến Phát hiện hoặc Phân loại COVID-19 trong CXR thành bốn nhóm có thể.Một số bài báo trước đây đã chỉ ra rủi ro sai lệch có thể xảy ra trong bộ dữ liệu này86.
Mọi người có những đặc điểm khác nhau và các đặc điểm thể chất chủ yếu khiến hình ảnh trông khác nhau và các bệnh lý biểu hiện khác nhau.Do đó, trong những trường hợp này, chúng tôi cho rằng có bốn lý do chính khiến bộ dữ liệu có thể có sai lệch khi tính đến thông tin của bệnh nhân.
Giới tính Giới tính có thể ảnh hưởng đến CXR chủ yếu do mô vú ở một số phụ nữ bị mờ ở một số phần của hình ảnh, do đó, bộ dữ liệu có số lượng phụ nữ cao so với nam giới có thể tạo ra một số sai lệch trong giai đoạn đầu của COVID-19 vì hình ảnh ban đầu nhiều hơn một chút mờ mịt.
Độ tuổi Độ tuổi ảnh hưởng đến những hình ảnh này theo hai cách.Đầu tiên, những bệnh nhân có nhiều hình ảnh hơn thường đã già, vì vậy phân bố tuổi thường là 60–80 tuổi.Ngoài ra, phim chụp X-quang cho trẻ em không chỉ có ngực (trong ảnh còn xuất hiện các bộ phận khác trên cơ thể bệnh nhân).Do đó, hình ảnh khác với những hình ảnh khác và số lượng ít hơn đáng kể.Tuổi tác ảnh hưởng đến độ mờ của hình ảnh về mật độ xương.Một số người lớn tuổi có kết quả chụp X quang đối với một số thói quen như hút thuốc.
Phân phối bệnh nhân Nhãn của bệnh nhân cực kỳ quan trọng vì trong thời điểm phân tách dữ liệu để đào tạo và thử nghiệm, việc sử dụng cùng một bệnh nhân trên cả hai bộ dữ liệu có thể tạo ra mô hình xác định bệnh nhân chứ không phải bệnh lý (quá phù hợp).
Đặc điểm nhân khẩu học Các đặc điểm của dân số nói chung thay đổi ở mọi cộng đồng trên hành tinh, do đó, bộ dữ liệu với nhiều quốc gia trong đó có nhiều hình ảnh từ một bệnh viện/thành phố/quốc gia hơn những nơi khác tạo ra các đặc điểm, sự tiến hóa và thiết bị của bệnh nhân được sử dụng để chụp những hình ảnh thay đổi.Những thay đổi này có thể khiến mô hình bị sai lệch khi nhận dạng hình ảnh đến từ một vị trí cụ thể.
Đối với nhóm sai lệch này, Hình 5 cho thấy sự so sánh giữa hình ảnh trẻ em từ Hình ảnh X-quang Ngực (Viêm phổi), cụ thể là person_97_virus_180.jpeg và hai hình ảnh người lớn (nejmc2001573_f1a.jpeg và 7EF28E12-F628-4BEC-A8C5-E6277C2E4F60 .png) thuộc giới tính khác nhau của bộ dữ liệu Cohen tương ứng với cả hai trường hợp COVID-19.
Ví dụ về sai lệch liên quan đến thông tin của bệnh nhân.
Cách một hình ảnh được chụp là rất quan trọng.Nó có thể thay đổi nhiều ở các thiết bị, bệnh viện và quốc gia khác nhau, vì vậy chúng tôi nghĩ rằng ba yếu tố chính khi chụp ảnh hưởng đến hình ảnh thu được, do đó, tạo ra sai lệch có thể ảnh hưởng đến các mô hình sử dụng chúng.
Thiết bị được sử dụng: nhiều loại thiết bị có tần số tia X khác nhau ảnh hưởng đến sắc thái của hình ảnh.Ngoài ra, thiết bị xách tay không có chất lượng như thiết bị thông thường.Việc thống nhất yếu tố này rất khó, khiến các mô hình trong nhiều trường hợp bị sai lệch do các thiết bị được sử dụng không giống nhau trong hình ảnh COVID-19 và trên bộ dữ liệu Kiểm soát, càng được củng cố bởi thực tế là ngay cả trong cùng một bệnh viện, nếu một ca nhiễm COVID-19 bệnh nhân nằm trong ICU, thiết bị phải di động được, trong khi đó đối với các trường hợp kiểm soát, thiết bị được sử dụng là thiết bị thông thường vì không bị hạn chế di chuyển.
Chụp ảnh tốt: mặc dù nhân viên được đào tạo thường chụp ảnh nhưng một số ảnh này có thể bị chụp sai.Ví dụ: nếu ảnh được chụp hết hạn thay vì lấy cảm hứng, ảnh sẽ mờ hơn.Nếu bệnh nhân di chuyển trong ảnh chụp, nó có thể ở một vị trí không phù hợp với chẩn đoán.
Cáp hoặc ống: nếu bệnh nhân nằm trong ICU và có cáp ECG, ống đặt nội khí quản mũi họng và thiết bị tạo áp lực xâm lấn, trong số những thiết bị khác, để phân loại mức độ nghiêm trọng hoặc thậm chí là COVID-19 từ các bệnh khác, thì các mô hình có thể học cách xác định cáp thay vì bệnh .
Trong trường hợp này, Hình 6 cho thấy các ví dụ về các điều kiện chụp khác nhau trên bộ dữ liệu Cohen.Người ta thấy rằng 000005-5-a.jpg xanh hơn và được phóng to hơn những cái khác, 000012.jpg có màu vàng, 11547_2020_1202_Fig1_HTML-a.png có nhãn và ajr.20.23034.pdf-003.png trắng hơn những cái khác và với dây cáp.Ngoài ra, chúng tôi đã tìm thấy hình ảnh 108115246579239728.dcm và 46529543479051320.dcm là hình ảnh DICOM từ BrixIA sử dụng thiết bị Siemens và Agfa tương ứng và cho c) và d) sub-S03562_ses-E07248_run-2_bp-chest_vp-ap_cr.png từ BIMCV tập dữ liệu của một trường hợp dương tính, một người đàn ông 90 tuổi ở định dạng PNG 16 bit ban đầu và được sửa bằng cách thay đổi nó bằng định dạng python cv2.IMREAD_GRAYSCALE.
Ví dụ về độ lệch liên quan đến điều kiện nắm bắt trong các bộ dữ liệu khác nhau.
Bộ dữ liệu không cân bằng là tiêu chuẩn trong các vấn đề về AI;trong bối cảnh này, nó không phải là ngoại lệ.Đặc biệt, hình ảnh dương tính với COVID-19 thấp so với các hình ảnh CXR khác.Sử dụng nó theo cách nó được trình bày có thể khiến hệ thống không tìm thấy một mô hình bệnh đáng chú ý.Có hai trường hợp nổi bật để giải quyết vấn đề này.Chúng tôi có thể cân đối sang loại số lượng ít hơn, trong những trường hợp này chủ yếu là loại COVID-19 không phù hợp vì mô hình sẽ nhận được một số lượng ảnh nhỏ có thể ảnh hưởng đến khả năng khái quát hóa của mô hình.Một cách khác là sử dụng tăng dữ liệu cho các mô hình để có thêm thông tin.Việc tăng cường dữ liệu trong hình ảnh y tế khá rủi ro, chủ yếu là do một số quy trình tăng cường dữ liệu, chẳng hạn như thêm nhiễu Gaussian, có thể ảnh hưởng đến sắc thái trên hình ảnh và có thể tạo ra sai lệch trong kết quả X quang liên quan đến một bệnh lý cụ thể khác với COVID-19.Vì vậy, vấn đề chính của phương pháp này là thiếu xác nhận lâm sàng chính thức của các hình ảnh thu được.
Trộn các bộ dữ liệu là một thông lệ tiêu chuẩn trong AI.Khi chỉ có sẵn một vài hình ảnh COVID-19 (trường hợp phổ biến nhất), việc trộn với các bộ dữ liệu khác sẽ hữu ích vì đây sẽ là một cách tiếp cận để tránh vấn đề mất cân bằng.Đồng thời, nó giúp thay đổi trong quá trình đào tạo cho phép mô hình được đào tạo có khả năng khái quát hóa tốt hơn.Tuy nhiên, một lỗi phổ biến trong quá trình hợp nhất tập dữ liệu COVID-19, chủ yếu trong các nhiệm vụ phân loại, là bằng cách trộn nhiều tập dữ liệu của COVID-19 và sử dụng tập dữ liệu khác làm Hình ảnh kiểm soát, sẽ có nhiều đặc điểm khác nhau ở bên cạnh hình ảnh COVID-19 .Tuy nhiên, chúng sẽ khác biệt đáng kể so với các hình ảnh Điều khiển nên cuối cùng, hầu hết thời gian mô hình sẽ tạo ra sự khác biệt trên tập dữ liệu được sử dụng thay vì nội dung của hình ảnh.Do đó, trong trường hợp này, sự thiên vị có liên quan đến một số phân biệt đối xử trong quá khứ.Có thể có những người đến từ những nơi khác nhau trong tập dữ liệu COVID-19 so với tập dữ liệu Kiểm soát và có thể có sự phân bố về độ tuổi hoặc giới tính khác nhau.
Trong công việc này, chúng tôi sẽ phân tích các sai lệch trong bối cảnh phân loại hoặc chẩn đoán COVID-19;các nhiệm vụ khác, chẳng hạn như phân loại, không được xem xét.Ngoài ra, chúng tôi không cho rằng các bộ dữ liệu bị sai lệch một cách có chủ ý, nhưng xét về thông tin được cung cấp, có thể mắc lỗi dẫn đến sai lệch nếu chúng tôi sử dụng nó.Cuối cùng, nếu chúng tôi không tìm thấy bất kỳ dữ liệu hoặc thông tin nào về các thuộc tính hoặc một thuộc tính cụ thể, thì chúng tôi nói rằng nó có sai lệch.Ví dụ: giả sử không biết phân phối tuổi.Trong trường hợp đó, tập dữ liệu kiểm soát có thể khớp với tập dữ liệu COVID-19.Ngoài ra, với phân phối bệnh nhân, ngay cả đối với một nhiệm vụ khác chẳng hạn như phân loại, nếu chúng ta không biết hình ảnh nào tương ứng với một bệnh nhân cụ thể, thì có thể có hình ảnh của một bệnh nhân trong các nếp gấp đào tạo và kiểm tra, gây ra sai lệch trong đánh giá mô hình .
Hình 7 cho thấy xu hướng được đề xuất của từng bộ dữ liệu COVID-19, trong đó chúng tôi nhóm xu hướng được mô tả trước đó thành bảy loại sai lệch.Hình 4 của tài liệu bổ sung cho thấy ba trong số bốn nhóm được mô tả trong phần trước.
Xu hướng cho từng bộ dữ liệu COVID-19.
Để tạo Hình 7, chúng tôi đã sử dụng các điều kiện này và làm rõ từng nhãn sai lệch.Đầu tiên, về giới tính, nếu một nhãn có hơn 70.
Radiopedia cũng là một trường hợp cụ thể trong số một số nhãn vì một nghiên cứu hoặc bệnh nhân có 31 hình ảnh rõ ràng từ những người khác nhau.Tuy nhiên, tất cả chúng đều được nhóm trong một Độ tuổi, Giới tính và thông tin khác về những hình ảnh này không được cung cấp.Do đó, chúng tôi đặt bộ dữ liệu này theo Độ tuổi, Giới tính và xu hướng phân phối bệnh nhân.Cuối cùng, các bộ dữ liệu hỗn hợp như RYLDS và Đại học Qatar có thông tin nhân khẩu học không rõ ràng, vì vậy chúng được đưa vào loại sai lệch này.Ngoài ra, Alfor đưa vào danh mục này vì nó phân loại các thực thể dưới dạng chữ cái mà không đưa ra chi tiết về vị trí của bệnh viện.Hình 1 là tập dữ liệu ảnh do mọi người cung cấp nên rất khó tìm vị trí ảnh.Đối với nhãn Cáp hoặc ống, chúng tôi đã đính kèm bộ dữ liệu không cho biết hình ảnh có thuộc về bệnh nhân UCI hay không.Tuy nhiên, nếu chúng tôi không xem xét các nhãn này trong nhiệm vụ phân loại trong các tập dữ liệu khác, thì đó cũng là một sai lệch trong tập dữ liệu.Tuy nhiên, chúng tôi có thể loại bỏ những hình ảnh đó hoặc thực hiện một số thao tác làm sạch để sử dụng những hình ảnh đó.Trong khi đó, nếu không xem từng ảnh thì không thể xác định được ảnh có chứa dây cáp hay ống luồn dây điện hay không.
Cuối cùng nhưng không kém phần quan trọng, đối với dữ liệu không cân bằng, nếu dữ liệu COVID-19 quá nhỏ hoặc quá lớn hoặc nếu tập dữ liệu có ít hơn 200 hình ảnh, điều đó có nghĩa là thông tin có thể không đủ để khái quát hóa, vì vậy chúng tôi phân loại dữ liệu đó là sai lệch tập dữ liệu không cân bằng.
Ví dụ sau đây cho thấy sự thiên vị liên quan đến việc trộn các bộ dữ liệu.Chúng tôi đã sử dụng hai bộ dữ liệu phổ biến nhất, Cohen trong bộ dữ liệu COVID-19 và Hình ảnh X-quang Ngực (viêm phổi), cũng là sự kết hợp tối quan trọng, bởi vì tám trong số chín bài báo sử dụng Hình ảnh X-quang Ngực (viêm phổi) cũng sử dụng Cohen8 Ø9,28,34,37,38,45,58.Đầu tiên, điều cần thiết là phải xem làm thế nào trong Hình 7, bộ dữ liệu Cohen chỉ nhập vào một xu hướng là Thiết bị được sử dụng và Hình 3 cũng cho thấy rằng ngày Nghiên cứu có một số vấn đề về tính đồng nhất;tuy nhiên, nó có thể được xử lý với một số công việc bổ sung.Chúng tôi nhận thấy những sai lệch mới xuất hiện khi kết hợp bộ dữ liệu Hình ảnh X-quang (viêm phổi) của Cohen và Ngực.Sâu trong mỗi nhãn sex trên Chest X-quang Images (viêm phổi) không tìm thấy và có nhiều ảnh hơn Cohen nên nhãn Other có số ảnh nhiều hơn, điều này cũng hàm ý rằng bộ dữ liệu không cân bằng vì có 654 ảnh trong Cohen.Ngược lại, 5860 gần như là tỷ lệ 9:1.Ngoài ra, về giới tính, chúng tôi thấy rằng Tuổi trung bình ở Cohen là 54 ± 17 tuổi và trong Hình ảnh X-quang Ngực (viêm phổi), nghiên cứu sử dụng trẻ em, vì vậy tuổi trung bình có thể vào khoảng 11 tuổi, nghĩa là tỷ lệ tuổi không phù hợp.Ngoài ra, Cohen chủ yếu chứa các hình ảnh của Châu Âu, trong khi Hình ảnh X-quang Ngực (viêm phổi) là bộ dữ liệu của Trung Quốc.Cuối cùng, ngay cả khi chúng tôi tập hợp các Hình ảnh X-quang Ngực (viêm phổi) để tránh dữ liệu không cân bằng, thì không thể tránh được sai lệch về tuổi và đặc điểm nhân khẩu học và giới tính chỉ có thể giống nhau do may mắn, do đó, việc trộn các bộ dữ liệu sẽ tăng khả năng có sai lệch nếu dữ liệu không đồng nhất.Để biết cách đồ họa thể hiện xu hướng mới, người đọc có thể xem Hình 5 của tài liệu bổ sung.
Như đã đề cập trước đây, cơ sở dữ liệu được sử dụng nhiều nhất là cơ sở dữ liệu Cohen.Nó không chỉ chứa các trường hợp COVID-19, vì vậy chúng tôi đã sử dụng bộ dữ liệu này để phát triển thử nghiệm và xác thực thử nghiệm bằng một công cụ đạo đức.Các công cụ đạo đức cần liên quan đến siêu dữ liệu, vì vậy chúng tôi chọn Cohen, công cụ này có hầu hết các dữ liệu liên quan ít bị thiếu hơn mà bạn có thể xác thực điều này trong Bảng 1 của tài liệu bổ sung.Chúng tôi không trộn nó với bộ dữ liệu X-quang ngực (viêm phổi) vì bộ dữ liệu cuối cùng này không cung cấp bất kỳ siêu dữ liệu nào, dẫn đến thuật toán đạo đức sẽ thất bại không phải do sai lệch mà thay vì thiếu thông tin.
Chúng tôi chỉ sử dụng tập dữ liệu Cohen và thực hiện một số cân nhắc để tránh một số sai lệch và tập trung vào những dữ liệu dễ thấy hơn theo công cụ đạo đức của siêu dữ liệu.Điều đó bao gồm một số nhãn như tuổi, giới tính, địa điểm, ngày nghiên cứu và liệu bệnh nhân có đến ICU hay không, điều này rất quan trọng do sự thay đổi trong thiết bị được sử dụng.Điều đó khiến bộ dữ liệu Cohen có hai sai lệch có thể xảy ra, liên quan đến việc trộn lẫn cùng một bệnh nhân trong tập huấn luyện và tập kiểm tra và lượng hình ảnh không phải COVID-19 không cân bằng.Để giải quyết vấn đề này, chúng tôi đã thực hiện như sau:
Đối với việc phân chia hình ảnh, thay vì tách tất cả các hình ảnh, chúng tôi chia tất cả bệnh nhân trong siêu dữ liệu bằng cách sử dụng sklearn.model_selection.train_test_split trên số lượng bệnh nhân để lại tập huấn luyện gồm 348 bệnh nhân và 704 hình ảnh và tập thử nghiệm gồm 87 bệnh nhân và 162 hình ảnh.
Chúng tôi đã sử dụng sklearn.utils.class_weight để cân nhắc các trọng số của mô hình trong quá trình huấn luyện cho vấn đề mất cân bằng.
Cả hai cân nhắc đều đảm bảo mô hình và tập dữ liệu có thể càng nhiều càng tốt để tránh loại sai lệch này.
Sau đó, với tư cách là một mô hình, chúng tôi đã sử dụng VGG19 được đào tạo trước với các trọng số Imagenet và kết quả là chúng tôi có độ chính xác đào tạo là 100
Đối với công cụ đạo đức, chúng tôi đã sử dụng Aequitas19.Aequitas là bộ công cụ để phân tích tập dữ liệu của các dự án AI và có sẵn dưới dạng trang web hoặc chương trình máy tính để bàn.Nó cũng có một thư viện Python87 cũng được sử dụng cho nghiên cứu này với một tài liệu CSV có cấu trúc cụ thể trong đó có một cột điểm tương ứng với dự đoán phân loại nhị phân, nhãn_value là lớp thực tế của phân loại.Một loạt các cột thuộc tính tương ứng với các chuỗi phân loại đại diện cho một thuộc tính cụ thể.Có một vài khuyến nghị cho định dạng này.
Tất cả các giá trị thuộc tính phải là một chuỗi.
Nếu thuộc tính tương ứng với một không gian liên tục chẳng hạn như tuổi, chúng tôi khuyên bạn nên nhóm thuộc tính đó theo khoảng cách.
Hệ thống lý thuyết hoạt động với số lượng lớn các loại trên mỗi thuộc tính, nhưng trong trường hợp này, chúng tôi nhận thấy rằng số lượng tối ưu cho một báo cáo đầy đủ và biểu đồ hỗ trợ tất cả các loại là tối đa năm loại.
Giá trị NaN đôi khi là một vấn đề;chúng tôi đề xuất nhóm NaN, Khoảng trắng và tương tự trong một lớp duy nhất, chẳng hạn như “Không tìm thấy” hoặc “Khác”.
Công cụ này hoạt động với một lớp tham chiếu trên mỗi thuộc tính.Trong trường hợp của chúng tôi, chúng tôi đã sử dụng lớp có số lượng hình ảnh cao hơn, nhưng trên ứng dụng web, có một tùy chọn để chọn lớp tự động theo số lượng cao hơn hoặc ít sai lệch hơn.Các số liệu mà công cụ đánh giá chủ yếu là sáu.Chúng tương ứng với sáu loại tính chẵn lẻ, tính chẵn lẻ bình đẳng, tính chẵn lẻ theo tỷ lệ, tính chẵn lẻ tỷ lệ dương tính giả (FPR), tính chẵn lẻ tỷ lệ âm tính giả (FNR), tính chẵn lẻ phát hiện sai (FDR) và tính chẵn lẻ bỏ sót sai (FOR).Bạn có thể tìm thấy các chỉ số này chi tiết hơn trong kho lưu trữ Github ((https://github.com/BioAITeam/Bias-Covid).
Chúng tôi đã sử dụng thư viện Python để tìm FPR và FDR trên từng thuộc tính trong Hình 8;chúng tôi thấy kết quả cho bài kiểm tra.Chấm đỏ là lớp rớt, chấm xanh là lớp đạt, chấm xám là nhóm bình thường;ngưỡng công bằng chênh lệch được đặt 1,25 lần.Biểu đồ này là biểu đồ động, nhưng trong trường hợp này, Bảng 3 chứa thông tin cho mỗi lớp.Thông tin chi tiết về thuộc tính Vị trí có trong Hình 9. Thuộc tính này cho biết khoảng cách của từng thuộc tính đến trạng thái chẵn lẻ.
Kết quả Aequitas trên FPR và FDR cho từng thuộc tính.
Aequitas dẫn đến FPR và FDR thuộc tính Tuổi.
Trong Bảng 3, tất cả các so sánh đều là giữa FPR hoặc FDR tương ứng của mỗi lớp với nhóm tham chiếu, là một phép chia, vì vậy nếu FPR hoặc FDR trên một lớp khác với tham chiếu bằng 0, chúng ta sẽ có phép chia bằng 0. Vì vậy, xu hướng mối quan hệ này tiến đến vô cùng để trực quan hóa, chúng tôi thay thế các giá trị 0 bằng 0,0002 vì nếu chúng tôi sử dụng xu hướng giá trị này, nó sẽ nhỏ hơn 5000 lần và 5000 là biểu đồ giá trị tối đa, như trong Hình 9, có thể hỗ trợ.
Bằng cách sử dụng trình tạo báo cáo web, chúng tôi đã thay đổi một số khía cạnh thuộc tính của mình.Trước tiên, chúng tôi đã bỏ qua thuộc tính Ngày vì nó chứa nhiều số liệu có xu hướng NaN và chúng tôi đã xóa lớp Châu Phi khỏi thuộc tính Vị trí và hợp nhất nó với lớp Không tìm thấy.Mặc dù các đặc điểm ít hơn và các thông số trên mỗi lớp.Bạn có thể tìm thấy kết quả của các lỗi số liệu trong kho lưu trữ GitHub ((https://github.com/BioAITeam/Bias-Covid).
Hiểu lý do tại sao các bộ dữ liệu này có thể thể hiện từng sai lệch là rất quan trọng đối với những thay đổi và mối tương quan sinh lý sâu sắc trên những bệnh nhân có các đặc điểm hình ảnh cụ thể khác nhau giữa mỗi bộ dữ liệu.Đầu tiên, nếu chúng ta tập trung vào sự thay đổi của hình ảnh X-quang ngực theo độ tuổi, chúng ta thấy rằng ở người cao tuổi, sự giảm độ dày của các cơ thành là điển hình.Điều này tạo ra sự gia tăng độ trong suốt của phổi88.Đặc điểm này đặc biệt thay đổi một số dải màu trên hình ảnh.Các đặc điểm khác không làm thay đổi độ trong suốt của hình ảnh nhưng làm thay đổi hình thức và đặc điểm của bệnh nhân là “ngực hình thùng”, được tạo ra bởi hiện tượng gù lưng rõ rệt và lồi nhiều hơn ở xương ức và là kiểu hình phổ biến ở người già ngực, điều này thường xảy ra, nhưng không phải là duy nhất, nó cũng có thể gây ra bệnh khí thũng phổi và giãn phế quản, cũng có sự gia tăng cơ thất trái ở người cao tuổi88.Nhưng không chỉ có những thay đổi ở người già nếu tính đến sự phát triển của hệ hô hấp, chúng ta thấy rằng số lượng phế nang tối đa xuất hiện vào khoảng 10–12 tuổi và sự trưởng thành của hệ hô hấp thường kết thúc sau 20 tuổi. già ở nữ và 25 tuổi ở nam có nghĩa là chúng ta thấy cấu trúc phổi ít phức tạp hơn trong giai đoạn đầu của cuộc đời88, những thay đổi phổ biến khác cũng là sự giảm độ giãn nở của thành ngực theo tuổi và sự giãn nở của ống phế nang, do đó, khoảng cách không khí được mở rộng với một sự phân bố không đều của air88 và như chúng ta đã biết, các khoảng không là cơ bản trên các hình ảnh trong suốt của đài phát thanh.
Nếu chúng ta tập trung vào các dấu hiệu ở trẻ em và COVID-19 cho thấy rằng hầu hết trẻ em có triệu chứng mắc COVID-19 đều có biểu hiện bất thường trên phim chụp X-quang ngực, nhưng những phát hiện này thường không đặc hiệu, vì vậy việc sử dụng hình ảnh chụp X-quang ngực không thể dẫn đến xét nghiệm chẩn đoán đầu tiên để xác định COVID-1989.Khó đảm bảo chất lượng chụp X-quang lồng ngực cho trẻ em.Các yếu tố chính ảnh hưởng đến chất lượng, đặc biệt là ở trẻ nhỏ và trẻ sơ sinh, là việc xoay bệnh nhân là điều không thể tránh khỏi đối với một số trẻ sơ sinh, hình ảnh được chụp theo cảm hứng vì khó phối hợp với thời gian hô hấp của bệnh nhân vì bạn có thể hướng dẫn một em bé để truyền cảm hứng. hoặc hết hạn khi bạn chỉ định, và cuối cùng do chuyển động dự kiến sẽ có được vị trí xương bả vai90.
Các tác giả khác như Albrandt-Salmeron và cộng sự91 đồng ý rằng có mối tương quan giữa tuổi tác với một số triệu chứng và kết quả hình ảnh, nhưng họ phát hiện ra rằng trong cộng đồng Mexico-mestizo, không có sự khác biệt đáng kể về giới tính của bệnh nhân91, trong khi đó Borghesi và Maroldi, 2020 bác bỏ ý kiến này trong một nghiên cứu ở Ý cho thấy tỷ lệ vỡ phổi ở nam giới cao hơn đáng kể so với nữ92, thông tin này có thể được diễn giải theo nhiều cách khác nhau. hình ảnh và nghiên cứu của Ý sử dụng thông tin của 100 bệnh viện mà không chỉ định số lượng hình ảnh và cả hai đều đang sử dụng hệ thống tính điểm CXR cho bệnh viêm phổi do COVID-19 do Borghesi và Maroldi của nghiên cứu ở Ý đề xuất92 cũng được sử dụng trên bộ dữ liệu BrixIA cho mức độ nghiêm trọng nhãn, thông tin hiển thị hai khả năng chính dưới dạng tổng quan, đầu tiên sử dụng 100 bệnh viện cho thấy tổng quát hơn về dân số hơn là chỉ sử dụng một bệnh viện, nghĩa là có mộtxu hướng về sự tham gia của phổi ở nam giới hơn là nữ giới, nhưng chúng ta cũng có thể lập luận rằng cả hai nghiên cứu đều có giá trị như nhau, nhưng sự khác biệt giữa các kết quả phụ thuộc vào dân số mà nghiên cứu tập trung vào có nghĩa là đối với dân số Ý hoặc thậm chí châu Âu, COVID-19 phát hiện phổ biến hơn ở nam giới trong khi ở Mexico không có sự khác biệt rõ rệt.
Một số bệnh lý đặc biệt là đục thủy tinh thể điển hình trong các ca bệnh COVID-19 nhưng cực kỳ khó phát hiện trên phim CXR xách tay nhưng dễ bắt gặp trên CT93.Bổ sung cho các hình ảnh trực quan hóa trong Hình 6, chúng tôi thấy rằng định dạng hình ảnh ảnh hưởng và một số bộ dữ liệu chỉ chứa hình ảnh ở định dạng PNG hoặc JPEG dưới dạng Cohen bị nhiễm các phần tử bổ sung như mũi tên, số hoặc chữ cái khác với các phần tử do thiết bị cung cấp được sử dụng, nhân tiện, nó cũng khác, có những thiết bị hiển thị chữ R để đánh dấu đúng bệnh nhân.Tuy nhiên, nó cũng có thể là chữ D hoặc A và có những thiết bị hiển thị chữ P dành cho thiết bị di động.Cũng có trường hợp hình ảnh định dạng DICOM phụ thuộc vào quá trình xử lý trước.Cuối cùng, chúng tôi đã tìm thấy các định dạng cố gắng để lại nhiều thông tin hơn, chẳng hạn như hình ảnh PNG 16 bit từ bộ dữ liệu BIMCV được hiển thị trong Hình 6 và nếu chúng tôi thấy có sự khác biệt rõ ràng so với hình ảnh PNG thông thường.
Một điều quan trọng cần nhấn mạnh là nghiên cứu này tập trung vào sự thiên vị trong phân loại hoặc chẩn đoán COVID-19, vì vậy ngay cả khi hầu hết các cơ sở dữ liệu có sự thiên vị về nhiệm vụ này, điều này không có nghĩa là chúng vô dụng, trước hết là vấn đề chung chính của bộ dữ liệu được trình bày là bộ dữ liệu được tạo tập trung vào việc thu thập hình ảnh bệnh nhân được xác nhận COVID-19.Tuy nhiên, một mình bộ dữ liệu COVID-19 có thể có một số công dụng mạnh mẽ như phân loại hoặc tiên lượng;nếu chắc chắn rằng một bệnh nhân mắc COVID-19, thì có thể bệnh nhân đó có ít khả năng trở nên tồi tệ hơn hoặc có thể là bệnh viêm phổi nặng.Xác định những đặc điểm này trong thời gian ngắn hơn, bác sĩ X quang có thể xác định giúp ích cho việc điều trị bệnh nhân và nếu nhiệm vụ là tìm xác suất bệnh nhân đến ICU hoặc thậm chí tử vong sẽ giúp đưa ra các chiến lược để tránh kết quả này.Nhiệm vụ được đề cập trước đây ít có khả năng mắc phải sai lệch hơn vì không cần thiết phải trộn tập dữ liệu với các tập dữ liệu khác và có sự không phù hợp về phân bố độ tuổi và giới tính, trong số các tập dữ liệu khác, thay vào đó, ngay cả khi tập dữ liệu chỉ từ một bệnh viện, những điều này có thể dẫn đến việc tạo ra một phần mềm hữu ích bên trong tổ chức này.Ngoài ra, COVID-QU có số lượng hình ảnh cao nhất trong bộ dữ liệu COVID-19, có thể có nhiều sai lệch khi phân loại nhưng là một trong những bộ dữ liệu phân đoạn Phổi rộng nhất hiện có trực tuyến.Thực tế là hình ảnh đến từ nhiều nguồn, trong những trường hợp này, việc khái quát hóa có thể tốt hơn đối với nhiều định dạng trong chụp X-quang ngực để phân đoạn phổi phù hợp và theo cách này, nâng cao thuật toán trong các nhiệm vụ khác.Ví dụ, BrixIA có phân loại mức độ nghiêm trọng riêng, nhóm các bệnh lý cụ thể trong các vùng hình ảnh nhất định.Tác giả bộ dữ liệu Cohen gần đây đã xuất bản một bài báo sử dụng bộ dữ liệu này để phân loại mức độ nghiêm trọng59.
Khi xem xét các bộ dữ liệu tốt nhất cho chẩn đoán COVID-19, điều cần thiết là phải chỉ ra rằng các bộ dữ liệu chính được sử dụng là những bộ dữ liệu hoàn toàn miễn phí, thậm chí không cần yêu cầu sử dụng.Thông thường, những bộ dữ liệu đó là những bộ có nhiều vấn đề hơn và thiếu thông tin có thể dẫn đến một số sai lệch;sau đó, hãy tránh sử dụng các bộ dữ liệu kiểm soát vì rất khó để có được cơ sở dữ liệu phù hợp và tạo ra ít xung đột nhất có thể về các đặc điểm hình ảnh có thể dẫn đến sai lệch có thể xảy ra, vấn đề được trình bày nhiều hơn là thiết bị được sử dụng.Đó không phải là điều chúng tôi có thể giải quyết bằng cách lọc vì không có sẵn thông tin và cáp hoặc ống có thể được giảm thiểu bằng cách loại bỏ bệnh nhân ICU của cả hai khung dữ liệu, nhưng điều này có thể làm tăng sự mất cân bằng trên tập dữ liệu, vì vậy cần thiết xác nhận lâm sàng trước khi triển khai cuối cùng trên viện hoặc tổ chức Y tế.
Thử nghiệm được thực hiện bằng bộ dữ liệu Cohen cho thấy những điều khác nhau.Đầu tiên, chúng tôi thấy tập dữ liệu nói chung có độ chính xác cao, nghĩa là hệ thống có thể có các hình ảnh khác nhau từ cả hai nhãn, là 0 COVID-19 và 1 KHÔNG phải COVID-19, nhưng phân tích Aequitas không cho kết quả tốt.Giả sử rằng tập dữ liệu không cân bằng và sự thiên vị của bệnh nhân đã được tránh khỏi;có thể nói rằng có thể tránh được các chỉ số Aequitas phụ thuộc vào bộ dữ liệu cân bằng trong các thuộc tính như ngày vì trước năm 2019, không có COVID-19 nên đây là điều kiện không thể tránh khỏi nếu tôi làm việc với các bộ dữ liệu được phát triển trước ngày này.Tuy nhiên, vẫn Figs.8 và 9, và Bảng 3 cho thấy rằng về mặt tổng quát, tập dữ liệu không thành công trong tất cả các chỉ số, ngay cả những chỉ số không phụ thuộc vào dữ liệu cân bằng.Có một trường hợp cụ thể là Độ tuổi 17–36 và 56–76;trên cả hai, có một số liệu (tương ứng là FDR và FPR) vượt qua bài kiểm tra đạo đức.Tuy nhiên, nó là một trong hai bài đánh giá, có nghĩa là nó vẫn có vấn đề mặc dù nó là bài duy nhất vượt qua.Ngoài ra, 5000 lần thực tế nhỏ hơn rất nhỏ so với nhóm tham chiếu, nghĩa là các lớp này không tạo ra thông tin để khái quát hóa hoặc có quá nhỏ để không thể so sánh độ lệch, tương tự với Châu Phi trên vị trí có giá trị NaN, vì vậy không thể có được một giải thích hợp lý của kết quả.Nhưng nếu chúng ta tránh hai trường hợp này, những thuộc tính đó vẫn trượt bài kiểm tra này.Như đã đề cập trước trường hợp nói chung, số liệu không thành công, chi tiết trên Hình 8 cho thấy rằng không phải tất cả các lớp trong tất cả các số liệu đều thất bại.Tuy nhiên, mỗi thuộc tính có nhiều chỉ số lỗi hơn, do đó, nó thường không thành công.Để biết thêm chi tiết, hãy xem kho lưu trữ GitHub (https://github.com/BioAITeam/Bias-Covid).
Sau khi xem xét các cơ sở dữ liệu khác nhau về chụp X-quang ngực đang được sử dụng để nghiên cứu COVID-19, người ta nhận thấy rằng do tính chất mới của loại vi-rút này và mong muốn đạt được kết quả trong việc phát hiện bệnh sớm và nhanh chóng đã thúc đẩy việc phát hành của nhiều cơ sở dữ liệu có thể có sai lệch, chẳng hạn như những sai lệch liên quan đến: thông tin bệnh nhân, điều kiện chụp, sự mất cân bằng, hỗn hợp cơ sở dữ liệu, trong số những cơ sở dữ liệu khác.Những điều trên có thể tạo ra tỷ lệ chính xác cao trong việc phân loại bệnh lý này.Tuy nhiên, khi thực hiện phân tích toàn diện thông tin, người ta thấy rằng các thuật toán AI chỉ có thể được hiệu chỉnh để xác định các đặc điểm đặc trưng của bệnh nếu quản lý được các sai lệch khác nhau.Ngoài ra, việc thiếu thông tin trong siêu dữ liệu thường không cho phép lựa chọn chính xác tập dữ liệu hoặc xác định các loại sai lệch khác nhau, đặc biệt là khi trộn các cơ sở dữ liệu không đồng nhất cao mà không có thông tin như vậy.Do đó, nên phân tích sâu dữ liệu và siêu dữ liệu của nó, chẳng hạn như thực hiện phân tích thống kê tất cả thông tin để làm rõ về chất lượng của cơ sở dữ liệu và ngoài ra, thực hiện kiểm tra trực quan thông tin trong trường hợp đó loại dữ liệu được sử dụng là hình ảnh, tất cả điều này để quan sát những sai lệch ban đầu có thể xảy ra và cố gắng giảm thiểu chúng.Bạn nên thực hiện phân tích bằng các công cụ đạo đức như Aequitas để đảm bảo rằng cơ sở dữ liệu không có thành kiến về tuổi tác, giới tính hoặc chủng tộc, trong số những người khác và do đó thu được kết quả với các tiêu chuẩn đạo đức và trách nhiệm.Đối với việc xây dựng và phát hành cơ sở dữ liệu mới trong COVID-19 hoặc bất kỳ loại vấn đề nào khác, nên xem xét các thử nghiệm và phân tích được thực hiện trong công việc này để cung cấp thông tin đồng nhất nhất có thể, ví dụ: sự khác biệt duy nhất là phát hiện bệnh lý.Việc trộn các cơ sở dữ liệu hiện có để tăng khối lượng thông tin có thể không được khuyến nghị trong COVID-19 vì nó có thể đưa ra những thành kiến như những điều được đề cập trong tác phẩm này.Nhiều cơ sở dữ liệu bị lộ có thể hoạt động tốt đối với các vấn đề khác không liên quan đến COVID-19.Đối với công việc trong tương lai, chúng tôi đề xuất thực hiện phân đoạn phổi trên cơ sở dữ liệu hiện có để tập trung vào khu vực bệnh quan tâm nhằm giúp các thuật toán AI xác định các đặc điểm cụ thể của bệnh và giảm thiểu các sai lệch tiềm ẩn.Việc xác định COVID-19 bằng cách sử dụng tia X ngực là một lĩnh vực vẫn đang được xây dựng và còn một chặng đường dài trước khi các hệ thống AI có thể phân loại bệnh một cách đáng tin cậy.Tuy nhiên, việc xây dựng và phát hành cơ sở dữ liệu chất lượng cao với càng ít sai lệch càng tốt là cần thiết để đạt được mục tiêu đó.
Trong bài báo này, chúng tôi đưa ra một loạt lập luận cho thấy một số khía cạnh tồi tệ của việc sử dụng và tạo bộ dữ liệu X-quang Ngực cho mục đích phân loại COVID-19.Ngoài ra, chúng tôi sử dụng một công cụ đạo đức AI để xác thực sâu hơn một số đặc điểm về độ lệch bằng cách sử dụng một mô hình đơn giản và các bộ dữ liệu được sử dụng nhiều nhất, hy vọng đây có thể là một ví dụ về cách chúng tôi có thể xác thực thêm hiệu suất của một mô hình.
Theo khuyến nghị cho các nghiên cứu sâu hơn và tạo cơ sở dữ liệu, điều quan trọng là tạo dữ liệu đồng nhất.Đối với một bệnh viện, hầu như không thể thu được cùng một lượng hình ảnh từ một số nhóm tuổi hoặc giới tính.Tuy nhiên, ít nhất việc sử dụng thiết bị có thể đồng nhất cho các trường hợp dương tính và đối chứng, cũng như không trộn lẫn dương tính với bộ dữ liệu đối chứng, cũng xác thực kết quả của một nhóm với bác sĩ X quang chuyên nghiệp và tạo siêu dữ liệu chi tiết về hình ảnh để ngăn ngừa, bệnh nhân trộn trong các bộ khác nhau và là một tham số tùy chọn, vui lòng tránh hình ảnh ICU, chất lượng thiết bị di động và tình trạng nghiêm trọng của bệnh nhân là rõ ràng.Các thuật toán này nên được hướng dẫn nhiều hơn trong việc thực hiện một bài kiểm tra nhanh để có chẩn đoán ban đầu và có thể thực hiện các hành động nhanh chóng và tránh suy giảm sức khỏe bệnh nhân nhanh chóng.Tạo hình ảnh ICU không hữu ích lắm vì trong bước này, các tùy chọn điều trị bị hạn chế.Cuối cùng, chúng tôi khuyên bạn nên sử dụng các công cụ hoặc khuôn khổ đạo đức AI để tìm ra sự thiên vị có thể có trong mô hình.
Theo kết quả của cuộc điều tra này, chúng tôi đang phát triển một bộ dữ liệu có cấu trúc có tính đến độ tuổi, giới tính và phân phối thiết bị của các trường hợp dương tính và âm tính với COVID-19 để thử nghiệm thêm về mặt phân loại và phát triển phần mềm cho COVID-19 thực tế ứng dụng phân loại có xác nhận đạo đức.Trong dòng này, một số kết quả sơ bộ có thể được tìm thấy ở đây15.
Các tác giả khẳng định không ai có lợi ích tài chính cạnh tranh hoặc các vấn đề cá nhân có thể ảnh hưởng đến công việc được phát triển trong bài báo này.Mã và thông tin có sẵn trên (https://github.com/BioAITeam/Bias-Covid).
Các bộ dữ liệu được phân tích trong nghiên cứu hiện tại có sẵn trên nhiều kho lưu trữ có thể được truy cập bằng các liên kết trên Bảng 1 và 2 hoặc Dữ liệu sẵn có trên tài liệu bổ sung có chứa bản tóm tắt tất cả các bài báo và liên kết để tải xuống bộ dữ liệu công khai và kho lưu trữ bài báo này.
Wang, D. và cộng sự.Đặc điểm lâm sàng của 138 bệnh nhân nhập viện với bệnh viêm phổi do nhiễm coronavirus mới năm 2019 ở Vũ Hán, Trung Quốc.JAMA 323, 1061–1069.https://doi.org/10.1001/jama.2020.1585 (2020).
Bài báo CAS PubMed PubMed Central Google Scholar
Ducharme, J. Tổ chức y tế thế giới tuyên bố COVID-19 là 'đại dịch'.đây là ý nghĩa của nó.https://time.com/5791661/who-coronavirus-pandemia-declaration/ (2020).
Tahamtan, A. & Ardebili, A. rt-pcr thời gian thực trong phát hiện COVID-19: Các vấn đề ảnh hưởng đến kết quả.hết hạnMục sư Mol.Chẩn đoán.20, 453–454.https://doi.org/10.1080/14737159.2020.1757437 (2020).
Bài báo CAS Google Scholar
Long, C. et al.Chẩn đoán bệnh do vi-rút corona (COVID-19): rrt-pcr hay ct?.Ơ.J. Phóng xạ.126, 108961. https://doi.org/10.1016/j.ejrad.2020.108961 (2020).
Bài báo PubMed PubMed Central Google Scholar
Albahri, Hệ điều hành và cộng sự.Đánh giá có hệ thống các kỹ thuật trí tuệ nhân tạo trong việc phát hiện và phân loại hình ảnh y tế COVID-19 về mặt đánh giá và đo điểm chuẩn: Phân tích phân loại, thách thức, giải pháp trong tương lai và các khía cạnh phương pháp luận.J. Lây nhiễm.Y tế công cộng 13, 1381–1396.https://doi.org/10.1016/J.JIPH.2020.06.028 (2020).
Bài báo CAS PubMed PubMed Central Google Scholar
Ái, T. và cộng sự.Mối tương quan giữa xét nghiệm ct ngực và rt-pcr đối với bệnh vi-rút corona 2019 (COVID-19) tại Trung Quốc: Báo cáo về 1014 trường hợp.X quang 296, E32–E40.https://doi.org/10.1148/radiol.2020200642 (2020).
Bài báo CAS PubMed Google Scholar
Balaha, HM, El-Gendy, EM & Saafan, MM Một khuôn khổ hoàn chỉnh để nhận biết và tiên lượng chính xác bệnh nhân COVID-19 dựa trên phương pháp học tập chuyển giao sâu và phân loại đặc điểm.nghệ thuật.thông minh.Rev. 55, 5063–5108.https://doi.org/10.1007/s10462-021-10127-8 (2022).
Bài báo PubMed PubMed Central Google Scholar
Tartaglione, E., Barbano, CA, Berzovini, C., Calandri, M. & Grangetto, M. Công bố COVID-19 từ chụp X-quang ngực bằng học sâu: Một cuộc đua vượt rào với dữ liệu nhỏ.quốc tếJ. Môi trường.độ phân giảiY tế công cộnghttps://doi.org/10.3390/ijerph17186933 (2020).
Bài báo PubMed PubMed Central Google Scholar
Ghoshal, B. & Tucker, A. Ước tính độ không đảm bảo và khả năng diễn giải trong học sâu để phát hiện vi-rút corona (Covid-19).https://doi.org/10.48550/arxiv.2003.10769 (2020).
Malhotra, A. và cộng sự.Chẩn đoán có thể giải thích được dựa trên nhiều nhiệm vụ về COVID-19 bằng cách sử dụng hình ảnh chụp X-quang ngực.Vỗ nhẹ.Recogn.https://doi.org/10.48550/arxiv.2008.03205 (2020).
Bài báo Google Scholar
Cruz, BGS, Bossa, MN, Sölter, J. & Husch, AD Public COVID-19 Bộ dữ liệu X-quang và tác động của chúng đối với độ lệch của mô hình: Đánh giá có hệ thống về một vấn đề quan trọng.y tế.Hình Ảnh Hậu Môn.74, 102225. https://doi.org/10.1016/j.media.2021.102225 (2021).
Bài báo Google Scholar
Roberts, M. và cộng sự.Những cạm bẫy phổ biến và khuyến nghị khi sử dụng máy học để phát hiện và tiên lượng COVID-19 bằng cách sử dụng chụp X quang ngực và chụp cắt lớp vi tính.tự nhiênmáy móc.thông minh.3, 199–217.https://doi.org/10.1038/s42256-021-00307-0 (2021).
Bài báo Google Scholar
Gao, J. và cộng sự.Medml: Kết hợp kiến thức y tế và mô hình máy học để dự đoán mức độ nghiêm trọng và nhập viện sớm cho trẻ em do COVID-19.iScience 25, 104970. https://doi.org/10.1016/j.isci.2022.104970 (2022).
Article ADS CAS PubMed PubMed Central Google Scholar
Arias-Garzón, D. et al.Phát hiện COVID-19 trong hình ảnh X-quang sử dụng mạng thần kinh tích chập.máy móc.Học hỏi.ứng dụng6, 100138. https://doi.org/10.1016/j.mlwa.2021.100138 (2021).
Bài báo PubMed PubMed Central Google Scholar
Alzate-Grisales, JA và cộng sự.Cov-caldas: Bộ dữ liệu X-quang ngực COVID-19 mới từ bang Caldas-Colombia.Khoa học.Dữ liệu 9, 757. https://doi.org/10.1038/s41597-022-01576-z (2022).
Bài báo PubMed PubMed Central Google Scholar
Hagendorff, T. Đạo đức của đạo đức ai: Đánh giá các hướng dẫn.Tâm Mạch.30, 99–120.https://doi.org/10.1007/s11023-020-09517-8 (2020).
Bài báo Google Scholar
Floridi, L. và cộng sự.Ai4people-một khuôn khổ đạo đức cho một xã hội ai tốt đẹp: Cơ hội, rủi ro, nguyên tắc và khuyến nghị.Tâm Mạch.28, 689–707.https://doi.org/10.1007/s11023-018-9482-5 (2018).
Bài báo Google Scholar
Tabares-Soto, R. và cộng sự.Phân tích sự phát triển đạo đức cho các chính sách công trong việc mua lại các hệ thống dựa trên ai.https://doi.org/10.4018/978-1-6684-5892-1.ch010 (2022).
Saleiro, P. et al.Công bằng: Bộ công cụ kiểm toán thiên vị và công bằng.https://doi.org/10.48550/arXiv.1811.05577 (2018).
Cohen , J. P. , Morrison , P. & Dao , L. Thu thập dữ liệu hình ảnh về COVID-19.arXiv https://doi.org/10.48550/arXiv.2003.11597 (2020).
Zhang, R. và cộng sự.Chẩn đoán bệnh viêm phổi do vi-rút corona 2019 bằng chụp X-quang ngực: Giá trị của trí tuệ nhân tạo.X quang 298, E88–E97.https://doi.org/10.1148/radiol.2020202944 (2021).
Bài báo PubMed Google Scholar
Afifi, A., Hafsa, NE, Ali, MAS, Alhumam, A. & Alsalman, S. Một tập hợp các mạng thần kinh tích chập dựa trên sự chú ý toàn cầu và cục bộ để chẩn đoán COVID-19 trên hình ảnh X-quang ngực.Đối xứng 13, 113 (2021).
Bài viết QUẢNG CÁO CAS Google Scholar
Imagawa, K. & Shiomoto, K. Hiệu suất thay đổi theo số lượng dữ liệu đào tạo: Một nghiên cứu điển hình về phân loại nhị phân của chụp X-quang ngực COVID-19 bằng cách sử dụng mạng thần kinh tích chập.Điện toán.sinh học.y tế.142, 105251. https://doi.org/10.1016/J.COMPBIOMED.2022.105251 (2022).
Bài báo CAS PubMed PubMed Central Google Scholar
Bassi, PRA S. & Attux, R. Một mạng nơ-ron tích chập sâu để phát hiện Covid-19 bằng cách sử dụng tia X-quang ngực.https://doi.org/10.1007/s42600-021-00132-9 (2020).
Jain, G., Mittal, D., Thakur, D. & Mittal, MK Một phương pháp học sâu để phát hiện vi-rút corona COVID-19 bằng hình ảnh X-quang.Biocybern.sinh học.Tiếng Anh40, 1391–1405.https://doi.org/10.1016/j.bbe.2020.08.008 (2020).
Bài báo PubMed PubMed Central Google Scholar
Kana, EB G., Kana, MG Z., Kana, AF D. & Kenfack, RH A. Một công cụ chẩn đoán dựa trên web cho COVID-19 bằng cách sử dụng máy học trên phim chụp X quang ngực (cxr).medRxiv https://doi.org/10.1101/2020.04.21.20063263 (2020).
Zokaeinikoo, M., Kazemian, P., Mitra, P. & Kumara, S. Aidcov: Một mô hình trí tuệ nhân tạo có thể hiểu được để phát hiện COVID-19 từ hình ảnh chụp X quang ngực.medRxiv https://doi.org/10.1101/2020.05.24.20111922 (2020).
Tamal, M. và cộng sự.Một khuôn khổ tích hợp với học máy và quang học để chẩn đoán sớm chính xác và nhanh chóng về COVID-19 từ phim X-quang ngực.hết hạnhệ thống.ứng dụng180, 115152. https://doi.org/10.1016/J.ESWA.2021.115152 (2021).
Bài báo Google Scholar
Ezzat, D., Hassanien, AE & Ella, HA Một kiến trúc học sâu được tối ưu hóa để chẩn đoán bệnh COVID-19 dựa trên tối ưu hóa tìm kiếm hấp dẫn.ứng dụngMáy tính mềm.98, 106742. https://doi.org/10.1016/J.ASOC.2020.106742 (2021).
Bài báo PubMed Google Scholar
Wang, Z. và cộng sự.Tự động phân biệt và khoanh vùng COVID-19 với bệnh viêm phổi mắc phải tại cộng đồng trên phim chụp X-quang ngực.Vỗ nhẹ.Nhận ra.110, 107613. https://doi.org/10.1016/J.PATCOG.2020.107613 (2021).
Bài báo Google Scholar
Khan, AI, Shah, JL & Bhat, MM Coronet: Mạng lưới thần kinh sâu để phát hiện và chẩn đoán COVID-19 từ hình ảnh X-quang ngực.Điện toán.Phương pháp Chương trình.sinh học.196, 105581. https://doi.org/10.1016/j.cmpb.2020.105581 (2020).
Bài báo Google Scholar
Apostolopoulos, ID & Mpesiana, TA COVID-19: Tự động phát hiện từ hình ảnh X-quang bằng cách sử dụng học chuyển giao với mạng thần kinh tích chập.vật lý.Tiếng AnhKhoa học.y tế.43, 635–640.https://doi.org/10.1007/s13246-020-00865-4 (2020).
Bài báo PubMed PubMed Central Google Scholar
Mangal, A. et al.Covidaid: Phát hiện COVID-19 bằng cách chụp X-quang ngực.https://doi.org/10.48550/archiv.2004.09803 (2020).
Sayyed, AQM S., Saha, D. & Hossain, A. R. Covmunet: Phương pháp tiếp cận đa tổn thất đối với việc phát hiện COVID-19 từ chụp X-quang ngực.https://doi.org/10.48550/arxiv.2007.14318 (2020).
Minaee, S., Kafieh, R., Sonka, M., Yazdani, S. & Soufi, GJ Deep-Covid: Dự đoán COVID-19 từ hình ảnh chụp X-quang ngực bằng cách sử dụng học chuyển giao sâu.y tế.Hậu môn hình ảnh.https://doi.org/10.1016/j.media.2020.101794 (2020).
Bài báo PubMed PubMed Central Google Scholar
Rahaman, MM và cộng sự.Xác định các mẫu COVID-19 từ hình ảnh X-quang ngực bằng cách sử dụng học sâu: So sánh các phương pháp học chuyển đổi.J. Khoa học X-quang.công nghệ.28, 821–839.https://doi.org/10.3233/XST-200715 (2020).
Bài báo CAS Google Scholar
Tsiknakis, N. et al.Khung trí tuệ nhân tạo có thể hiểu được để sàng lọc COVID-19 trên phim chụp X-quang ngực.hết hạntrị liệu.y tế.20, 727–735.https://doi.org/10.3892/etm.2020.8797 (2020).
Bài báo CAS Google Scholar
Elaziz, MA và cộng sự.Phương pháp học máy mới để chẩn đoán COVID-19 dựa trên hình ảnh.XIN MỘT SỐ 15, e0235187.https://doi.org/10.1371/journal.pone.0235187 (2020).
Bài báo CAS PubMed PubMed Central Google Scholar
Yamac, M. và cộng sự.Convolutional thưa thớt hỗ trợ công cụ ước tính dựa trên nhận dạng COVID-19 từ hình ảnh X-quang.IEEE Trần.Mạng thần kinhHọc hỏi.Syst.https://doi.org/10.48550/arxiv.2005.04014 (2020).
Bài báo Google Scholar
Fan, Y., Liu, J., Yao, R. & Yuan, X. Phát hiện COVID-19 từ hình ảnh X-quang bằng cách sử dụng mạng chú ý kênh không gian kích thước đa nhân.Vỗ nhẹ.Nhận ra.119, 108055. https://doi.org/10.1016/J.PATCOG.2021.108055 (2021).
Bài báo Google Scholar
Farooq, M. & Hafeez, A. Covid-resnet: Một khuôn khổ học sâu để sàng lọc COVID19 từ phim X quang.https://doi.org/10.48550/arxiv.2003.14395 (2020).
Wang, L., Lin, ZQ & Wong, A. Covid-net: Một thiết kế mạng thần kinh tích chập sâu phù hợp để phát hiện các trường hợp COVID-19 từ hình ảnh X-quang ngực.Khoa học.Dân biểu 10, 19549. https://doi.org/10.1038/s41598-020-76550-z (2020).
Article ADS CAS PubMed PubMed Central Google Scholar
Ahmed, KB, Goldgof, GM, Paul, R., Goldgof, DB & Hall, LO Phát hiện ra lỗ hổng tổng quát hóa của mạng nơ ron tích chập trên phân loại tia X COVID-19.Truy cập IEEE 9, 72970–72979.https://doi.org/10.1109/access.2021.3079716 (2021).
Bài báo PubMed Google Scholar
Gil , D. , Diaz-Chito , K. , Sanchez , C. & Hernandez-Sabaté , A. Sàng lọc sớm sars-cov-2 bằng phân tích thông minh hình ảnh X-quang.https://doi.org/10.48550/archiv.2005.13928 (2020).
Heidari, M. và cộng sự.Cải thiện hiệu suất của cnn để dự đoán khả năng xảy ra COVID-19 bằng cách sử dụng hình ảnh X-quang ngực với các thuật toán tiền xử lý.quốc tếJ. Med.Thông báo.144, 104284. https://doi.org/10.1016/J.IJMEDINF.2020.104284 (2020).
Bài báo PubMed PubMed Central Google Scholar
Qi, X., Foran, D. J., Nosher, J. L. & Hacihaliloglu, I. Học bán giám sát đa tính năng để chẩn đoán COVID-19 từ hình ảnh X-quang ngực (2021).
Degerli, A., Kiranyaz, S., Chowdhury, ME H. & Gabbouj, M. Osegnet: Mạng phân đoạn hoạt động để phát hiện COVID-19 bằng hình ảnh X-quang ngực.Arxiv abs/2202.10185 (2022).
Guarrasi , V. , D'Amico , NC , Sicilia , R. , Cordelli , E. & Soda , P. Pareto tối ưu hóa mạng sâu để chẩn đoán COVID-19 từ chụp X-quang ngực.Vỗ nhẹ.Nhận ra.121 , 108242. https://doi.org/10.1016/J.PATCOG.2021.108242 (2022).
Bài báo Google Scholar
Luz, E. và cộng sự.Hướng tới một mô hình học sâu hiệu quả và hiệu quả để phát hiện các mẫu COVID-19 trong hình ảnh X-quang.độ phân giảisinh học.Eng.https://doi.org/10.1007/s42600-021-00151-6 (2020).
Bài báo Google Scholar
Nhận dạng Pereira, RM, Bertolini, D., Teixeira, LO, Silla, CN & Costa, YM COVID-19 trong hình ảnh chụp X-quang ngực trên các tình huống phân loại phẳng và phân cấp.Điện toán.Phương pháp Chương trình.sinh học.194, 105532. https://doi.org/10.1016/J.CMPB.2020.105532 (2020).
Bài báo Google Scholar
Moura, JD và cộng sự.Các phương pháp tích chập sâu để phân tích COVID-19 bằng cách sử dụng hình ảnh X-quang ngực từ các thiết bị di động.Truy cập IEEE 8, 195594–195607.https://doi.org/10.1109/ACCESS.2020.3033762 (2020).
Bài báo PubMed Google Scholar
Kassania, SH, Kassanib, PH, Wesolowskic, MJ, Schneidera, KA & Detersa, R. Tự động phát hiện bệnh vi-rút corona (COVID-19) trong hình ảnh X-quang và ct: Phương pháp tiếp cận dựa trên học máy.Biocybern.sinh học.Tiếng Anh41, 867–879.https://doi.org/10.1016/j.bbe.2021.05.013 (2021).
Bài báo PubMed PubMed Central Google Scholar
Teixeira, LO và cộng sự.Tác động của phân đoạn phổi đối với chẩn đoán và giải thích về COVID-19 trong hình ảnh X-quang ngực.Cảm biến 21, 7116. https://doi.org/10.3390/s21217116 (2021).
Article ADS CAS PubMed PubMed Central Google Scholar
Maguolo, G. & Nanni, L. Một đánh giá phê bình về các phương pháp phát hiện tự động COVID-19 từ hình ảnh X-quang.thông tin liên lạcFus.76, 1–7.https://doi.org/10.1016/j.inffus.2021.04.008 (2021).
Bài báo Google Scholar
Singh, KK & Singh, A. Chẩn đoán COVID-19 từ hình ảnh X-quang ngực bằng cách sử dụng mạng tích chập theo chiều sâu dựa trên sóng con.Dữ liệu lớn tối thiểuhậu môn.4, 84–93.https://doi.org/10.26599/BDMA.2020.9020012 (2021).
Bài báo Google Scholar
Li, X., Li, C. & Zhu, D. Covid-mobileexpert: Phân loại bệnh nhân COVID-19 trên thiết bị và theo dõi bằng cách chụp X-quang ngực.https://doi.org/10.48550/arxiv.2004.03042 (2020).
Signoroni, A. et al.Bs-net: Tìm hiểu mức độ nghiêm trọng của bệnh viêm phổi do COVID-19 trên bộ dữ liệu chụp X-quang ngực lớn.y tế.Hình Ảnh Hậu Môn.71, 102046. https://doi.org/10.1016/J.MEDIA.2021.102046 (2021).
Bài báo PubMed PubMed Central Google Scholar
Bararia, A., Ghosh, A., Bose, C. & Bhar, D. Mạng lưới tiên lượng cận lâm sàng cho bệnh nhân COVID 19 từ dữ liệu chụp X quang lồng ngực: Một công nghệ sàng lọc thay thế khả thi.medRxivhttps://doi.org/10.1101/2020.09.07.20189852 (2020).
Bài báo Google Scholar
Cohen, JP và cộng sự.Dự đoán mức độ nghiêm trọng của bệnh viêm phổi do COVID-19 trên phim chụp X-quang ngực bằng kỹ thuật học sâu.Cureushttps://doi.org/10.48550/arxiv.2005.11856 (2020).
Bài báo PubMed PubMed Central Google Scholar
Irmak, E. Đánh giá mức độ nghiêm trọng của bệnh COVID-19 bằng mô hình cnn.Quá trình hình ảnh IET.15, 1814–1824.https://doi.org/10.1049/ipr2.12153 (2021).
Bài báo PubMed PubMed Central Google Scholar
Tahir, AM và cộng sự.Khu trú và phân loại mức độ nghiêm trọng của nhiễm trùng COVID-19 từ hình ảnh chụp X-quang ngực.Điện toán.sinh học.y tế.139, 105002. https://doi.org/10.1016/J.COMPBIOMED.2021.105002 (2021).
Bài báo CAS PubMed PubMed Central Google Scholar
Công viên, S. và cộng sự.Máy biến hình tầm nhìn đa tác vụ sử dụng kho văn bản có tính năng chụp X-quang ngực ở mức độ thấp để chẩn đoán và định lượng mức độ nghiêm trọng của COVID-19.y tế.Hình Ảnh Hậu Môn.75, 102299. https://doi.org/10.1016/J.MEDIA.2021.102299 (2022).
Bài báo PubMed Google Scholar
de la Iglesia Vayá, M. et al.Bimcv covid-19+: một tập dữ liệu lớn có chú thích về hình ảnh rx và ct từ bệnh nhân COVID-19.1–22 (2020).
Desai, S. và cộng sự.Hình ảnh chụp ngực đại diện cho dân số nông thôn Hoa Kỳ dương tính với COVID-19.Khoa học.Dữ liệu 7, 414. https://doi.org/10.1038/s41597-020-00741-6 (2020).
Bài báo CAS PubMed PubMed Central Google Scholar
Winther, H. B. và cộng sự.Bộ dữ liệu: Kho ảnh Covid-19, https://doi.org/10.6084/m9.figshare.12275009 (2020).
Chung, A. Cơ sở dữ liệu chụp X-quang thực tế-covid-ngực: Sáng kiến bộ dữ liệu chụp X-quang ngực thực tế-COVID-19 (2020).
Chowdhury, MEH và cộng sự.Ai có thể giúp sàng lọc bệnh viêm phổi do virus và COVID-19 không?.Truy cập IEEE 8, 132665–132676.https://doi.org/10.1109/ACCESS.2020.3010287 (2020).
Bài báo Google Scholar
Cơ sở dữ liệu Covid-19 - sirm (2020).
Yamac, M. và cộng sự.Convolutional thưa thớt hỗ trợ nhận dạng COVID-19 dựa trên công cụ ước tính từ hình ảnh X-quang.IEEE Trans.Mạng thần kinhHọc hỏi.hệ thống.32, 1810–1820.https://doi.org/10.1109/TNNLS.2021.3070467 (2021).
Bài báo MathSciNet PubMed Google Scholar
Radiopedia.org.COVID19 |tìm kiếm |radiopaedia.org (2020).
EuroRad.Kết quả tìm kiếm của Euorad cho COVID-19 (2020).
Soda, P. và cộng sự.Aiforcovid: Dự đoán kết quả lâm sàng ở bệnh nhân mắc COVID-19 khi áp dụng ai vào chụp X-quang ngực.Một nghiên cứu đa trung tâm của Ý.y tế.Phân tích hình ảnh.74, 102216 (2020).
Bài báo Google Scholar
Imaging, C. Đây là chủ đề về COVID-19 cxr (2020).
Hiệp hội hình ảnh lồng ngực của Anh.Cơ sở dữ liệu hình ảnh lồng ngực của hiệp hội COVID-19 của Anh.
Chung, A. Hình 1 Sáng kiến bộ dữ liệu X-quang ngực COVID-19 (2020).
Rahman, T. và cộng sự.Khám phá hiệu quả của các kỹ thuật nâng cao hình ảnh đối với việc phát hiện COVID-19 bằng cách sử dụng hình ảnh X-quang ngực.Điện toán.sinh học.y tế.132, 104319. https://doi.org/10.1016/J.COMPBIOMED.2021.104319 (2021).
Bài báo CAS PubMed PubMed Central Google Scholar
Mùa hè, R. & NIH.Nxr8 |với công nghệ hộp (2020).
Irvin, J. và cộng sự.Cheexpert: Một bộ dữ liệu chụp X quang ngực lớn với các nhãn không chắc chắn và so sánh của chuyên gia.Proc.Hội nghị AAAInghệ thuật.thông minh.33, 590–597.https://doi.org/10.1609/aaai.v33i01.3301590 (2019).
Bài báo Google Scholar
Bassi, PR & Attux, R. Một mạng nơ-ron tích chập sâu để phát hiện COVID-19 bằng cách sử dụng tia X-quang ngực.độ phân giảisinh học.Tiếng Anh38, 139–148.https://doi.org/10.1007/S42600-021-00132-9/FIGURES/4 (2022).
Bài báo Google Scholar
Bustos, A., Pertusa, A., Salinas, JM & de la Iglesia-Vayá, M. Padchest: Bộ dữ liệu hình ảnh X-quang ngực lớn với các báo cáo chú thích nhiều nhãn.y tế.Hình Ảnh Hậu Môn.66, 101797. https://doi.org/10.1016/j.media.2020.101797 (2020).
Bài báo PubMed Google Scholar
Kermany, DS và cộng sự.Xác định chẩn đoán y tế và các bệnh có thể điều trị bằng cách học sâu dựa trên hình ảnh.Ô 172, 1122-1131.e9.https://doi.org/10.1016/j.cell.2018.02.010 (2018).
Bài báo CAS PubMed Google Scholar
của Bắc Mỹ, thử thách phát hiện bệnh viêm phổi R. S. Rsna |kaggle (2019).
Shiraishi, J. và cộng sự.Phát triển cơ sở dữ liệu hình ảnh kỹ thuật số cho chụp X quang ngực có và không có nốt phổi.Là.J. Roentgenol.174, 71–74.https://doi.org/10.2214/ajr.174.1.1740071 (2000).
Bài báo CAS Google Scholar
Jaeger, S. và cộng sự.Hai bộ dữ liệu X-quang ngực công khai để sàng lọc các bệnh phổi có sự trợ giúp của máy tính.số lượng.tưởng tượng.y tế.phẫu thuật.4, 475–477.https://doi.org/10.3978/j.issn.2223-4292.2014.11.20 (2014).
Bài báo Google Scholar
Kermany, D., Zhang, K. & Goldbaum, M. Bộ dữ liệu lớn về chụp cắt lớp kết hợp quang học được dán nhãn (oct) và hình ảnh X-quang ngực.menđen.Dữ liệuhttps://doi.org/10.17632/RSCBJBR9SJ.3 (2018).
Bài báo Google Scholar
Cruz, BGS, Bossa, MN, Sölter, J. & Husch, AD Public COVID-19 Bộ dữ liệu X-quang và tác động của chúng đối với độ lệch của mô hình: Đánh giá có hệ thống về một vấn đề quan trọng.y tế.Hình Ảnh Hậu Môn.74, 102225. https://doi.org/10.1016/j.media.2021.102225 (2021).
Bài báo Google Scholar
Bộ công cụ kiểm tra sự thiên vị và công bằng cho học máy - tài liệu về aequitas.
Hochhegger, B. et al.Ngực và lão hóa: biểu hiện X quang.J. Brazil.khí hư.38, 656–665.https://doi.org/10.1590/S1806-37132012000500016 (2012).
Bài báo Google Scholar
Serrano, CO và cộng sự.Chụp X-quang ngực cho trẻ em trong trường hợp nhiễm COVID-19.Ơ.J. Phóng xạ.131, 109236. https://doi.org/10.1016/j.ejrad.2020.109236 (2020).
Bài báo Google Scholar
Hlabangana, LT et al.Độ tin cậy giữa những người đánh giá trong việc đảm bảo chất lượng (qa) chụp X-quang ngực cho trẻ em.J. Med.tưởng tượng.bức xạ.Khoa học.52, 427–434.https://doi.org/10.1016/j.jmir.2021.04.002 (2021).
Bài báo Google Scholar
Albrandt-Salmeron, A., Espejo-Fonseca, R. & Roldan-Valadez, E. Mối tương quan giữa mức độ nghiêm trọng của X-quang ngực ở COVID-19 và tuổi ở bệnh nhân Mexico-mestizo: Một nghiên cứu cắt ngang quan sát.BioMed Res.quốc tế2021, 5571144. https://doi.org/10.1155/2021/5571144 (2021).
Bài báo CAS PubMed PubMed Central Google Scholar
Borghesi, A. & Maroldi, R. Đợt bùng phát COVID-19 ở Ý: Hệ thống tính điểm X-quang ngực thử nghiệm để định lượng và theo dõi tiến triển của bệnh.La Radiol.y tế.125, 509–513.https://doi.org/10.1007/s11547-020-01200-3 (2020).
Bài báo Google Scholar
Jacobi, A., Chung, M., Bernheim, A. & Eber, C. Chụp X-quang ngực di động trong bệnh vi-rút corona-19 (COVID-19): Đánh giá bằng hình ảnh.lâm sàng.tưởng tượng.64, 35–42.https://doi.org/10.1016/j.clinimag.2020.04.001 (2020).
Bài báo Google Scholar
Tải tài liệu tham khảo
Chúng tôi xin cảm ơn Đại học Autonoma de Manizales đã thực hiện bài báo này như một phần của dự án “Phát hiện COVID-19 trong hình ảnh X-quang bằng cách sử dụng mạng thần kinh tích chập” với mã số 699-106 và Minciencias đã tài trợ cho dự án này theo yêu cầu số Không 874 năm 2020, có tên “Kêu gọi tăng cường các dự án thực hiện CTeI trong Khoa học sức khỏe với tài năng trẻ và tác động khu vực” cũng cho các dự án “CH-T1246: Cơ hội thị trường cho các công ty công nghệ - Mua sắm công khai các thuật toán có trách nhiệm, đạo đức và minh bạch ” và ANID PIA/BASAL FB0002, trợ giúp với các ứng dụng công cụ đạo đức trong bài viết này.
Các tác giả này đã đóng góp như nhau: Daniel Arias-Garzón và Reinel Tabares-Soto.
Khoa Điện tử và Tự động hóa, Đại học Tự trị Manizales, Manizales, 170001, Colombia
Daniel Arias-Garzón, Reinel Tabares-Soto và Joshua Bernal-Salcedo
Khoa Kỹ thuật và Khoa học, Đại học Adolfo Ibáñez, 7941169, Santiago, Chile
Reinel Tabares-Soto & Gonzalo A. Ruz
Trung tâm Ứng dụng Sinh thái và Bền vững (CAPES), 8331150, Santiago, Chile
Tổ chức quan sát dữ liệu, 7941169, Santiago, Chile
Khoa Hệ thống và Tin học, Đại học Caldas, Manizales, 170001, Colombia
Bạn cũng có thể tìm kiếm tác giả này trong PubMed Google Scholar
Bạn cũng có thể tìm kiếm tác giả này trong PubMed Google Scholar
Bạn cũng có thể tìm kiếm tác giả này trong PubMed Google Scholar
Bạn cũng có thể tìm kiếm tác giả này trong PubMed Google Scholar
DA-G.đã phát triển hầu hết mã chính và viết bản thảo, đồng thời chuẩn bị tất cả các bảng và Hình ngoại trừ Hình 15, 16 và 17. Quy tắc Đạo đức và nghiên cứu được phát triển bởi JB-S.bao gồm Hình 15, 16 và 17, RT-S.giám sát công việc phát triển dự án và GAR giám sát Hợp phần đạo đức trong nghiên cứu.Tất cả các tác giả đã xem xét bản thảo.
Thư từ cho Gonzalo A. Ruz.
Các tác giả tuyên bố không có lợi ích cạnh tranh.
Springer Nature giữ thái độ trung lập đối với các tuyên bố về quyền tài phán trong các bản đồ đã xuất bản và các tổ chức liên kết.
Truy cập Mở Bài viết này được cấp phép theo Giấy phép Quốc tế Creative Commons Attribution 4.0, cho phép sử dụng, chia sẻ, điều chỉnh, phân phối và tái sản xuất ở bất kỳ phương tiện hoặc định dạng nào, miễn là bạn cung cấp tín dụng phù hợp cho (các) tác giả gốc và nguồn, cung cấp liên kết đến giấy phép Creative Commons và cho biết liệu các thay đổi có được thực hiện hay không.Hình ảnh hoặc tài liệu của bên thứ ba khác trong bài viết này được bao gồm trong giấy phép Creative Commons của bài viết, trừ khi có quy định khác trong hạn mức tín dụng đối với tài liệu.Nếu tài liệu không có trong giấy phép Creative Commons của bài viết và mục đích sử dụng của bạn không được phép theo quy định pháp luật hoặc vượt quá mức sử dụng được phép, bạn sẽ cần xin phép trực tiếp từ người giữ bản quyền.Để xem bản sao của giấy phép này, hãy truy cập http://creativecommons.org/licenses/by/4.0/.
In lại và Quyền
Arias-Garzón, D., Tabares-Soto, R., Bernal-Salcedo, J. et al.Những sai lệch liên quan đến cấu trúc cơ sở dữ liệu để phát hiện COVID-19 trong hình ảnh X-quang.Đại diện khoa học số 13, 3477 (2023).https://doi.org/10.1038/s41598-023-30174-1
Tải xuống trích dẫn
Nhận: ngày 24 tháng 6 năm 2022
Chấp nhận: ngày 17 tháng 2 năm 2023
Đã xuất bản: 01 Tháng Ba 2023
DOI: https://doi.org/10.1038/s41598-023-30174-1
Bất kỳ ai được bạn chia sẻ liên kết sau đều có thể đọc nội dung này:
Xin lỗi, một liên kết có thể chia sẻ hiện không có sẵn cho bài viết này.
Được cung cấp bởi sáng kiến chia sẻ nội dung Springer Nature SharedIt
Bằng cách gửi nhận xét, bạn đồng ý tuân theo Điều khoản và Nguyên tắc cộng đồng của chúng tôi.Nếu bạn thấy nội dung nào đó lạm dụng hoặc không tuân thủ các điều khoản hoặc nguyên tắc của chúng tôi, vui lòng gắn cờ nội dung đó là không phù hợp.
Báo cáo Khoa học (Sci Rep) ISSN 2045-2322 (trực tuyến)

Thiết Bị Nghe Xuyên Tường Đăng ký nhận bản tin Nature Briefing - những gì quan trọng trong khoa học, miễn phí trong hộp thư đến của bạn hàng ngày.