Według badań opublikowanych 20 czerwca w czasopiśmie Radiology, modele sztucznej inteligencji opracowane na podstawie różnych zestawów danych USG tarczycy pod względem szpitali, dostawców i regionów wykazują wyższą wydajność diagnostyczną.
Zespół kierowany przez WenWen Xu, MD, z Shanghai Jiao Tong University w Chinach również odkrył, że oparta na regułach pomoc sztucznej inteligencji poprawiła diagnostykę raka tarczycy przez radiologów.
„Nasze badanie stanowi przydatne odniesienie do rozwoju uogólnionych modeli AI USG tarczycy w przyszłości” – napisali Xu i współpracownicy.
Podczas gdy poprzednie badania sugerują, że modele AI poprawiają ultradźwiękową ocenę guzków tarczycy, naukowcy zauważyli, że ich zastosowanie jest ograniczone ze względu na brak możliwości uogólnienia. Napisali, że obrazowanie ultrasonograficzne ma „unikalne” cechy, takie jak zależność od operatora. Według autorów w grę wchodzą również inne zmienne, w tym sprzęt medyczny, tryby skanowania, ustawienia, protokoły obrazowania i techniki interpretacji.
Xu i jego współpracownicy chcieli opracować możliwe do uogólnienia ultrasonograficzne modele wykrywania, segmentacji i klasyfikacji AI oparte na rzeczywistych zbiorach danych z ogólnokrajowych szpitali w różnych regionach Chin. Zespół chciał również zmierzyć poprawę diagnostyczną radiologów poprzez włączenie modeli AI do praktyki klinicznej.
Zespół uwzględnił dane od 10 023 kolejnych pacjentów z patologicznie potwierdzonymi guzkami tarczycy. Pacjenci zostali poddani badaniu ultrasonograficznemu przy użyciu sprzętu od 12 dostawców w 208 chińskich szpitalach. Badacze wykorzystali zarówno indywidualne, jak i mieszane dane dostawców.
Naukowcy odkryli, że model wykrywania osiągnął średnią precyzję 98%, model segmentacji miał średni współczynnik Dice 0,86, a model klasyfikacji miał pole pod krzywą (AUC) 0,9 na zbiorze testowym obejmującym łącznie 1020 obrazów.
Porównując dane dotyczące wydajności w różnych zestawach danych, badacze odkryli również, że model segmentacji trenowany na danych ogólnokrajowych i model klasyfikacji trenowany na mieszanych danych dostawców wykazały najlepszą wydajność w testach. Obejmowało to odpowiednio współczynnik Dice 0,91 i wartość AUC 0,98.
Ponadto model klasyfikacyjny przewyższył trzech starszych i trzech młodszych radiologów w badaniu oceny na poziomie obrazu i pacjenta, z wartościami AUC odpowiednio 0,87 i 0,9 (p < 0,05 dla wszystkich porównań).
Model poprawił również wydajność sześciu radiologów podczas korzystania z pomocy AI opartej na regułach (p < 0,05 dla wszystkich porównań). Ta pomoc oznacza, że jeśli model klasyfikacyjny przewidywał złośliwy guzek tarczycy, oryginalna chińska kategoria TI-RADS w pierwszej ocenie zostaje podwyższona o jeden poziom.
Sami radiologowie mieli AUC w zakresie od 0,79 do 0,85 na poziomie obrazu i między 0,82 a 0,88 na poziomie pacjenta. Dzięki pomocy sztucznej inteligencji opartej na regułach zakresy te wzrosły do wartości między 0,85 a 0,88 na poziomie obrazu i między 0,87 a 0,9 na poziomie pacjenta. Wszystkie różnice były istotne statystycznie (p < 0,001, z wyjątkiem jednego czytelnika na poziomie pacjenta, p = 0,02).
Jednak model zespołu wykazał zmienną wydajność w zestawach testów skompilowanych z różnych regionów geograficznych. Okazało się, że najwyższe wartości AUC były we wszystkich zestawach testowych, gdy oceniano model ogólnokrajowy. Wartości AUC dla wschodniego wybrzeża, śródlądowych i ogólnokrajowych zestawów testowych wynosiły odpowiednio 0,86, 0,84 i 0,84. Najniższe wartości stwierdzono natomiast w ogólnokrajowym zbiorze testowym, gdy stosowano śródlądowy zestaw treningowy (AUC = 0,64) oraz w zbiorze testowym wschodniego wybrzeża, gdy stosowano śródlądowy zestaw szkoleniowy (AUC = 0,64).
Autorzy badania napisali, że pomimo ich wyników wciąż jest miejsce na poprawę, powołując się na wydajność modelu w różnych odmianach geograficznych. Mimo to podkreślili, że ich wyniki pokazują znaczenie różnorodności danych dla opracowywania modeli sztucznej inteligencji.