Porovnání přesnosti detekce abnormalit na rtg snímcích hrudníku softwarem Carebot AI CXR a radiology
Comparison of performance between artificial intelligence and radiologists in detecting abnormalities on chest X-rays
Artificial intelligence (AI) has been increasingly applied in radiology, where it offers the potential to improve the accuracy and efficiency of diagnosis, particularly in the evaluation of conventional imaging modalities such as chest X-rays. This study analyzes the performance of commercial software using machine learning and, respectively, artificial intelligence approaches (Carebot AI CXR; Carebot s.r.o.) in detecting abnormalities in chest radiographs compared with independent evaluations by 3 radiologists of different levels of experience. The study was conducted in collaboration with Hospital Tabor, which provided a dataset of 207 anonymised radiographs, out of which 196 were assessed as relevant. The sensitivity and specificity of AI were compared with human assessment in 5 categories of abnormalities: atelectasis (ATE), consolidation (CON), cardiac shadow enlargement (CMG), pleural effusion (EFF) and pulmonary lesions (LES).
Carebot AI CXR software achieved high sensitivity in all evaluated categories (e.g., ATE: 0.909, CMG: 0.889, EFF: 0.951), and its performance was consistent across all findings. In contrast, AI specificity was lower in some categories (e.g., EFF: 0.792, CON: 0.895), while radiologists achieved performance values approaching 1.000 in most cases (e.g., RAD 1 and RAD 2 EFF: 1.000). AI demonstrated consistently higher sensitivity than less experienced radiologists (e.g., RAD 1 ATE: 0.087, CMG: 0.327) and in some cases than more experienced assessors, but at a modest decrease in specificity.
The study also includes case reports, including false-positive and false-negative findings, which contribute to a deeper understanding of AI performance in clinical practice. The results suggest that AI can effectively complement the work of radiologists, especially for less experienced doctors, and improve the sensitivity of diagnosis on chest radiographs.
Keywords:
artificial intelligence, radiology, chest X-ray, abnormality detection, multi-reader study
Authors:
Jakub Dandár 1; Tomáš Jindra 2; Daniel Kvak 1, 3
Authors‘ workplace:
Carebot, s. r. o., Praha
1; Nemocnice Tábor, a. s.
2; Masarykova univerzita v Brně
3
Published in:
Čas. Lék. čes. 2025; 164: 125-140
Category:
Original Article
Overview
Umělá inteligence (AI) se stále častěji uplatňuje v radiologii, kde nabízí potenciál zlepšit přesnost a efektivitu diagnostiky, zejména při hodnocení běžných zobrazovacích metod, jako jsou rtg snímky hrudníku. Tato studie analyzuje přesnost komerčního softwaru využívajícího strojové učení, respektive metody umělé inteligence, při detekci abnormalit na rtg snímcích hrudníku ve srovnání s nezávislými hodnoceními 3 juniorních radiologů. Výzkum byl proveden ve spolupráci s Nemocnicí Tábor, která poskytla dataset 207 anonymizovaných rtg snímků, z nichž 196 bylo vyhodnoceno jako relevantní. Senzitivita a specificita AI byla porovnána s lidským hodnocením v 5 kategoriích abnormalit: atelektáza (ATE), konsolidace (CON), zvětšení srdečního stínu (CMG), pleurální výpotek (EFF) a plicní léze (LES).
Software Carebot AI CXR dosáhl vysoké senzitivity ve všech hodnocených kategoriích (např. ATE: 0,909; CMG: 0,889; EFF: 0,951), přičemž jeho přesnost byla konzistentní napříč všemi nálezy. Naopak specificita AI byla v některých kategoriích nižší (např. EFF: 0,792; CON 0,895), zatímco u radiologů dosahovala ve většině případů hodnot blížících se 1,000 (např. RAD 1 a RAD 2 EFF: 1,000). AI vykazovala konzistentně vyšší senzitivitu než méně zkušení radiologové (např. RAD 1 ATE: 0,087; CMG: 0,327) a v některých případech i než zkušenější hodnotitelé, avšak za cenu mírného snížení specificity.
Studie zahrnuje také kazuistiky, včetně falešně pozitivních a falešně negativních nálezů, které přispívají k hlubšímu pochopení přesnosti AI v klinické praxi. Výsledky naznačují, že AI může efektivně doplňovat práci radiologů, zejména u méně zkušených lékařů, a zlepšit senzitivitu diagnostiky na rtg snímcích hrudníku.
Klíčová slova:
umělá inteligence, radiologie, rtg hrudníku, detekce abnormalit, multi-reader studie
ÚVOD
Rentgenové vyšetření hrudníku představuje jeden z nejčastěji používaných diagnostických zobrazovacích nástrojů v klinické praxi (1). Slouží jako základní metoda pro odhalování a hodnocení hrudních patologií, jako jsou plicní onemocnění, srdeční abnormality a trauma. Přes svou širokou dostupnost a využití je interpretace skiagramu značně náročná. Případné nálezy mohou být subtilní, obrazová kvalita proměnlivá a konvenční radiografické metody často poskytují pouze omezené rozlišení (2). Tyto faktory přispívají k diagnostickým chybám a neshodám, které jsou dále zhoršovány rostoucí poptávkou po radiologických službách a globálním nedostatkem zkušených radiologů (3).
Zkušenosti radiologů přitom hrají klíčovou roli v přesnosti hodnocení rtg snímků hrudníku. Zatímco seniorní radiologové dosahují vyšší přesnosti, méně zkušení lékaři, respektive absolventi, mohou mít potíže s rozpoznáváním subtilních, nebo naopak komplexních patologických nálezů (4). Tato variabilita přináší riziko nesouladu mezi hodnotiteli, což představuje významnou výzvu pro spolehlivost diagnostiky. V posledních letech se jako slibný nástroj pro podporu radiologů v diagnostice na podkladě výstupů získaných zobrazovacími metodami prosazují systémy počítačem asistované detekce (CAD – computer-aided detection) využívající strojové, respektive hluboké učení. Tyto systémy, často založené na konvolučních neuronových sítích (CNN – convolutional neural network) (5), dokážou konzistentně analyzovat rozsáhlé datové sady medicínských obrazů a mají tak do značné míry potenciál redukovat interindividuální variabilitu mezi lékaři.
Záměrem této studie je posoudit přesnost komerčně dostupného softwaru (Carebot AI CXR) využívajícího hluboké učení při detekci některých klinicky relevantních abnormalit na rtg snímcích hrudníku v reálných klinických podmínkách. Klíčovým cílem je posoudit shodu hodnocení AI s původním popisem hodnotících lékařů, ověřit, zda AI dokáže zvýšit senzitivitu bez kompromitace specificity, snížit počet falešně negativních nálezů a přispět ke standardizaci diagnostického výsledku napříč radiology.
METODIKA
Software
Použitý systém (Carebot AI CXR) (obr. 1) je certifikovaný zdravotnický prostředek třídy IIa sloužící k detekci abnormalit na rentgenových snímcích hrudníku za pomocí algoritmů AI. Software využívá pokročilé techniky hlubokého učení a počítačového vidění k analýze snímků ve standardních posteroanteriorních (PA) a anteroposteriorních (AP) projekcích. Jeho hlavním účelem je podpora lékařů při lokalizaci různých patologických stavů, mezi které patří atelektáza (ATE), konsolidace (NOC), zvětšení srdečního stínu (CMG), pleurální výpotek (EFF), plicní léze (LES), pneumothorax (PNO) a subkutánní emfyzém (SCE). Algoritmus je založen na hlubokých konvolučních neuronových sítích (FCNN) a používá architekturu YOLO (You Only Look Once) (6).
Vývoj a validace systému probíhaly na rozsáhlém datasetu obsahujícím anonymizované rentgenové snímky získané z klinických pracovišť v Evropě, Asii a Severní Americe. Tento dataset zahrnoval 213 618 anotací, které byly vytvořeny týmem 31 radiologů s různými úrovněmi praxe, od 1 roku (L1) až po více než 10letou zkušenost (L3). Software je navržen s ohledem na snadnou integraci do stávajících radiologických pracovních postupů, včetně integrace s PACS (Picture Archiving and Communication Systems).
Dataset
Tato studie byla provedena ve spolupráci s Nemocnicí Tábor, která zajišťuje zdravotní péči pro spádovou oblast přibližně 150 000 obyvatel. Rentgenové snímky hrudníku byly retrospektivně selektovány za období od 2. do 5. dubna 2024 v rámci běžného klinického provozu radiodiagnostického oddělení nemocnice. Všechny snímky byly před analýzou anonymizovány přímo v systému PACS v souladu s nařízením GDPR (7). Proces anonymizace zahrnoval odstranění všech metadat, která by mohla přímo nebo nepřímo identifikovat pacienty. Vzhledem k plné anonymizaci dat nebylo nutné získávat souhlas pacientů.
Do studie bylo zahrnuto 207 rtg snímků hrudníku. Po aplikaci vylučovacích kritérií, která zahrnovala odstranění duplicitních snímků, rtg snímků v laterální projekci a snímků nízké kvality, bylo pro analýzu zařazeno celkem 196 relevantních snímků (tzv. testovací datová sada). Snímky byly pořízeny pomocí 2 typů rtg přístrojů (tab. 1), jmenovitě Canon Inc. CXDI Control Software NE (n = 194) a Samsung Electronics GM85FIT (n = 2).
Tab. 1 Přehled použitých rtg přístrojů v testovací datové sadě
Použitý rtg přístroj |
n |
Canon Inc. CXDI Control Software NE |
194 |
Samsung Electronics GM85FIT |
2 |
Referenční standard
Proces stanovení referenčního standardu zahrnoval manuální přezkoumání původních nálezů (tedy zda původní popis souhlasí s nálezem na snímku a dalšími vyšetřeními pacienta) rentgenových snímků seniorním radiologem s více než 10 lety zkušeností (T. J.). Takto vytvořený dataset byl získán z klinického systému nemocnice a obsahoval detailní hodnocení každého snímku. Každý snímek byl následně manuálně klasifikován na základě přítomnosti či absence 7 vybraných abnormalit (tab. 2), mezi něž patřily ATE, CON, CMG, EFF a LES, PNO a SCE byly vzhledem k nízké prevalenci vyřazeny (n = 1, resp. n = 0). Kategorizace byla provedena podle standardizovaných diagnostických kritérií a odpovídala běžné klinické praxi. U negativních nálezů bylo vyžadováno, aby hodnocení radiologa potvrzovalo absenci patologických změn či aby přítomnost výrazných změn report nezmiňoval (obr. 2). U pozitivních nálezů bylo rozhodnuto o jejich přítomnosti na základě jasných známek abnormalit uvedených v původním popisu (obr. 3).
Tab. 2 Prevalence nálezů dle referenčního standardu v testovací datové sadě
Nález |
Pozitivní |
Negativní |
Atelektáza (ATE) |
23 |
173 |
Konsolidace (CON) |
34 |
162 |
Zvětšení srdečního stínu (CMG) |
55 |
141 |
Pleurální výpotek (EFF) |
42 |
154 |
Plicní léze (LES) |
8 |
188 |
Cíle
Hlavním cílem této studie je hodnocení přesností systému AI v detekci některých klinicky relevantních abnormalit na rentgenových snímcích hrudníku v prostředí reálné klinické praxe. Studie byla navržena jako multi-reader s umožněním komparace přesnosti AI s hodnocením 3 nezávislých juniorních radiologů různé úrovně zkušeností (tab. 3).
Jednotliví čtenáři hodnotili stejný zaslepený set snímků zaškrtáváním přítomnosti či absence výše uvedených abnormalit v prostředí na webu přístupné aplikace, bez předchozího tréninkového sezení (hodnocení probíhalo na základě běžných klinických zvyklostí), bez přístupu k výsledkům ostatních hodnotitelů či výsledkům AI. Hodnotící lékaři měli v rámci čtení snímků k dispozici standardní nástroje zahrnující nastavení jasu a kontrastu, měřítko, lupu a další. Součástí analýzy je rovněž posouzení konzistence výsledků mezi AI a lidskými hodnotiteli, přičemž důraz je kladen na analýzu případů falešně pozitivních a falešně negativních nálezů.
Tab. 3 Přehled zkušeností hodnotících lékařů zahrnutých do multi-reader studie
Hodnotitel |
Zkušenosti |
RAD 1 (K. I.) |
3 roky |
RAD 2 (R. P.) |
4 roky |
RAD 3 (A. K.) |
5 let |
Statistická analýza
Statistická analýza byla provedena za účelem vyhodnocení diagnostické účinnosti jednotlivých hodnotitelů (RAD1, RAD2, RAD3) a AI při interpretaci rtg snímků hrudníku. Pro všechny analyzované patologické nálezy, tj. ATE, CON, CMG, EFF a LES, byly vypočítány následující diagnostické parametry: senzitivita, specificita, pozitivní prediktivní hodnota (PPV), negativní prediktivní hodnota (NPV) a parametr interindividuální variability (Cohenova kappa). Výpočet těchto parametrů byl doplněn o odpovídající 95% intervaly spolehlivosti (CI).
Senzitivita byla definována jako poměr pravdivě pozitivních nálezů (TP) k součtu všech skutečně pozitivních nálezů (TP a falešně negativních [FN]). Specificita potom jako poměr pravdivě negativních nálezů (TN) k součtu všech skutečně negativních (TN a falešně pozitivních [FP]). Pravděpodobnost, že nález označený jako pozitivní je skutečně pozitivní (PPV – pozitivní prediktivní hodnota), byl definován jako poměr TP k součtu TP a FP. Analogicky pravděpodobnost, že nález označený jako negativní je skutečně negativní (NPV – negativní prediktivní hodnota), byl definován jako poměr TN k součtu TN a FN.
Interindividuální variabilita – Cohenova kappa – je definována jako shoda mezi hodnotiteli (RAD1, RAD2, RAD3 a AI) hodnotícími stejný set snímků a referenčním radiologem. Pro odhad intervalů spolehlivosti diagnostických parametrů byl použit Wilsonův interval, který poskytuje robustní odhady i při nízkých počtech pozorování. V případě nulových hodnot falešně pozitivních nebo falešně negativních nálezů byly dolní meze odhadnuty metodou konzervativní bayesovské analýzy.
Statistická analýza byla provedena zvlášť pro každého hodnotitele a AI pomocí párového designu. Analýzy byly provedeny pomocí softwaru Python, využívající knihovny Pandas, MumPy a Scipy. Grafické znázornění bylo realizováno pomocí knihovny Matplotlib.
VÝSLEDKY
Hodnocení přesnosti
Napříč hodnocenými kategoriemi demonstrovala AI vyšší senzitivitu než všichni 3 radiologové, a to v relativně dobrém poměru se specificitou. Specificitu měli radiologové ve většině případů vyšší. Nejvyšší rozdíl senzitivity mezi AI a radiology je patrný v kategoriích ATE (0,913) a CON (0,912).
V případě PPV se AI pohybuje v rozmezí od 0,292 (LES), do 0,817 (CMG). Celkově je PPV radiologů až na 1 případ vyšší než PPV AI (RAD3 v kategorii CON). Na druhou stranu NPV je u AI vyšší, pouze RAD3 přesahuje výsledek AI, a to ve 2 případech: CMG (0,985) a LES (1,000).
Interindividuální variabilita (Cohenova kappa) je konzistentně vyšší u AI, až na 1 případ (RAD1 v kategorii CMG).
Tab. 4 Diagnostická přesnost (senzitivita, specificita) AI a radiologů při hodnocení patologických nálezů na rtg snímcích hrudníku
Nález |
Hodnotitel |
Senzitivita (95% CI) |
Specificita (95% CI) |
Atelektáza (ATE) |
AI |
0,913 (0,783–1,000) |
0,925 (0,884–0,960) |
RAD 1 |
0,087 (0,000–0,217) |
0,994 (0,983–1,000) |
|
RAD 2 |
0,217 (0,043–0,391) |
0,988 (0,971–1,000) |
|
RAD 3 |
0,609 (0,391–0,783) |
0,960 (0,931–0,988) |
|
Konsolidace (CON) |
AI |
0,912 (0,794–1,000) |
0,901 (0,851–0,944) |
RAD 1 |
0,114 (0,029–0,229) |
0,994 (0,981–1,000) |
|
RAD 2 |
0,286 (0,143–0,429) |
0,988 (0,969–1,000) |
|
RAD 3 |
0,571 (0,400–0,743) |
0,832 (0,770–0,888) |
|
Zvětšení srdečního stínu (CMG) |
AI |
0,891 (0,800–0,964) |
0,922 (0,872–0,965) |
RAD 1 |
0,327 (0,200–0,455) |
1,000 (0,973–1,000) |
|
RAD 2 |
0,491 (0,364–0,618) |
1,000 (0,973–1,000) |
|
RAD 3 |
0,964 (0,909–1,000) |
0,930 (0,887–0,972) |
|
Pleurální výpotek (EFF) |
AI |
0,952 (0,881–1,000) |
0,792 (0,727–0,857) |
RAD 1 |
0,238 (0,119–0,381) |
1,000 (0,976–1,000) |
|
RAD 2 |
0,429 (0,286–0,571) |
0,994 (0,981–1,000) |
|
RAD 3 |
0,786 (0,667–0,905) |
0,877 (0,825–0,929) |
|
Plicní léze (LES) |
AI |
0,875 (0,625–1,000) |
0,910 (0,867–0,947) |
RAD 1 |
0,125 (0,000–0,375) |
1,000 (0,980–1,000) |
|
RAD 2 |
0,375 (0,125–0,750) |
0,973 (0,947–0,995) |
|
RAD 3 |
1,000 (0,000–1,000) |
0,931 (0,894–0,963) |
Tab. 5 Diagnostická přesnost (PPV a NPV) AI a radiologů při hodnocení patologických nálezů na rtg snímcích hrudníku
Nález |
Hodnotitel |
PPV (95% CI) |
NPV (95% CI) |
Atelektáza (ATE) |
AI |
0,618 (0,441–0,765) |
0,988 (0,969–1,000) |
RAD 1 |
0,667 (0,000–1,000) |
0,891 (0,845–0,933) |
|
RAD 2 |
0,714 (0,429–1,000) |
0,905 (0,862–0,942) |
|
RAD 3 |
0,667 (0,476–0,857) |
0,949 (0,914–0,977) |
|
Konsolidace (CON) |
AI |
0,660 (0,532–0,787) |
0,980 (0,953–1,000) |
RAD 1 |
0,800 (0,400–1,000) |
0,838 (0,785–0,890) |
|
RAD 2 |
0,833 (0,583–1,000) |
0,864 (0,815–0,913) |
|
RAD 3 |
0,426 (0,277–0,574) |
0,899 (0,846–0,946) |
|
Zvětšení srdečního stínu (CMG) |
AI |
0,817 (0,717–0,917) |
0,956 (0,919–0,985) |
RAD 1 |
1,000 (0,000–1,000) |
0,792 (0,730–0,848) |
|
RAD 2 |
1,000 (0,000–1,000) |
0,834 (0,775–0,888) |
|
RAD 3 |
0,841 (0,746–0,921) |
0,985 (0,962–1,000) |
|
Pleurální výpotek (EFF) |
AI |
0,556 (0,444–0,667) |
0,984 (0,960–1,000) |
RAD 1 |
1,000 (0,000–1,000) |
0,828 (0,774–0,882) |
|
RAD 2 |
0,947 (0,842–1,000) |
0,864 (0,814–0,915) |
|
RAD 3 |
0,635 (0,500–0,769) |
0,938 (0,896–0,972) |
|
Plicní léze (LES) |
AI |
0,292 (0,125–0,500) |
0,994 (0,983–1,000) |
RAD 1 |
1,000 (0,000–1,000) |
0,964 (0,938–0,990) |
|
RAD 2 |
0,375 (0,125–0,750) |
0,973 (0,947–0,995) |
|
RAD 3 |
0,381 (0,190–0,571) |
1,000 (0,000–1,000) |
Tab. 6 Interindividuální variabilita AI a radiologů při hodnocení patologických nálezů na rtg snímcích hrudníku
Nález |
Hodnotitel |
Cohenova kappa (κ) |
Atelektáza (ATE) |
AI |
0,694 |
RAD 1 |
0,590 |
|
RAD 2 |
0,295 |
|
RAD 3 |
0,130 |
|
Konsolidace (CON) |
AI |
0,675 |
RAD 1 |
0,335 |
|
RAD 2 |
0,379 |
|
RAD 3 |
0,168 |
|
Zvětšení srdečního stínu (CMG) |
AI |
0,791 |
RAD 1 |
0,855 |
|
RAD 2 |
0,581 |
|
RAD 3 |
0,412 |
|
Pleurální výpotek (EFF) |
AI |
0,591 |
RAD 1 |
0,527 |
|
RAD 2 |
0,527 |
|
RAD 3 |
0,329 |
|
Plicní léze (LES) |
AI |
0,401 |
RAD 1 |
0,524 |
|
RAD 2 |
0,348 |
|
RAD 3 |
0,215 |
Kazuistiky
DISKUSE
Výsledky této studie ukazují, že AI v podobě systému Carebot AI CXR dosahuje vysoké úrovně senzitivity napříč všemi hodnocenými kategoriemi abnormalit na rtg snímcích hrudníku. Zároveň však vykazuje variabilitu ve specificitě, což je klíčovým bodem pro diskusi o jejím klinickém využití. Algoritmus překonával méně zkušené radiology, například v kategorii ATE, kde senzitivita AI dosáhla 0,913 (95% CI: 0,783–1,000), zatímco u RAD1 byla 0,087 (95% CI: 0,000–0,217). Tento rozdíl podtrhuje schopnost algoritmu rozpoznat i subtilní nálezy, které mohou být u začínajících lékařů snadno přehlédnuty.
V oblasti PPV se však AI potýkala s určitými omezeními, zejména u kategorií s nízkou prevalencí, jako jsou LES (PPV: 0,292; 95% CI: 0,125–0,500). Tento výsledek naznačuje, že zvýšený počet falešně pozitivních nálezů může mít dopad na workflow radiologů, kteří se budou muset těmito nálezy zabývat. Na druhé straně byla NPV u AI ve všech kategoriích vysoká, což ukazuje na spolehlivost systému při vyloučení patologických nálezů. Například u pleura EFF dosáhla NPV hodnoty 0,984 (95% CI: 0,960–1,000). Radiologové s mírně vyšší úrovní zkušeností, jako RAD3, vykazovali v některých kategoriích srovnatelné nebo lepší výsledky než AI. To bylo zřejmé například CMG, kde PPV RAD3 dosáhlo 0,841 (95% CI: 0,746–0,921) oproti 0,817 (95% CI: 0,717–0,917) u AI.
Co se interindividuální variability (Cohenova kappa) týče, lze si všimnout rozdílných hodnot u RAD1, RAD2, RAD3 a AI. Sytém Carebot AI CXR dosáhl střední až výborné shody s konsenzem ve všech hodnocených abnormalitách (od 0,401 v případě LES po 0,791 v případě CMG). Jednotliví radiologové na druhé straně demonstrovali značně rozdílné shody: RAD 1 v rozsahu od 0,335 (CON) do 0,855 (CMG), RAD2 od 0,295 (ATE) do 0,581 (CMG), RAD3 od 0,130 (ATE) po 0,412 (CMG). Nejnižší hodnoty kappa vykazují v případě radiologů kategorie ATE (0,130–0,590) a CON (0,168–0,379). Napříč všemi kategoriemi AI předčila shodu juniorních radiologů, nejlépe v přesně definovaných podmínkách, jako je CMG.
Významným přínosem této studie je její zaměření na srovnání přesnosti AI a radiologů v simulaci klinických podmínek. Na rozdíl od reálných klinický podmínek radiologové neměli přístup ke klinickým informacím pacienta, předchozím vyšetřením a laboratorním výsledkům. To omezuje hodnocení pouze na rtg snímek. Zmíněné parametry významně pomáhají v diagnostické rozvaze hodnotícího lékaře, především u abnormalit, které nemají tak jasně vymezené hranice, jako je třeba CMG, a kde je hodnocení z velké míry subjektivní. Umělá inteligence také netrpí na „přepracování“ a je ve svém hodnocení konzistentní. Nutno také dodat, že dataset byl verifikován pouze jedním seniorním radiologem a hodnocen radiology prakticky na začátku jejich kariéry, zatímco AI byla trénována na robustním datasetu anotovaným týmem 31 radiologů rozdílných zkušeností, jak zmíněno výše. Celkově výsledky této studie podporují hypotézu, že AI může sloužit jako efektivní nástroj pro podporu diagnostiky, zejména u méně zkušených radiologů nebo v prostředích s vysokou pracovní zátěží.
ZÁVĚR
Studie ukázala, že software AI (Carebot AI CXR) dosahuje vysoké senzitivity při hodnocení rentgenových snímků hrudníku, zejména v detekci subtilních patologických změn, a může efektivně doplňovat práci radiologů, zvláště méně zkušených. Výsledky interindividuální variability (Cohenova kappa) naznačují klinicky relevantní konzistenci v detekování výše hodnocených abnormalit. Vysoká negativní prediktivní hodnota potvrzuje jeho spolehlivost při vyloučení patologických nálezů. Variabilita specificity a falešně pozitivní nálezy však zdůrazňují potřebu další optimalizace. AI může zlepšit diagnostickou přesnost a standardizaci, zejména v prostředích s vysokou pracovní zátěží.
Čestné prohlášení
Autoři Jakub Dandár a Daniel Kvak prohlašují, že jsou zaměstnanci společnosti Carebot, která vyvíjí a uvádí na trh zdravotnický prostředek Carebot AI CXR, jenž je předmětem této studie. Tato skutečnost však neměla vliv na metodiku, analýzu dat ani interpretaci výsledků. Výzkum byl proveden nezávisle a v souladu s vědeckými standardy.
Role spoluautorů
Jakub Dandár koordinoval průběh studie. Daniel Kvak navrhl koncepci článku a zpracoval většinu částí tohoto rukopisu. Tomáš Jindra se podílel na sběru datasetu, vytvoření referenčního standardu a hodnocení klinicky relevantních parametrů.
Seznam použitých zkratek
AI umělá inteligence
Adresa pro korespondenci:
MUDr. Jakub Dandár
Sources
- Barentsz J, Takahashi S, Oyen W et al. Commonly used imaging techniques for diagnosis and staging. J Clin Oncol 2006; 24: 3234–3244.
- Schaefer-Prokop C, Neitzel U, Venema HW et al. Digital chest radiography: an update on modern technology, dose containment and control of image quality. Eur Radiol 2008; 18: 1818–1830.
- Radiology facing a global shortage. Radiological Society of North America, 2022. Dostupné na: www.rsna.org/news/2022/may/global-radiologist-shortage
- Kvak D, Chromcová A, Ovesná P et al. Detecting pulmonary lesions in low-prevalence real-world settings using deep learning. In: Proceedings International Conference on Medical Imaging and Computer-Aided Diagnosis 2023 (MICAD 2023). Springer Nature, Singapore, 2023: 3–20.
- Yamashita R, Nishio M, Do RKG et al. Convolutional neural networks: an overview and application in radiology. Insights Imaging 2018; 9: 611–629.
- Redmon J. You only look once: unified, real-time object detection. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR) 2016. Las Vegas, NV, USA, 2016. Conference Publishing Services, IEE Computer Society, Los Alamitos, Washington, Tokyo, 2016: 779–788.
- Nařízení Evropského parlamentu a Rady (EU) 2016/679 ze dne 27. dubna 2016 o ochraně fyzických osob v souvislosti se zpracováním osobních údajů a o volném pohybu těchto údajů a o zrušení směrnice 95/46/ES (obecné nařízení o ochraně osobních údajů). In: Úřední věstník L 119. 4. 5. 2016, s. 1–88.
Labels
Addictology Allergology and clinical immunology Angiology Audiology Clinical biochemistry Dermatology & STDs Paediatric gastroenterology Paediatric surgery Paediatric cardiology Paediatric neurology Paediatric ENT Paediatric psychiatry Paediatric rheumatology Diabetology Pharmacy Vascular surgery Pain management Dental HygienistArticle was published in
Journal of Czech Physicians

- Metamizole at a Glance and in Practice – Effective Non-Opioid Analgesic for All Ages
- Metamizole vs. Tramadol in Postoperative Analgesia
- What Effect Can Be Expected from Limosilactobacillus reuteri in Mucositis and Peri-Implantitis?
- The Importance of Limosilactobacillus reuteri in Administration to Diabetics with Gingivitis
- The Importance of Hydration in Wound Healing
Most read in this issue
- Střelba na FF UK a aktivace traumaplánu na 1. chirurgické klinice 1. LF UK a VFN v Praze
- Klinická obezita – konečně změna paradigmatu? Od BMI k chronické nemoci
- Amiodaronem indukované tyreopatie
- Porovnání přesnosti detekce abnormalit na rtg snímcích hrudníku softwarem Carebot AI CXR a radiology