"ЖУРНАЛ РАДИОЭЛЕКТРОНИКИ" ISSN 1684-1719, N 12, 2016

оглавление              текст:   pdf   

УДК: 57.02.001.57

Использование кластерного анализа и логистической регрессии для дифференциации патологий легких

Д. Ю. Козлов
Алтайский государственный университет, г. Барнаул

Статья поступила в редакцию 19 ноября 2016 г.

Аннотация. В данной работе рассмотрена возможность использования кластерного анализа и логистической регрессии для дифференциации патологий (рак и туберкулез), приводящих к возникновению шаровидных образований в легких. Диагностическими признаками выбраны параметры, определенные на основе обработки изображений рентгеновской компьютерной томографии, а именно: среднее значение денситометрического показателя Хаунсфилда и среднеквадратичное отклонение денситометрического показателя Хаунсфилда для выделенной врачом-рентгенологом области интереса, а также фрактальная размерность и величина «уклон». Для полученной выборки последовательно были применялись кластеризация методом k-means и иерархическая кластеризация методом полной связи. При сопоставлении результатов кластерного анализа с верифицированными диагнозами был сделан вывод, что иерархическая кластеризация более надежно, чем метод k-means выделяет верный диагноз. Затем, на основе половины исходной выборки получена модель логистической регрессии. С помощью ROC-анализа оценивалось качество полученной модели, а также определялась пороговая точка отсечения, позволяющая перейти от вероятностей диагноза, полученных после применения логистической регрессии, к прогнозу самих диагнозов. После этого выбранная модель логистической регрессии использовалась для предсказания диагнозов во второй половине выборки, причем корректность прогноза оказалась около 70%.

Ключевые слова: шаровидные образования в лёгких, фрактальная размерность, кластерный анализ, логистическая регрессия.

Abstract. In this paper we have considered the possibility of using cluster analysis and logistic regression to differentiate pathologies (cancer and tuberculosis), leading to the appearance of spherical formations in the lungs. The parameters determined on the basis of imaging X-ray computed tomography (the average value of the densitometry Hounsfield index and standard deviation of Hounsfield index for the area of interest was selected by physician radiologist, and also the value of the fractal dimension and the "slope") was chosen as diagnostic features. To this sample, in series, clustering by k-means and complete linkage method for the hierarchical clustering were applied. When comparing the results of cluster analysis with verified diagnoses, it was concluded that the hierarchical clustering is more reliable than the k-means method for the correct diagnosis elects. Then, on the basis of half of the original sample a logistic regression model was obtained. ROC-analysis was used to estimate the quality of the resulting model, and also for the determination of cut-off point that allows to pass on from probabilities of diagnosis obtained after applying logistic regression to forecast own diagnoses. The selected logistic regression model was used to predict the diagnosis in the second half of the sample, and level of correct prediction about 70% was reached.

Keywords: spherical formation in the lungs, fractal dimension, cluster analysis, logistic regression.