УДК:
57.02.001.57
Использование
кластерного анализа и логистической регрессии для дифференциации патологий легких
Д. Ю. Козлов
Алтайский государственный университет, г. Барнаул
Статья
поступила в редакцию 19 ноября 2016 г.
Аннотация. В данной работе рассмотрена
возможность использования кластерного анализа и логистической регрессии для
дифференциации патологий (рак и туберкулез), приводящих к возникновению
шаровидных образований в легких. Диагностическими признаками выбраны параметры,
определенные на основе обработки изображений рентгеновской компьютерной
томографии, а именно: среднее значение денситометрического показателя Хаунсфилда
и среднеквадратичное отклонение денситометрического показателя Хаунсфилда для
выделенной врачом-рентгенологом области интереса, а также фрактальная
размерность и величина «уклон». Для полученной выборки последовательно были
применялись кластеризация методом k-means и иерархическая кластеризация методом
полной связи. При сопоставлении результатов кластерного анализа с
верифицированными диагнозами был сделан вывод, что иерархическая кластеризация
более надежно, чем метод k-means выделяет верный диагноз. Затем, на основе
половины исходной выборки получена модель логистической регрессии. С помощью ROC-анализа оценивалось качество
полученной модели, а также определялась пороговая точка отсечения, позволяющая
перейти от вероятностей диагноза, полученных после применения логистической
регрессии, к прогнозу самих диагнозов. После этого выбранная модель
логистической регрессии использовалась для предсказания диагнозов во второй
половине выборки, причем корректность прогноза оказалась около 70%.
Ключевые
слова: шаровидные образования в лёгких, фрактальная размерность,
кластерный анализ, логистическая регрессия.
Abstract. In
this paper we have considered the possibility of using cluster analysis and logistic
regression to differentiate pathologies (cancer and tuberculosis), leading to
the appearance of spherical formations in the lungs. The parameters determined
on the basis of imaging X-ray computed tomography (the average value of the
densitometry Hounsfield index and standard deviation of Hounsfield index for
the area of interest was selected by physician radiologist, and also the value
of the fractal dimension and the "slope") was chosen as diagnostic
features. To this sample, in series, clustering by k-means and complete linkage
method for the hierarchical clustering were applied. When comparing the results
of cluster analysis with verified diagnoses, it was concluded that the
hierarchical clustering is more reliable than the k-means method for the
correct diagnosis elects. Then, on the basis of half of the original sample a
logistic regression model was obtained. ROC-analysis was used to estimate the
quality of the resulting model, and also for the determination of cut-off point
that allows to pass on from probabilities of diagnosis obtained after applying
logistic regression to forecast own diagnoses. The selected logistic regression
model was used to predict the diagnosis in the second half of the sample, and
level of correct prediction about 70% was reached.
Keywords:
spherical formation in the lungs,
fractal dimension, cluster analysis, logistic regression.