Данная информация предназначена для специалистов в области здравоохранения и фармацевтики. Пациенты не должны использовать эту информацию в качестве медицинских советов или рекомендаций.
Объемное знание – 2. Виртуальный признак в биологии и
медицине
Нечмирёв Андрей Борисович
Математический анализ признаков значительно повышает
полноту использования информации, а анализ комплекса показателей не только
суммирует дифференцирующие способности признаков, но и выявляет новые
дополнительные возможности распознавания, не содержащиеся ни в одном отдельном
признаке [1].
В настоящей работе сделана попытка выявить дополнительные
возможности распознавания при анализе совокупности признаков, учитываемых в
микробиологии, с целью получения диагностической информации в ее
количественном выражении, не содержащейся ни в одном из признаков в
отдельности.
Можно сказать, что в основе распознавания микроорганизмов
лежит различие в связи между признаками и дифференцируемыми группами. Чем чаще
признак определяется у одной из групп, и чем реже у другой, тем больше
диагностическая информация от обнаружения у штамма этих градаций признака.
Количественно такая информация может описываться десятичным
логарифмом отношения вероятностей выявления градаций признака в
дифференцируемых группах, умноженным на 10 – так называемым диагностическим
коэффициентом (ДК) [2,4]. При выявлении у исследуемого штамма
градации «+» признака «1», которая встречается у представителей группы «А» с
частотой Pa, а у представителей группы «В» с частотой Pb,
будет получена диагностическая информация в количестве: ДК+1=10lg(P+a
/ P+b).
При выявлении градации «-»: ДК-1=10lg(P-a
/ P-b).
Знак «+», который может иметь вычисленный диагностический
коэффициент, свидетельствует о преобладании вероятности того, что штамм
относится к группе, частота которой находится в числителе отношения. ДК со
знаком «-» указывает на преобладание вероятности альтернативной группы.
При получении информации по результатам нескольких тестов
вычисленные ДК алгебраически складываются.
Любому значению ДК или их сумме соответствует определенная
вероятность (Р) принадлежности штамма к той или иной дифференцируемой группе.
Эта вероятность может быть найдена по таблицам [2] или по формуле, выведенной
нами из формул [2], отражающих взаимосвязь ДК и Р:
Р = (alg0,1ДК-1)/((alg0,1ДК-1)/ (alg0,1ДК)) [Формула 1].
Представим себе совокупность из двух бинарных, то есть
имеющих только градации «+» и «-» признаков как единство, более сложное, по
отношению к его составляющим. Градациями такого признака-комплекса будут все
возможные сочетания градаций его составляющих: «++», «--», «+-», «-+».
Обозначим их частоты по отношению к дифференцируемым группам и признакам, и
определим несомую ими диагностическую (дифференцирующую образы) информацию
так, как это показано в таблице 1, и назовем ее V-информацией, в отличие от
ДК-информации. ДК-информация тождественна V-информации и их значения могут
алгебраически складываться.
Таблица 1. Определение величины V-информации градаций
признака-комплекса
Вероятность градаций в группах |
Формулы, для вычисления величины V-информации |
А |
В |
P++a1,2 |
P++b1,2 |
V++ = 10lg(P++a1,2/ P++b1,2) |
P--a1,2 |
P--b1,2 |
V-- = 10lg(P--a1,2/ P--b1,2) |
P+-a1,2 |
P+-b1,2 |
V+- = 10lg(P+-a1,2/ P+-b1,2) |
P-+a1,2 |
P-+b1,2 |
V-+ = 10lg(P-+a1,2/ P-+b1,2) |
1 |
1 |
|
Благодаря получению V-информации при помощи одних и тех же
признаков к информации о различии в связи между признаками и дифференцируемыми
группами прибавляется порция информации о различии в связи между признаками у
этих групп. V-информация представляется нам достаточно независимой от
ДК-информации (то есть не дублирует ее).
В этой связи, даже среди наименее перспективных в отношении
ДК-информации признаков можно найти такие, которые дадут значимую
V-информацию. К примеру, показано [3], что тесты на рафинозу (тест 1) и
рамнозу (тест 2) у представителей Esherihia (группа А) и Shigella (группа В)
дают положительный и отрицательный результат с частотой 0,5, то есть P+a1
= P+a2 = P+b1
= P+b2 = P-a1 = P-a2
= P-b1 = P-b2 = 0,5. Если нет иной
информации, то справедливо сделать заключение о непригодности этих тестов для
дифференциации указанных групп. При подсчете окажется, что все ДК = 0.
Гипотеза. Теперь предположим, что получена
дополнительная информация о достоверном различии в скоррелированности одних и
тех же сочетаний градаций признаков у дифференцируемых групп. Сочетания
градаций «элементарных» признаков выступают здесь как градации
признака-комплекса. Обозначим их в буквенном выражении (таблица 2) и дадим им
произвольные числовые значения, соблюдая вышеуказанное равенство – все ДК = 0.
Таблица 2. Частота градаций V-признака у дифференцируемых
групп
|
|
Esherihia (группа А) |
Shigella (группа В) |
Рамноза (тест 2) |
+ |
- |
|
+ |
- |
|
Рафиноза (тест 1) |
+ |
P++a1,2
0,1 |
P+-a1,2
0,4 |
P+a1 = 0,5 |
P++b1,2
0*(0,01) |
P+-b1,2
0,5 |
P+b1 = 0,5 |
- |
P-+a1,2
0,4 |
P--a1,2
0,1 |
P-a1 = 0,5 |
P-+b1,2
0,5 |
P--b1,2
0*(0,01) |
P-b1 = 0,5 |
|
|
P+a2 = 0,5 |
P-a2 = 0,5 |
|
P+b2 = 0,5 |
P-b2 = 0,5 |
|
* Примечание: Для исправления нулевых частот использована
формула [2]: P = 1/(n + a), где P – исправленная частота (в таблице дана в
скобках); n – общее число штаммов в группе (здесь условно взято100); а – число
градаций признака (здесь 2).
Вычисляя величину V-информации по формулам таблицы 1
получим: V++ = V-- = 10; V+- = V-+
= -1.
По формуле 1 вычислим, что значениям V = 10, тождественным
ДК, соответствует вероятность Р = 0,91, имеющая значение в медицинских научных
исследованиях [7], свидетельствующая о преобладании вероятности группы А.
Прочим градациям виртуального признака соответствует Р = 0,44, указывающая на
преобладание вероятности группы В.
Таким образом, теоретически показана возможность получения
диагностической информации, не содержащейся ни в одном из отдельно взятых
признаков. До настоящего времени информация подобного рода в ее количественной
мере в микробиологии не использовалась и фактически была потеряна для
исследователя.
Практика. Для нахождения V-информации на основе
реальных данных мы взяли признак-комплекс арабиноза-рамноза для дифференциации
Salmonella typhimurium от Shigella flexneri 1-5, x- и y-variant. Данные о
наличии сочетаний признаков у биоваров дифференцируемых групп (соответственно
25 и 15 биоваров) мы взяли из таблиц 39 и 41 литературного источника [3], по
ним вычислили частоты градаций V-признака: P++a1,2 =
0,68; P--a1,2 = 0,08; P+-a1,2 =
0,20; P-+a1,2 = 0,04; P++b1,2 = P--b1,2
= P+-b1,2 = 0,267; P-+b1,2 = 0,2,
а затем определили, согласно формул таблицы 1: V++ = 4,1(P=0,72); V--
= -5,2(P=0,77); V+- = -1,2(P=0,43); V-+ = -7,0(P=0,17).
Таким образом, учет виртуальных признаков может внести свою
лепту диагностической информации, и подчас существенную, в дело распознавания
образов.
Для получения V-информации не требуется изучения
дополнительных признаков – используется уже изученные признаки, от которых
получали ДК-информацию.
На практике реализация виртуальных признаков может
осуществляться табличными методами или с помощью ЭВМ [8]. Это сделает ее
доступной для рядовых врачей. Полагаем, что более полное использование
признаков, за счет извлечения V-информации позволит уменьшить число
обязательных тестов в схемах распознавания. Особенно привлекательным это может
оказаться при проведении весьма дорогостоящих испытаний новых лекарственных
препаратов на людях.
Думается, что признаки-комплексы сами, или в сочетании с
«элементарными» признаками могут являться составляющими для более
интегрированных виртуальных признаков.
Вышеизложенный алгоритм может быть использован для
моделирования такого свойства как интуиция, о чем будет рассказано в
планируемой к публикации статье «Объемное знание –3. Интуиция».
Литература
Генес В.С. Некоторые простые методы кибернетической обработки данных
диагностических и физиологических исследований. М., 1967.
Гублер Е.В. Вычислительные методы анализа и распознавания патологических
процессов. Л., 1978.
Методические указания по микробиологической диагностике заболеваний,
вызываемых энтеробактериями. М., 1984.
Нечмирёв А.Б.//Журн.микробиол, 1986, № 2, с.12-14.
Нечмирёв А.Б. Сложный признак и его диагностическая информация в
микробиологии. Депонировано в ВИНИТИ, 1989 г.
Nechmirev A.B. Three fells from two sheeps. Отправлено на конкурс
компьютерных программ, проводимый фирмой Hewlett Packard в Москве.
Сепетлиев Д. Статистические методы в научных медицинских исследованиях.
М., 1968.
Демонстрационная версия программ «Распознавание» 24.09.2002,
«Дифференциальная диагностика желтух» 29.09.2002. Автор Нечмирёв А.Б.
Каталог мед.программ на
http://www.rusmedserv.com
Информация об авторе:
Нечмирёв Андрей Борисович
Должность: Врач-программист
Место работы: СЭС МСО (санэпидстанция бывш.IV Главн.Управления Республики
Узбекистан), Республиканский центр хирургии, Ташкентский городской центр
борьбы со СПИД, ООО «Хумо» при АО УзбекКосмос
Печатный или электронный источник: публикуется впервые.
E-mail: ses@sarkor.uz