Объемное знание – 2. Виртуальный признак в биологии и медицине

Математический анализ признаков значительно повышает полноту использования информации, а анализ комплекса показателей не только суммирует дифференцирующие способности признаков, но и выявляет новые дополнительные возможности распознавания, не содержащиеся ни в одном отдельном признаке.

В настоящей работе сделана попытка выявить дополнительные возможности распознавания при анализе совокупности признаков, учитываемых в микробиологии, с целью получения диагностической информации в ее количественном выражении, не содержащейся ни в одном из признаков в отдельности.

Можно сказать, что в основе распознавания микроорганизмов лежит различие в связи между признаками и дифференцируемыми группами. Чем чаще признак определяется у одной из групп, и чем реже у другой, тем больше диагностическая информация от обнаружения у штамма этих градаций признака.

Количественно такая информация может описываться десятичным логарифмом отношения вероятностей выявления градаций признака в дифференцируемых группах, умноженным на 10 – так называемым диагностическим коэффициентом (ДК). При выявлении у исследуемого штамма градации «+» признака «1», которая встречается у представителей группы «А» с частотой Pa, а у представителей группы «В» с частотой Pb, будет получена диагностическая информация в количестве:

ДК+1=10lg(P+a / P+b).

При выявлении градации «-»:

ДК-1=10lg(P-a / P-b).

Знак «+», который может иметь вычисленный диагностический коэффициент, свидетельствует о преобладании вероятности того, что штамм относится к группе, частота которой находится в числителе отношения. ДК со знаком «-» указывает на преобладание вероятности альтернативной группы.

При получении информации по результатам нескольких тестов вычисленные ДК алгебраически складываются.

Любому значению ДК или их сумме соответствует определенная вероятность (Р) принадлежности штамма к той или иной дифференцируемой группе. Эта вероятность может быть найдена по таблицам или по формуле, выведенной нами из формул, отражающих взаимосвязь ДК и Р:

Р = (alg0,1ДК-1)/((alg0,1ДК-1)/ (alg0,1ДК)) [Формула 1].

Представим себе совокупность из двух бинарных, то есть имеющих только градации «+» и «-» признаков как единство, более сложное, по отношению к его составляющим. Градациями такого признака-комплекса будут все возможные сочетания градаций его составляющих: «++», «--», «+-», «-+». Обозначим их частоты по отношению к дифференцируемым группам и признакам, и определим несомую ими диагностическую (дифференцирующую образы) информацию так, как это показано в таблице 1, и назовем ее V-информацией, в отличие от ДК-информации. ДК-информация тождественна V-информации и их значения могут алгебраически складываться.

Таблица 1. Определение величины V-информации градаций признака-комплекса

Вероятность градаций в группах

Формулы, для вычисления величины V-информации

А

В

P++a1,2

P++b1,2

V++ = 10lg(P++a1,2/ P++b1,2)

P--a1,2

P--b1,2

V-- = 10lg(P--a1,2/ P--b1,2)

P+-a1,2

P+-b1,2

V+- = 10lg(P+-a1,2/ P+-b1,2)

P-+a1,2

P-+b1,2

V-+ = 10lg(P-+a1,2/ P-+b1,2)

1

1

 


Благодаря получению V-информации при помощи одних и тех же признаков к информации о различии в связи между признаками и дифференцируемыми группами прибавляется порция информации о различии в связи между признаками у этих групп. V-информация представляется нам достаточно независимой от ДК-информации (то есть не дублирует ее).

В этой связи, даже среди наименее перспективных в отношении ДК-информации признаков можно найти такие, которые дадут значимую V-информацию. К примеру, показано, что тесты на рафинозу (тест 1) и рамнозу (тест 2) у представителей Esherihia (группа А) и Shigella (группа В) дают положительный и отрицательный результат с частотой 0,5, то есть P+a1 = P+a2 = P+b1 = P+b2 = P-a1 = P-a2 = P-b1 = P-b2 = 0,5. Если нет иной информации, то справедливо сделать заключение о непригодности этих тестов для дифференциации указанных групп. При подсчете окажется, что все ДК = 0.

Гипотеза. Теперь предположим, что получена дополнительная информация о достоверном различии в скоррелированности одних и тех же сочетаний градаций признаков у дифференцируемых групп. Сочетания градаций «элементарных» признаков выступают здесь как градации признака-комплекса. Обозначим их в буквенном выражении (таблица 2) и дадим им произвольные числовые значения, соблюдая вышеуказанное равенство – все ДК = 0.

Таблица 2. Частота градаций V-признака у дифференцируемых групп

   

Esherihia (группа А)

Shigella (группа В)

Рамноза (тест 2)

+

-

 

+

-

 

Рафиноза (тест 1)

+

P++a1,2

0,1

P+-a1,2

0,4

P+a1 = 0,5

P++b1,2

0*(0,01)

P+-b1,2

0,5

P+b1 = 0,5

-

P-+a1,2

0,4

P--a1,2

0,1

P-a1 = 0,5

P-+b1,2

0,5

P--b1,2

0*(0,01)

P-b1 = 0,5

   

P+a2 = 0,5

P-a2 = 0,5

 

P+b2 = 0,5

P-b2 = 0,5

 


* Примечание: Для исправления нулевых частот использована формула:

P = 1/(n + a), где P – исправленная частота (в таблице дана в скобках); n – общее число штаммов в группе (здесь условно взято100); а – число градаций признака (здесь 2).

Вычисляя величину V-информации по формулам таблицы 1 получим:

V++ = V-- = 10; V+- = V-+ = -1.

По формуле 1 вычислим, что значениям V = 10, тождественным ДК, соответствует вероятность Р = 0,91, имеющая значение в медицинских научных исследованиях, свидетельствующая о преобладании вероятности группы А. Прочим градациям виртуального признака соответствует Р = 0,44, указывающая на преобладание вероятности группы В.

Таким образом, теоретически показана возможность получения диагностической информации, не содержащейся ни в одном из отдельно взятых признаков. До настоящего времени информация подобного рода в ее количественной мере в микробиологии не использовалась и фактически была потеряна для исследователя.

Практика. Для нахождения V-информации на основе реальных данных мы взяли признак-комплекс арабиноза-рамноза для дифференциации Salmonella typhimurium от Shigella flexneri 1-5, x- и y-variant. Данные о наличии сочетаний признаков у биоваров дифференцируемых групп (соответственно 25 и 15 биоваров) мы взяли из таблиц 39 и 41 литературного источника, по ним вычислили частоты градаций V-признака:

P++a1,2 = 0,68; P--a1,2 = 0,08; P+-a1,2 = 0,20; P-+a1,2 = 0,04; P++b1,2 = P--b1,2 = P+-b1,2 = 0,267; P-+b1,2 = 0,2, а затем определили, согласно формул таблицы 1: V++ = 4,1(P=0,72); V-- = -5,2(P=0,77); V+- = -1,2(P=0,43); V-+ = -7,0(P=0,17).

Таким образом, учет виртуальных признаков может внести свою лепту диагностической информации, и подчас существенную, в дело распознавания образов.

Для получения V-информации не требуется изучения дополнительных признаков – используется уже изученные признаки, от которых получали ДК-информацию.

На практике реализация виртуальных признаков может осуществляться табличными методами или с помощью ЭВМ. Это сделает ее доступной для рядовых врачей. Полагаем, что более полное использование признаков, за счет извлечения V-информации позволит уменьшить число обязательных тестов в схемах распознавания. Особенно привлекательным это может оказаться при проведении весьма дорогостоящих испытаний новых лекарственных препаратов на людях.

Думается, что признаки-комплексы сами, или в сочетании с «элементарными» признаками могут являться составляющими для более интегрированных виртуальных признаков.

Вышеизложенный алгоритм может быть использован для моделирования такого свойства как интуиция, о чем будет рассказано в планируемой к публикации статье «Объемное знание –3. Интуиция».