Объемное знание – 2. Виртуальный признак в биологии и медицине
Математический анализ признаков значительно повышает полноту использования информации, а анализ комплекса показателей не только суммирует дифференцирующие способности признаков, но и выявляет новые дополнительные возможности распознавания, не содержащиеся ни в одном отдельном признаке.
В настоящей работе сделана попытка выявить дополнительные возможности распознавания при анализе совокупности признаков, учитываемых в микробиологии, с целью получения диагностической информации в ее количественном выражении, не содержащейся ни в одном из признаков в отдельности.
Можно сказать, что в основе распознавания микроорганизмов лежит различие в связи между признаками и дифференцируемыми группами. Чем чаще признак определяется у одной из групп, и чем реже у другой, тем больше диагностическая информация от обнаружения у штамма этих градаций признака.
Количественно такая информация может описываться десятичным логарифмом отношения вероятностей выявления градаций признака в дифференцируемых группах, умноженным на 10 – так называемым диагностическим коэффициентом (ДК). При выявлении у исследуемого штамма градации «+» признака «1», которая встречается у представителей группы «А» с частотой Pa, а у представителей группы «В» с частотой Pb, будет получена диагностическая информация в количестве:
ДК+1=10lg(P+a / P+b).
При выявлении градации «-»:
ДК-1=10lg(P-a / P-b).
Знак «+», который может иметь вычисленный диагностический коэффициент, свидетельствует о преобладании вероятности того, что штамм относится к группе, частота которой находится в числителе отношения. ДК со знаком «-» указывает на преобладание вероятности альтернативной группы.
При получении информации по результатам нескольких тестов вычисленные ДК алгебраически складываются.
Любому значению ДК или их сумме соответствует определенная вероятность (Р) принадлежности штамма к той или иной дифференцируемой группе. Эта вероятность может быть найдена по таблицам или по формуле, выведенной нами из формул, отражающих взаимосвязь ДК и Р:
Р = (alg0,1ДК-1)/((alg0,1ДК-1)/ (alg0,1ДК)) [Формула 1].
Представим себе совокупность из двух бинарных, то есть имеющих только градации «+» и «-» признаков как единство, более сложное, по отношению к его составляющим. Градациями такого признака-комплекса будут все возможные сочетания градаций его составляющих: «++», «--», «+-», «-+». Обозначим их частоты по отношению к дифференцируемым группам и признакам, и определим несомую ими диагностическую (дифференцирующую образы) информацию так, как это показано в таблице 1, и назовем ее V-информацией, в отличие от ДК-информации. ДК-информация тождественна V-информации и их значения могут алгебраически складываться.
Таблица 1. Определение величины V-информации градаций признака-комплекса
Вероятность градаций в группах |
Формулы, для вычисления величины V-информации |
|
А |
В |
|
P++a1,2 |
P++b1,2 |
V++ = 10lg(P++a1,2/ P++b1,2) |
P--a1,2 |
P--b1,2 |
V-- = 10lg(P--a1,2/ P--b1,2) |
P+-a1,2 |
P+-b1,2 |
V+- = 10lg(P+-a1,2/ P+-b1,2) |
P-+a1,2 |
P-+b1,2 |
V-+ = 10lg(P-+a1,2/ P-+b1,2) |
1 |
1 |
Благодаря получению V-информации при помощи одних и тех же признаков к информации о различии в связи между признаками и дифференцируемыми группами прибавляется порция информации о различии в связи между признаками у этих групп. V-информация представляется нам достаточно независимой от ДК-информации (то есть не дублирует ее).
В этой связи, даже среди наименее перспективных в отношении ДК-информации признаков можно найти такие, которые дадут значимую V-информацию. К примеру, показано, что тесты на рафинозу (тест 1) и рамнозу (тест 2) у представителей Esherihia (группа А) и Shigella (группа В) дают положительный и отрицательный результат с частотой 0,5, то есть P+a1 = P+a2 = P+b1 = P+b2 = P-a1 = P-a2 = P-b1 = P-b2 = 0,5. Если нет иной информации, то справедливо сделать заключение о непригодности этих тестов для дифференциации указанных групп. При подсчете окажется, что все ДК = 0.
Гипотеза. Теперь предположим, что получена дополнительная информация о достоверном различии в скоррелированности одних и тех же сочетаний градаций признаков у дифференцируемых групп. Сочетания градаций «элементарных» признаков выступают здесь как градации признака-комплекса. Обозначим их в буквенном выражении (таблица 2) и дадим им произвольные числовые значения, соблюдая вышеуказанное равенство – все ДК = 0.
Таблица 2. Частота градаций V-признака у дифференцируемых групп
Esherihia (группа А) |
Shigella (группа В) |
||||||
Рамноза (тест 2) |
|||||||
+ |
- |
+ |
- |
||||
Рафиноза (тест 1) |
+ |
P++a1,2 0,1 |
P+-a1,2 0,4 |
P+a1 = 0,5 |
P++b1,2 0*(0,01) |
P+-b1,2 0,5 |
P+b1 = 0,5 |
- |
P-+a1,2 0,4 |
P--a1,2 0,1 |
P-a1 = 0,5 |
P-+b1,2 0,5 |
P--b1,2 0*(0,01) |
P-b1 = 0,5 |
|
P+a2 = 0,5 |
P-a2 = 0,5 |
P+b2 = 0,5 |
P-b2 = 0,5 |
* Примечание: Для исправления нулевых частот использована формула:
P = 1/(n + a), где P – исправленная частота (в таблице дана в скобках); n – общее число штаммов в группе (здесь условно взято100); а – число градаций признака (здесь 2).
Вычисляя величину V-информации по формулам таблицы 1 получим:
V++ = V-- = 10; V+- = V-+ = -1.
По формуле 1 вычислим, что значениям V = 10, тождественным ДК, соответствует вероятность Р = 0,91, имеющая значение в медицинских научных исследованиях, свидетельствующая о преобладании вероятности группы А. Прочим градациям виртуального признака соответствует Р = 0,44, указывающая на преобладание вероятности группы В.
Таким образом, теоретически показана возможность получения диагностической информации, не содержащейся ни в одном из отдельно взятых признаков. До настоящего времени информация подобного рода в ее количественной мере в микробиологии не использовалась и фактически была потеряна для исследователя.
Практика. Для нахождения V-информации на основе реальных данных мы взяли признак-комплекс арабиноза-рамноза для дифференциации Salmonella typhimurium от Shigella flexneri 1-5, x- и y-variant. Данные о наличии сочетаний признаков у биоваров дифференцируемых групп (соответственно 25 и 15 биоваров) мы взяли из таблиц 39 и 41 литературного источника, по ним вычислили частоты градаций V-признака:
P++a1,2 = 0,68; P--a1,2 = 0,08; P+-a1,2 = 0,20; P-+a1,2 = 0,04; P++b1,2 = P--b1,2 = P+-b1,2 = 0,267; P-+b1,2 = 0,2, а затем определили, согласно формул таблицы 1: V++ = 4,1(P=0,72); V-- = -5,2(P=0,77); V+- = -1,2(P=0,43); V-+ = -7,0(P=0,17).
Таким образом, учет виртуальных признаков может внести свою лепту диагностической информации, и подчас существенную, в дело распознавания образов.
Для получения V-информации не требуется изучения дополнительных признаков – используется уже изученные признаки, от которых получали ДК-информацию.
На практике реализация виртуальных признаков может осуществляться табличными методами или с помощью ЭВМ. Это сделает ее доступной для рядовых врачей. Полагаем, что более полное использование признаков, за счет извлечения V-информации позволит уменьшить число обязательных тестов в схемах распознавания. Особенно привлекательным это может оказаться при проведении весьма дорогостоящих испытаний новых лекарственных препаратов на людях.
Думается, что признаки-комплексы сами, или в сочетании с «элементарными» признаками могут являться составляющими для более интегрированных виртуальных признаков.
Вышеизложенный алгоритм может быть использован для моделирования такого свойства как интуиция, о чем будет рассказано в планируемой к публикации статье «Объемное знание –3. Интуиция».