microbik.ru
1 2 3 4
ПРИМЕНЕНИЕ СТАТИСТИКИ В СТАТЬЯХ И ДИССЕРТАЦИЯХ ПО МЕДИЦИНЕ И БИОЛОГИИ. 
ЧАСТЬ III. ПРОБЛЕМЫ ВЗАИМОДЕЙСТВИЯ 
"АВТОР - РЕДАКЦИЯ - ЧИТАТЕЛЬ"
В.П.Леонов
Томский государственный университет

      Как сердцу высказать себя? 
       Другому как понять тебя? 
        Поймет ли он, чем ты живешь?
        Мысль изреченная есть ложь. 
        Ф.И. Тютчев

 Рассмотрены основные проблемы научных коммуникаций как следствия современного "информационного взрыва" применительно к журнальным публикациям. Проведен анализ схемы информационного процесса в триаде "автор - редакция - читатель" с привлечением понятия тезауруса. В частности, рассмотрено влияние на качество биомедицинских публикаций мотивации и целей публикации, а также периода полужизни публикаций. Проанализированы возможные пути оптимизации научных коммуникаций базирующиеся на возможностях электронных версий журналов, позволяющие повысить статистический уровень биомедицинских публикаций. Для этого по экспериментальным исследованиям предлагается представление совместно с материалами статьи и исходных табличных данных, что позволит осуществлять полноценное статистическое рецензирование. 

Ключевые слова: статистика в медицине, биостатистика, биометрика,  наукометрика, научные коммуникации, ISSI, Scientometrics.
"Информационный взрыв" и научный критицизм
   Проблема использования статистики в медицине и биологии связана с более общими проблемами развития науки, которые наиболее выпукло стали проявляться в последние 20-30 лет. Во-первых, технические достижения привели к тому, что общение исследователей стало глобальным. Во-вторых, это общение стало более интенсивным. В-третьих, значительно возросла информационная насыщенность научных сообщений. Для того чтобы убедиться в этом, достаточно сравнить современную журнальную статью по биомедицинской тематике, с аналогичной статьей, к примеру, 20-30 летней давности. Подобный "информационный взрыв" привел к возникновению информационного кризиса [1- 4,6,10]. Одной из составляющих  информационного кризиса в биомедицине является и анализируемая нами проблема некачественного использования статистики в экспериментальных биомедицинских исследованиях. Основное признаками данного  инфокризиса являются: 1) резкое усиление общего информационного потока при ограниченной пропускной способности потребителя;  2) снижение доли эффективно потребляемой информации. В ряде направлений исследований это происходит на фоне возрастающих диспропорций между теоретическими и эмпирическими разработками. Первичное накопление эмпирических знаний, характерное для большинства наук, подобно первичному накоплению капитала. Однако отсутствие резерва надежных способов хранения и продуктивного оборота этого капитала, приводит к тому, что данный этап превращается в стихийное собирательство фактов. Резкое нарастание информационных потоков на фоне устаревших технологий сбора и хранения информации, ее переработки и потребления приводит к "затовариванию" отдельных отраслей эмпирическим материалом и его постепенному "омертвлению" - потере целостности и актуальности. В результате огромные массивы биомедицинских данных, получаемые при выполнении финансируемых государством исследований, а также на этапе диссертационных исследований, утрачиваются и изымаются из дальнейшего оборота. Между тем они могут использоваться не только на этапе первичных оригинальных исследований, но и многократно при подготовке студентов и нового поколения исследователей (аспирантура и докторантура). Не менее ценно использование такой информации  и для обобщающего мета-анализа нескольких совокупностей таких данных, что приводит к увеличению анализируемых объемов информации и, соответственно, повышению надежности получаемых при этом выводов. Все это говорит о том, что данный информационный ресурс - таблицы исходных экспериментальных данных, еще не воспринимаются в биомедицинских отраслях как ресурс, имеющий реальную финансовую стоимость. 

    В начале 80-х годов ряд исследователей обратил внимание на то, что необходимым условием продуктивной научной деятельности является оптимальное управление информационной средой. В работе [9], посвященной этой проблеме, автор даже провел аналогию между состоянием информационной среды и природной средой. "Положение с информационной средой очень похоже на положение со средой природной. В той и другой возникает сложная комплексная проблема охраны среды, ее разумной организации. Эта аналогия более или менее точно передает характер трудностей, возникающих в научной информации, показывает необходимость научного подхода к их решению. Однако если масштабы трудностей в области природной среды мы уже способны сегодня оценить достаточно трезво, то трудности "информационной экологии" до сих пор не осознаны. Не изжиты иллюзии, что все основные проблемы научной информационной среды можно решить чисто организационными мерами с привлечением некоторого количества современных технических средств"[9]. 

В работе [28]  к примеру, предлагается классификация подобных информационных загрязнений. В зарубежных источниках это явление называют "информационным загрязнением" (information pollution, information contamination).  Одним из проявлений такого "информационного загрязнения" является инфляция качества журнальных публикаций и снижение уровня диссертационных работ в ряде отраслей знания. Отметим, что в большей степени это явление характерно для исследований базирующихся на экспериментальных данных и не имеющих традиций общения с передовыми информационными технологиями. Для России же информационный кризис обострен также и периодом острого экономического и политического кризиса. Поэтому нельзя не согласиться с мнением академика Б.С. Соколова, утверждавшего (в рецензии на книгу А.А. Любищева "Проблемы формы систематики эволюции организмов"), что самым важным для биологов сейчас становится умение оценивать качество "продукции", поступающей на научный информационный рынок. Особую роль, по словам академика Б.С. Соколова, приобретает научный критицизм, который "проявляется по-разному, разделяется на несколько уровней - от методики конкретных исследований до философского осмысления научной деятельности в целом"[11]. Очевидно, что такое отношение к научной информации должно распространяться на весь эшелон научных публикаций - от  статей научных журналов, - основных поставщиков оперативной научной информации, до монографий и диссертаций, обобщающих и развивающих эту информацию. Попытаемся  рассмотреть некоторые трудности на пути реализации такого подхода применительно к журнальным публикациям, используя для этого результаты работ [12-16, 19, 23]. 
 

Триада информационного процесса
Для анализа данного информационного процесса выделим три основных звена: 1 - автор; 2 - редакция журнала; 3 -  читатель - рис. 1. 
Рис. 1

В такой схеме автор выступает как источник, отправитель информации, журнал как канал связи, передатчик и читатель как адресат, получатель информации. Пунктирность линии означает, что интенсивность обратной связи ниже, чем прямой. 

Для описания этого информационного процесса полезно использовать представление о тезаурусе. Сам термин THESAURUS был применен  впервые в 13-м веке учителем Данте флорентийцем Бруннет Латини (1220-1294) как название энциклопедии. Это вполне соответствует семантике данного слова - сокровище, богатство, запас. В наше время этот термин был введен Кэмбриджской группой по изучению языка (Великобритания) в 1956г.[8]. Тезаурус - динамическая понятийная система - представляет собой итог развития коллективного мышления в науке. Тезаурус соединяет в единую логическую структуру понятия различной степени общности  вплоть до категорий - наиболее общих свойств объективного мира. От состояния тезауруса и зависит восприятие того или иного фрагмента сообщения адресатом и его содержательная и ценностная интерпретация в рамках этого тезауруса. Подлинная семантическая (смысловая) информация у адресата возникает в процессе взаимодействия принимаемого им сообщения и его тезауруса. В специальной литературе этот этап информационного процесса иногда называют этапом прохождения информации через семантический фильтр. В принципе можно вести речь не только о тезаурусе отдельного читателя, но и тезаурусе коллектива, например редакционного коллектива. Тезаурус задает систему семантических, смысловых связей между понятиями. Каждое понятие в тезаурусе может объясняться через набор других понятий, что приводит к появлению семантического поля. Фактически тезаурус читателя - это вербализованная совокупность его представлений об исследуемой предметной области. 

При восприятии текстового сообщения тезаурус читателя может меняться. Однако это изменение, представляющее приращение его тезауруса dT, очень сильно зависит от самой величины тезауруса приемника T, от степени подготовленности читателя к восприятию данного текста. Например, текст очень содержательной статьи по астрономии не содержит по существу никакой информации для человека, не являющемуся специалистом в этой области знания. Количественные оценки степени содержательности тезауруса в принципе возможны. Так, часть докладов 6-й Международной конференции по наукометрии и инфометрии, прошедшей 16-19 июня 1997 г. в Иерусалиме и организованной одноименным международным обществом ISSI, была посвящена этим вопросам (http://shum.cc.huji.ac.il/~bluer/ISSI/). Нелинейная зависимость приращения тезауруса читателя dT от исходного объема тезауруса T, при получении им сообщения, качественно изображена на рис.2. 


Рис.2.

Читатель знающий все в данной области исследования, и имеющий большой объем тезауруса T, получит из текста мало информации (читатель 3). В роли такого читателя можно представить самого автора сообщения. Действительно, что нового может узнать автор из своей же собственной статьи? Читатель же с минимальными исходными знаниями, и соответственно малым тезаурусом T, также получит из текста  очень мало информации (читатель 1). Очевидно, что где-то между ними расположен максимум, отвечающий читателю 2 с достаточно большим тезаурусом. Естественно, что для исследователя, которого привлекает не только конечный результат исследования, но и его процесс, более предпочтительной позицией будет расположение его тезауруса где-то вблизи точки 2.

Однако по мере продвижения к точке 3 происходит не только увеличение его тезауруса, но и уменьшение стимула исследователя к его пополнению, поскольку углубляющаяся детализация знаний относительно объекта исследования приводит к уменьшению относительной ценности вновь поступающей информации. Этот эффект связан с проявлением закона Брэдфорда-Ципфа, который можно интерпретировать как закон нарастающей трудности в достижении полной информированности [23]. Поэтому по мере приближения тезауруса исследователя к позиции 3 возрастает и относительный объем затрат на единицу новой информации - среди известной информации все труднее найти неизвестную. "В результате наступает "информационная старость", своеобразный "информационный голод" от "пресыщения", а по существу - исчерпание полезной информации. 

Именно эта двойственность природы тезауруса отражает одну из объективных предпосылок возникновения смежных научных дисциплин - интеграции наук: по мере углубления познания в процессе развития отдельной конкретной науки, все более детального расчленения ее предмета на частные направления информация, приносимая их изучением, утрачивает свою ценность. На этом этапе возникает объективная потребность расширения объекта познания, объединения нескольких научных направлений, на стыке которых научные исследования снова обретают свою ценность" [24]. Иными словами, для того чтобы процесс расширения тезауруса имел достаточно высокий стимул и соответственно доставлял столь же адекватное удовлетворение, необходимо чтобы тезаурус исследователя был постоянно выше того уровня, который необходим для адекватного восприятия поступающей информации. Наиболее оптимальная технология его расширения для этой цели, это освоение основных понятий и идей смежных отраслей знания. В полной мере это относится и к овладению понятиями и идеями биометрики применительно к экспериментальным биомедицинским исследованиям.

От объема тезауруса читателя зависит и уровень восприятия им информации находящейся в тексте. Так самый низкий уровень восприятия текста - синтаксический. Читатель понимает структуру предложений, может выделить глаголы, существительные, прилагательные и т.д. Следующий уровень - семантический, смысловой. Адресат полностью и адекватно воспринимает смысл текста, структуру сообщения и его цель. Сам же объект исследования на этом уровне воспринимается читателем уже как единое целое, состоящее из отдельных структурных элементов, адекватно понимается цель сообщения. Некоторые исследователи выделяют еще и следующий уровень, называя его глубинно-семантическим. На этом уровне восприятия читатель уже изучает текст, может вести диалог с автором сообщения оценивая сильные и слабые места сообщения, развивая и продолжая авторскую мысль и очерчивая наиболее перспективные направления дальнейших исследований по теме сообщения. В результате принятая читателем информация, ставшая уже для него знанием, выступает в роли некоего катализатора, способного вызвать ответную реакцию деления "критической массы" полученного знания и генерацию нового знания. Если резюмировать все эти рассуждения, то можно сказать, что сам по себе текст не есть знание, он становится таковым, будучи понятым читателем. 

Роль ценности информации в изменении тезауруса 
Большинство работ использующих понятие тезауруса явно или неявно исходит из того, что объем тезауруса прямо пропорционален объему знаний. Между тем это предположение может выполняться далеко не всегда. Для пояснения этого утверждения обратимся к такому понятию, как ценность информации. В понятии информации, введенном в науку К. Шенноном, количество информации оценивается исходя из статистических свойств сигналов передающих эту информацию. Для нашего же случая более важно не количество информации, а ее ценность, качество. Один из специалистов по биокибернетике и теоретической биологии И.И. Шмальгаузен отмечал, что "современная теория информации не обладает методами для оценки качества информации, а в биологии это имеет нередко решающее значение"[26, с.149]. Однако в реальных случаях возможно говорить о ценности информации только с позиций ее рецепции, т.к. наиболее доступной мерой ценности информации могут быть результаты ее восприятия конечным получателем. Иными словами оценку ценности передаваемой информации возможно производить только a posteriori.  М.М. Бахтин отмечал, что "безоценочное понимание невозможно. Нельзя разделить понимание и оценку: они одновременны и составляют единый целостный акт"[18]. Так в работе [41] автор говорит: "Ценность биологической информации есть запас устойчивости, который создает рецепция или синтез информации -".

Данный подход может быть распространен и на иные информационные процессы, в которых участвует человек. В самом деле,  еще на заре своего развития адекватная информация об окружающем мире помогала человеку выжить как виду. Развивая этот подход можно придать ценности информации, которая увеличивает запас устойчивости, положительный знак, и наоборот. Простейшим примером такой информации с отрицательной ценностью может служить дезинформация. В этом случае, рассматривая приращения тезауруса dT как функцию ценности информации V и объема тезауруса T, мы получим трехмерную криволинейную поверхность. Используя результаты работ [41-42] можно говорить о таких комбинациях ценности информации и объема тезауруса, которые в итоге будут приводить к уменьшению знания читателя.  В этом случае апостериорное распределение смыслов становится уже не унимодальным, а полимодальным. Причем с увеличением числа мод этого распределения,  вероятности каждой моды будут соответственно уменьшаться, а в пределе само распределение будет стремиться к равномерному. Такую ситуация можно проиллюстрировать известной притчей о буридановом осле, однако в этом случае вместо двух вязанок сена перед ослом будет уже множество вязанок. Другой аналогичный пример описан в [7]: "Когда я впервые посетил Америку, я был чрезвычайно удивлен, заметив над проезжей частью улицы надпись: "CARS MUST BE KEPT ON THE PAVEMENT"  (В США это значит: "Автомобили оставлять на мостовой". В Англии слово " PAVEMENT " имеет иной смысл, так что та же надпись означала бы "Автомобили оставлять на тротуаре"). Основное значение для адекватной трансформации авторского знания в текст статьи, а стало быть, и оценки ценности этой информации читателем, имеет уровень владения терминологией конкретной научной отрасли, как автором, так и читателем.

Терминология и условные обозначения
Общеизвестно, что язык науки носит значительно более выраженный кодовый характер, нежели обычный язык повседневного общения. Наибольшее развитие это находит в разработке специфических языков присущих конкретным научным дисциплинам. По мере своего обособления и углубления каждая отрасль знания вырабатывает собственный язык, своеобразный научный "сленг", который делает его мало доступным для понимания и восприятия  специалистами других отраслей. Например, в медицине и биологии широко используется латынь. Столь же широко используется обозначение комплекса симптомов обусловленных единым патогенезом в виде синдрома, называемого фамилией одного или нескольких исследователей (синдром Дауна, синдром Кандинского-Клерамбо, синдром Меньера и т.д.). "В тех областях, где математический аппарат достаточно давно выработан, ученые стараются пунктуально соблюдать принятую символику, вплоть до того, что одноименные величины обозначают одними и теми же буквами: это особенно хорошо заметно в традиционных разделах физики (v - скорость,  t - время) и в классических разделах техники"[19]. 

Такие же условности соблюдаются и в математической статистике. Например, выборочные оценки параметров принято обозначать латинскими буквами, а генеральные параметры, относящиеся ко всей генеральной совокупности (популяции), обозначают буквами греческого алфавита. "Иными словами, в ... науках мы не можем схватить общий смысл сказанного, не вникнув в сами законы пользования языком науки, не постигнув в какой-то мере метаязык науки (т.е. язык, на котором описывается сам язык науки)"[19]. Очень образно этот конфликт невосприятия смысла текста из-за незнания алфавита языка отражен в известном стихотворении Нобелевского лауреата (1943г.) Германа Гессе "Алфавит" (из книги "Игра в бисер"), которое мы приводим ниже. Для иллюстрации тезиса о зависимости интерпретации сообщения от тезауруса получателя (

следующая страница >>