Об одном способе анализа смысловой нагрузки научно-технической литературы
В статье авторы пытаются, введя весовые критерии для облака тегов, построить весовые характеристики для научных текстов с целью облегчения поиска нужных идей в статьях.
Вступление
Наше время характеризуется огромным потоком информации по различным аспектам деятельности человека, в том числе и по научно-техническим. Помимо классических журнальных ресурсов существуют и профессиональные электронные ресурсы, своеобразные форумы специалистов и т.д.
Нет нужды описывать объёмы тиражей научных статей, представленных в различных ресурсах. Они огромны и увеличиваются с каждым годом.
Перед исследователями или аналитиками, которые не хотят изобретать велосипед и ищут ответы на свои вопросы в Интернете, стоит очень трудная задача — выловить золотую рыбку (полезную информацию) в мутном океане Интернета.
Обычно, в настоящее время, это сводится к поиску по ключевым тематическим словам, о которых знает исследователь. В настоящее время этот тип поиска снабжён достаточно разработанным логическим аппаратом по связям между ключевыми словами. Но необходимо отметить, что на представленные запросы перед нами вываливается огромное количество статей. Пусть и в какой-то степени и ранжированные по искомым ключевым словам, которые были представлены в поисковом запросе. Кроме того, исследователь, в силу объективных причин, не может знать всю палитру терминов и связок между терминами, которые присутствуют в статьях по тематике. Да и читать все статьи достаточно трудное занятие. Поэтому возникает ситуация, когда исследователь рассматривает выбранную тему по ограниченному числу статей, попавших в поле зрения достаточно случайным образом.
Добавим ещё сюда проблему смысловой близости статей, когда автор или группа авторов тиражируют одну идею в различных ресурсах.
Не будем подробно останавливаться на данных вопросах. Они достаточно очевидны, и статистическим доказательством их актуальности пренебрежём.
Целью данного опуса является рассмотрение подходов к решению означенных вопросов, а именно реализация аппарата для оценки научных интересов авторов путём создания взвешенного глоссария терминов автора, построение механизма обработки больших массивов научных статей, с целью нахождения необходимой информации.
Описание базиса аппарата
Рассмотрим вопрос — что взять за основу анализа научно-технической статьи.
В настоящее время статьи, как правило, имеют следующую структуру: заголовок, аннотация, ключевые слова, текст статьи, список используемой литературы.
Рассмотрим эти части в первом приближении.
Заголовок — играет очень незначительную роль в оценке значимости статьи. Это вполне понятно и не будем разбирать этот тезис.
Аннотация — представляет вполне определённый интерес, ибо в ней должна быть представлена квинтэссенция содержания статьи. Правда, зачастую объявленные в аннотации результаты носят несколько завышенную оценку по сравнению, с реальными результатами исследований, изложенными непосредственно в статье. Но для совокупного анализа статьи аннотация играет определённую роль, которую подробно рассмотрим ниже.
Ключевые слова автора (КСА) — автор выделяет их, как обозначение основных тематических направлений проделанных исследований.
Сам текст статьи, назовём его «телом статьи», содержит подробное описание исследований и достигнутых результатов.
Ну, а список использованной литературы, благодарности и т.д., что можно обозначить как «хвост статьи» — имеет весьма ограниченное значение для анализа статьи в целом.
В качестве базового аппарата анализа текстов предлагается использовать функцию формирования облака тегов статьи. Программная реализация этой функции широко представлена, в том числе и в открытом виде. Авторы использовали аппарат, разработанный в компании ТСА — информационная система TextApp. В интерфейсе данной системы реализован компонент, так и многие другие, предназначенные для интеллектуальной обработки текстов.
Облако тегов представляет собой набор наиболее значимых слов статьи, при этом их значимость обозначается размером шрифта. На практике, заметим, если установить определённую границу — т.е. если рассматривать слова в облаке тегов только те, которые больше, например, 13,5–14 пт., то у нас в рассмотрении будут слова по тематике исследований, все случайные слова окажутся не в поле рассмотрения.
Отметим ещё, что все три части текста, которые мы выделили для анализа, связаны между собой закономерностью отображения. Несомненно, как КСА, так и абстракт статьи, определённым образом отображаются в «теле статьи» и тем самым заключают в себе основную смысловую нагрузку текста.
Основные параметры характеристики текста
С учётом указанных выше особенностей формирования научных статей рассмотрим три отдельные составляющие части статьи.
Придадим размеру шрифта отдельного тега понятие веса этого тега, хотя с учётом размера статей это соответствие носит приблизительный характер.
Введём следующие понятия:
Множество S — множество слов из ядер облаков тегов «тел» статей коллекции публикаций.
Si={aj}- множество слов, которые вошли в ядро облака тегов статьи I.
W{Si}- вес множества Si.
w (aj, i) — вес слова аj в ядре облака ключевых тегов статьи i.
wo (aj, i) — относительный вес слова аj в ядре облака ключевых слов статьи i, его будем посчитывать по следующей формуле:
wo (aj, i)= w (aj, i) / W {Si}, соответственно Wо{S}= ∑(i, j) wo (aj, i) —
совокупный относительный вес множества S (относительный вес ядер облаков тегов статей коллекции).
Учёт веса слов ядер облаков тегов статей в коллекции
Теперь, когда мы ввели понятие относительный вес слова в ядре облака тегов отдельной статьи, то относительный вес этого слова во всей коллекции будем рассмотрим, как сумму относительных весов.
Обозначим woS (aj) сумму относительных весов слова aj в ядрах облаков тегов статей коллекции, которую мы анализируем.
Рассмотрим дополнительные весовые характеристики ключевых слов из ядер облаков.
Для характеристики встречаемости слов в ядрах облаков тегов статей коллекции введём два понятия.
Совокупный относительный вес слова из ядра.
Определим его как R (aj) = woS (aj) / {WО S}
Эта величина поможет нам понять какое место занимает слово aj во всей коллекции ядер облаков тегов статей коллекции.
И ещё одну характеристику — плотность распределения слова aj…
Обозначим через n и k соответственно — число статей в рассматриваемой коллекции и число статей из рассматриваемой коллекции, где слово aj вошло в ядро облака тегов статьи.
Тогда плотность D (aj) = (k/n) х R (aj).
Итак, с определёнными допущениями, мы определили некоторые статистические компоненты, которые характеризуют непосредственно тело научной статьи. Предложенные характеристики позволят нам перейти к построению весового глоссария автора, или группы авторов, при рассмотрении коллекции документов по выбранной тематике. При составлении глоссария по тематике представляется наиболее продуктивно отталкиваться именно от авторов — признанных авторитетов по анализируемой теме. Построенный таким образом глоссарий позволяет вводить весовые критерии при анализе или поиске других публикаций по рассматриваемой теме.
То есть, если нам известны весовые характеристики слов употребляемых в трудах авторитетов, то соответственно и при поиске публикаций мы будем полагаться не просто на отдельные КС или их комбинацию, а на статистические характеристики этих слов в статьях.
Рассмотрим теперь ещё одну составляющую статьи, о которой говорилось выше, а именно — КС, которые автор указывает перед статьёй, тем самым очерчивая тематические границы своего исследования. Отметим, что как правило, их немного и они, естественно, не повторяются.
Вполне очевидно, что при рассмотрении этих двух составляющих статьи, можно однозначно указать: КС определённым образом отражаются в ядре облака тегов. Попытаемся использовать это соотношение. Положим, что каждому КСА ставится в соответствие набор слов из ядра облака тегов с их весами. То есть у нас получается отображение в рамках одной статьи как один ко многим.
Если обозначить КСА статьи I, как bk (i), то у нас получится отображение bk (i) ↔ {aj}. Но нам интересно перейти к весовым характеристикам этого отображения.
Для каждой отдельной статьи КСА не повторяются.
Отметим несколько особенностей формирования множества КСА. Количество КСА перед статьёй в определённой степени зависит от размера статьи. Для учёта этой зависимости для каждого КСА отдельной статьи введём понятие его веса, который будет равен отношению числа КСА к числу слов в ядре тегов статьи. Gbji=ki/li, где Gbji — это вес КСА bj в статье i, где ki — это количество КСА, соответственно li- количество слов в ядре ключевых слов этой же статьи. Для конкретной статьи вес КСА будет постоянным, да и по смыслу это понятно, автор рассматривает ряд фундаментальных идей, которые он затем развивает.
Если мы рассматриваем коллекцию статей, то очевидно, что КСА будут повторятся, отсюда следует, что если рассматриваем всю коллекцию статей и отображение между КСА и словами из ядер облаков статей, то получаем следующую картину: одним и тем же КСА соответствуют разные группы слов из ядер. Веса КСА и слов из ядер облаков статей из обоих множествах при взаимном отображении (соответствии) будем складывать.
У нас получается следующая обобщённая картина:
∑(i) Gbji ↔ {∑ (i)Swo (aj)}.
Или, проще говоря, каждому КСА в коллекции статей, с учётом суммарного его веса, соответствует множество слов из ядер облаков тегов статей рассматриваемой коллекции.
Остановимся подробнее на этом преобразовании.
Рассмотрим это отношение для каждой отдельной статьи I, как одно к одному, то есть каждому отдельному КСА поставим в соответствие одно ключевое слово из ядра облака тегов. Обозначим эту связь через пару чисел (Vbk (i), wo (aj, i)). Уподобим эту пару чисел, связанных определённым соотношением, комплексному числу, которое, как известно, состоит из двух составляющих.
Теперь, когда соотношение между словами из двух рассматриваемых составляющих одной статьи описаны, перейдём к описанию данного подхода для коллекции текстов. Предлагается производить сложение весовых величин для одинаковых сочетаний по всей коллекции.
Если у нас в m статьях встречается соответствие между КСА bk (1,2….m) и словом из ядра тегов aj (1,2, ….m), то относительные веса этих слов складываются, и получаем величину, которую обозначим через Fm (bk, aj), где соответственно bk и aj — это суммарный вес слов в устойчивой связи.
Прибегнем к аппарату комплексных чисел.
Если рассматривать коллекцию публикаций, мы получаем множество комплексных чисел, которые описывают процесс, как в статьях КСА соотносятся со словами из ядра облака тегов.
Другими словами, получается картина отображающая, как те или иные тематические, крупные направления (КСА) описываются в статье через слова из тела статьи.
Итак, получили возможность через комплексные числа характеризовать отношения между двумя множествами слов, которые представлены в научной статье.
Что же это даёт нам при поиске нужных статей по рассматриваемой нами тематике.
Возникает вопрос, как оценить это связи слов. Эти числа состоят из двух компонентов — как раз то, что нам позволит оценить развитие связей между рассматриваемыми нами множествами.
Но, как известно, комплексные числа сравнивать не просто, можно конечно подсчитывать модуль числа, но сравнение по модулю будет не корректным. Однако, если мы представим комплексное число через тригонометрическую функцию и будем учитывать аргумент числа, то здесь открывается перед нами возможность искать необходимые нам направления работ. Аргументом комплексного числа называется угол φ{\displaystyle \varphi } между радиус-вектором соответствующей точки и положительной вещественной полуосью.
Как можно использовать такой подход. Если одна составляющая комплексного числа, пусть вещественная часть — это характеристика авторского слова автора, а под мнимой частью будем понимать слово из ядра. Таким образом, мы построили функцию, которая отражает поведение связки конкретного авторского слова и конкретного слова из ядра облака.
Графически это можно представить так, каждой связке слов в статье, соответствует точка в правой положительной части полуоси с учётом величин обоих частей комплексного числа и угла φ{\displaystyle \varphi }. Для всей коллекции по этой парной связке у нас на этом пространстве образовывается облако точек. Отдельные точки могут совпадать — если характеристики связки в разных статьях совпадают.
Эта функция будет представлять определённый интерес при оценке связи во времени и при расширении коллекции
Рассмотрение этого облака поможет нам выбрать статьи с нужными нам весовыми значениями связок.
Можно устанавливать границы для значений каждой составной части комплексного числа и на пересечении этих двух множеств, мы получаем все статьи, у которых характеристика связки нас устраивает. Тоже самое, проделаем и с другими связками слов, если мы хотим определить статьи по множествам ключевых и авторских терминов. Их конечное пересечение и выявит конечное множество статей, в которых и КСА, и слова из ядер облаков тегов имеют искомые нами весовые характеристики.
Можно рассматривать и другие логические операции со связками — которые возможно отображать в искомом множестве статей из коллекции.
Что мы под этим имеем в виду.
Первоначальный шаг сбора информации по какой-либо проблеме заключается в выборе примера для обучения алгоритма — статья или небольшой набор статей, по которому, мы определяем набор перспективных или интересующих нас ключевых пар слов. После определения этих пар можно запускать механизм формирования коллекции, при этом конечно установив границу веса для ядра тегов публикаций. По мере формирования коллекции можно устанавливать нижнюю границу для весов слов из обоих, рассматриваемых, нами множеств. Таким образом, мы можем формировать коллекцию с определёнными весовыми характеристиками слов.
Рассмотрим вопрос, как приступить к формированию коллекции по конкретной теме. Лучше в её формирование исходить от авторитетного автора. Это позволит получить взвешенный глоссарий его терминов, также другие характеристики употребления им научной терминологии. Это, в свою очередь, позволяет оценить понятийный аппарат автора. Если рассмотреть данную коллекцию, через понятие комплексных чисел, то можно оценить значимость отображения общих проблем (ключевые слова по статье) в конкретную терминологию (слова из ядер облаков тегов). По весовым критериям можно выявить устойчивые связи, а если ввести сюда и временной интервал, то можно оценить эти связи во времени. А это — оценка интересов автора во времени и развитие его отношения в теме: изменение весовых характеристик употребляемой терминологии.
Исходя из полученных характеристик комплексных чисел, мы можем оценивать и искать конкретные научные статьи с интересующими нас границами колебания связей между словами из описанных нами частей статьи. Выявлять новые связи, оценивать терминологическую плотность работ по тематике различных авторов.
Выявление работ с определёнными нами весовыми границами между терминами в различных разделах статьи создаёт предпосылку для режима логического анализа статьи. Если выделить те фрагменты в статье, где мы встречаем нужные слова из ядра облака тегов, и рассмотреть их окружение с точки зрения получения итогового результата. Ведь те слова, которые окружают наше искомое слово, можно рассматривать, как предикаты, предавая им определённые значения через слова — глаголы действия (положительной, или отрицательной окраски). Примерно этот принцип реализован в системе Антиплагиат, где показываются фрагменты заимствований (совпадений) из документов. Заметим, что существует словарь глаголов русского языка (Толковый словарь глаголов русского языка под редакцией А.П. Бабенко, из-во АСТ-пресс, 1999 г.), в котором также рассматриваются и глаголы, носящие различную окраску характеризующих степень выполнения работы, достижения результата (сделано, достигнуто, получено и т.д.). Все это даёт нам возможность построить логические уравнения и тем самым решать вопрос, о том, в каком ключе решена задача по рассматриваемой нами тематике в статье.
Ещё можно прибегнуть к аппарату теории графов и составить матрицы переходов, соответственно по вертикали и горизонтали расположив слова из ядер облаков тегов и КСА. Соответственно элементы матрицы — это относительные веса слов из ядер облаков тегов. Это графическое отображение ориентированного весового графа. В построении матрицы для коллекции мы, для предания весов КСА применим скаляр. Ну, а дальше, по аналогии с комплексными числами.
При желании данная методика может быть развита для учёта влияния авторской аннотации, времени написания статей и других характеристик (степень завершения работ, повторяемость результатов и т. д.). Не будем подробно рассматривать, как можно использовать словарный состав авторской аннотации, его отображение в КСА и в слова из ядра облака тегов, и привязку этих компонент ко времени издания статьи. Заметим только, что, в данном случае, используются кватернионы. С их помощью можно учитывать взаимовлияние всех четырёх компонент.
Итак, что показал данный подход:
Собирая коллекцию публикаций определённого автора или группы близких соавторов, мы можем сформировать два авторских глоссария (глоссарий основных тематик и глоссарий рабочего словаря).
Мы в коллекции публикаций выбрать те публикации, которые нас интересуют с точки зрения весовых критериев соответствующих терминов.
По этим терминам мы можем оценивать конкретные результаты, изложенные в работах.
Таким образом, мы добиваемся возможности обработки больших объёмов информации по обусловленным критериям.
Можно также рассматривать эту методику для создания онтологии рассматриваемой проблемы.
Конечно, это только общий подход и он требует дальнейшей проработки и усовершенствования аппарата, как математического, так и программного, но это уже тема другой статьи.
Далее в статье представлены фрагменты таблиц проведённого эксперимента.
Пояснения к проведённому эксперименту:
Суть реализованного алгоритма — это выявление проблем, которые поднимаются в статьях и того понятийного аппарата, которым автор, решает проблему. Это достигается посредством сопоставления весов КСА в статьях и весов слов облаков тегов непосредственно текста.
Определённым способом подсчитываются их веса, производится их сопоставления с учётом весовых характеристик, частоты использования, подсчитывается плотность распределения ключевых слов во всей коллекции. Таким образом, если рассматривать публикации учёного или группы учёных по какому-то вопросу, то можно выявить тенденции в его (их) публикациях, а также понятийный аппарат (облако тегов) которым он апеллирует, рассматривая ту или иную проблему. То есть сделать срез во времени и пространстве публикаций и их тематик.
Для эксперимента были взяты публикации учёного, д. ф.-м. наук, профессора в области газогидродинамики (57 работ). Публикации на русском языке, но с таким же успехом можно рассмотреть и версию на другом европейском языке.
Был сформирован весовой глоссарий учёного, состоящий из КСА и ключевых слов его статей. Представлены таблицы их соответствия, в которых видно как те или иные основные проблемы описываются терминами в статье. Подсчитана плотность распределения ключевых слов.
К примеру, возьмём проблему сверхзвук, она рассматривается в трёх работах, соответствующими терминами:
сверхзвук: струйные течения, кгд уравнения, граур, многопроцессорные системы, подробная сетка, срез сопла, кгд, диск маха, квазигазодинамические уравнения, многопроцессорный, вращательная температура, недорасширения струя, распределение плотности, свободный пробег, численное исследование, система кгд, вычислительные системы. Относительный вес ключевого слова в границах от 0,7 до 0,4;
сверхзвуковое течение: Окрестность аппаратов, колебательное течение, гиперзвуковой аппарат, поверхность фюзеляжа, ламинарный — турбулентный переход, расчётная область, чёрные крестики, нестационарное течение, многопроцессорные комплексы, линия уровней, квазигазодинамические уравнения, уровень плотности, макроскопическая скорость, число маха, фюзеляжи аппарата, квазигазодинамический, гиперзвуковой. Где относительный вес слова в статье в границах от 0,9 до 0,4.
В статьях есть общие термины: квазигазодинамические уравнения (кгд), течение, уровень плотности и т.д.
Теперь основываясь на значениях относительных весов и значениях ключевых слов можно смотреть, как автор в этих работах решает проблему исследования сверхзвука. К примеру, мы хотим узнать, как решил автор тему сверхзвука посредством квазигазодинамических уравнений (кгд), соответственно делаем запрос и выделяем те предложения, где этот процесс описан.
Очевидно, требуется, в частности, учёт эквивалентности слов, тот же сверхзвук, сверхзвуковые течения, сверхзвуковое течение. Эти слова автора относятся к одной проблеме, но в своих статьях он разделил. Такие слова нужно объединять.
Итоги работы программы, которые предоставлены ниже, показали автору, результаты были одобрены, они, по словам автора, полностью отражают тематику и понятийный аппарат автора в различные годы публикаций.
Этот же алгоритм можно использовать и для сравнения различных публикаций с целью выявления их подобия, тем самым можно кластеризовать тематики научных исследований проводимых в различных институтах, с целью создания или рекомендаций по созданию виртуальных команд, в рамках научных исследований.
Также, если развивать данную тематику, то используя глаголы совершенного действия (сделано, достигнуто, получено и т.д.) и вычислять их расстояние от ролевых тегов, можно сделать заключение о степени завершённости работ.
Круг задач, которые можно решать, при помощи данного алгоритма, может быть значительно расширен.
Таблица 1. Фрагмент таблицы ключевых слов автора
Соответственно по столбцам
Столбец B — год публикации
Столбец C — ключевое слово автора
Столбец D — количество ключевых слов автора
Столбец Е — количество ключевых слов в тексте (количество слов в облаке тегов статьи)
Столбец F — вес ключевого слова автора
Табл. 2 Фрагмент таблицы ключевых слов
Соответственно по столбцам
Столбец А — ключевое слово
Столбец В — относительный вес ключевого слова
Столбец С — сколько раз оно (слово) встречается в статьях
Столбец D — обобщённый вес ключевого слова по всей коллекции
Столбец Е — плотность распределения ключевого слова в коллекции
Как видно из фрагментов таблиц 1 и 2, у нас есть первичное представление о тематических интересах автора, а также его словарном инструменте, в определённой степени это взвешенные глоссарии автора.
Обратимся к графикам, мы получаем еще один инструмент, для решения данного вопроса. На графика 1 (на нем представлены распределение КСА по годам), можно видеть как меняются интересы автора. На графике 2 показан более подробно фрагмент этого графика.
На графике 3 показано распределение ключевых слов по годам, и соответственно его увеличенный фрагмент.
Таким образом эти графики демонстрируют нам возможность отслеживания интересов автора и его словарный запас, описывающий ту или иную проблему.
График 1. Распределение ключевых слов автора по годам
График 2. Фрагмент (укрупненно) Графика 1
График 3. Распределение ключевых слов из ядер облаков тегов по годам
График 4. Фрагмент (укрупненно) графика 3
Таким образом, эти графики и таблицы демонстрируют нам возможность отслеживания интересов автора и его словарный запас, описывающий ту или иную проблему.
Ещё раз заметим, что представленный алгоритм предназначен для обработки больших объёмов публикаций, и он даёт возможность оценивать интересы автора во времени, как он решал поставленные вопросы. И всё это, можно делать, не читая публикации.
Дополнительно к перечисленному создана таблица, показывающая как в коллекции соответствуют КСА и ключевые слова из ядер облака тегов (КСА большими буквами и теги соответственно прописными)
Также приводится реестр статей, где указывается название, год издания, КСА и количество слов в ядре облака тегов статьи.