Как преобразовать текст в алгебру: примеры
В предыдущей статье было разработано представление знаковых последовательностей полиномами матричных единиц на примере языкового текста. Текст превращается в алгебраический объект. С текстом можно совершать все алгебраические операции, необходимые для структуризации — вычисления заголовков, словарей, аннотаций, смысловой разметки. В данной статье приведены два примера алгебраической структуризации текстов иной природы. Азбука Морзе выбрана из-за предельной краткости словаря, а математические формулы как пример обратной задачи.
1. Код Морзе-Вейля-Герке как алгебра матричных единиц
В азбуке Морзе знаковые последовательности (тексты) 26 латинских букв состоят из точек и тире. Пример выбран из-за предельной краткости словаря («точка» и «тире»).
Слова здесь — точки или тире. 26 букв азбуки — тексты из таких слов. У каждого слова две координаты. Первая координата — номер слова (точки или тире) в этой букве (от одного до четырех). Вторая координата — номер в словаре (1 или 2). Словарь E11 («точка») и E22 («тире»).
Таблица 1. Азбука Морзе: латинские буквы как знаковые последовательности (тексты)Каждой букве (знаковой последовательности) с номером из Таблицы 1 можно поставить в соответствие матричный полином P из матричных единиц 4×4 по формуле (8) из статьи [1].
Таблица 2: Азбука Морзе: буквы как матричные полиномыНапример, букве Q (№17) ставится в соответствие матричный полином:
Свойством всех 26 полиномов-букв таблицы 2 является то, что крайними правыми сомножителями являются только три матричные единицы E12, E21, E32
Если все 26 полиномов Таблицы 2 представить столбцом ||P||, а также из того, что для матриц и столбцов выполняется:
то азбука Морзе структурируется в три левые идеалы наборов матричных полиномов Таблицы 2 с базисами ||P||1, ||P||2, ||P||3.
где
||P||2(||P||2)T — симметричная матрица — число в диагональных элементах — это число базисных элементов (простых и составных матричных единиц), принадлежащих букве, в других элементах — число совпадающих базисных элементов в соответствующей паре знаковых последовательностей (букв) — после нормализации характеризует важность буквы в азбуке.
(||P||2)T ||P||2 — симметричная матрица — число в диагональных элементах — это число букв, принадлежащих базисным элементам, в недиагональных элементах — число совпадающих букв в соответствующей паре базисных элементов — после нормализации характеризует важность базисного элемента (заголовка) в азбуке.
Азбука Морзе алгебраически структурирована в три идеала (класса) с базисами (1.3). Представление азбуки через идеалы описывает все подобные коды с базисами (1.3). Представление азбуки через идеалы приведено в Таблицах 3 и 4:
Таблица 3: Прямая индексацияТаблица 4: Обратная индексацияАзбука Морзе: ABCDEFGHIJKLMNOPQRSTUVWXYZ
из-за свойств матричных полиномов (крайние правые сомножители — только три матричные единицы E12, E21, E32) разбивается на три класса (три идеала) тремя образующими E12, E21, E32:
E12 — заголовок тех букв, которые имеют знак «тире» на первом месте 4-знаковой последовательности:
_BCD__G___K_MNO_Q__T___XYZ (13 букв)
E21 — заголовок тех букв, которые имеют знак «точка» на втором месте 4-знаковой последовательности:
_BCD_F_HI_K__N____S_UV_XY_ (13 букв)
E32 — заголовок тех букв, которые имеют знак «тире» на третьем месте 4-знаковой последовательности:
__C__F___JK ___OP____U_W_Y_ (9 букв)
2. Алгебра математического текста
В примере [1] языковый текст превращался в математический объект (матричный полином), с которым можно совершать алгебраические операции для анализа и синтеза текстов. В этом примере совершается обратное преобразование — математические объекты (формулы) сначала рассматриваются как тексты (знаковые последовательности), которые затем превращаются опять в математические объекты, но иные, чем исходные. Такая новая форма позволяет более системно находить свойства математических объектов для сравнения и классификации.
Формулы объема конуса VK, цилиндра Vц и тора VТ:
рассматриваются как тексты. Это означает, что входящие в тексты знаки не являются математическими объектами и для них отсутствуют алгебраические операции. Например, R12 — это R1R1, πR1 — это не произведение двух чисел, а просто последовательность двух знаков. Знаки в (1): R1 и H1 — радиус основания и высота конуса, R2 и H2 — радиус основания и высота цилиндра, R3 — внутренний радиус тора, R4 — внешний радиус тора, r — радиус образующей окружности тора, π — это число π.
Для семиотического анализа формул как текстов важно наличие повторов знаков. Повторы определяют закономерности. В формулах (2.1) повторов знаков на самом деле больше, чем указанные повторы знака π. Знаки R1, R2, R3, R4, H1, H2 и r — это длины отрезков. Тогда один из знаков, например , является простым (эталон длины), а остальные знаки — составными: R1=ar, R2=br, R3=cr, R4=dr, H1=er, H2=fr . Тогда правые части формул (2.1):
Или в индексной форме:
Формулы (2.2) как полином матричных единиц из трех фрагментов
где:
Или в блочно-матричной форме:
В столбцах P находятся знаки из трех формул (2.1) . Если в столбце два нуля, это означает, что соответствующий знак имеется только в одной формуле. Например, знак »⅓» (или E1,1), два знака »a» (или E3,3+E5,3) , один знак »e» (или E7,7) имеются только в первой формуле для конуса (первая строка (2.5)). Только в цилиндре (вторая строка (2.5)) имеются два знака »b» (или E11,11+E13,11) и один »f» (или E15,15). Только в торе (третья строка (2.5)) имеется знак (c+d) (или E20,20). Общие знаки конуса, цилиндра и тора находятся во втором и четвертом столбцах (2.5). Тогда:
где:
В (2.6) матричный текст раскладывается по разным базисам Pдел1 и Pдел2. Базис Pдел1учитываетвзаимные положения между повторяющимися знаками относительно тора в формулах (2.1). Базис Pдел2 учитывает положения между повторяющимися знаками относительно знаков словаря DR в формулах (2.1). В общем случае учет положения знаков в формулах существенен, если знаки некоммутативны (например, знаки — это матрицы, вектора, тензоры, гиперкомплексные числа). Но и в скалярном это полезно, например, канонической является формула площади круга π r2, а не r2 π.
Базис Гребнёра-Ширшова для (2.6):
Тогда:
В Pчастн1и Pчастн2имеются повторы (зацепления матричных единиц по второму индексу). Они подлежат дальнейшей редукции. Все зацепления разрешимы, — аддитивные Pчастн1и Pчастн2 приобретут мультипликативную форму, как и для языкового примера.
Метод алгебраической структуризации текстов позволяет для текстов разной природы найти соответствующие классификаторы и словари. Т. е. классифицировать тексты без априорного задания признаков классификации и наименования классов. Такая классификация называется категоризацией или апостериорной классификацией. Например, для (2.3) классификационными признаками становятся:
Pдел1и Pдел2 (общие π и r в разных местах формул),
общее число слагаемых в круглых скобках Pчастн1и Pчастн2 (четыре),
соотношения числа π и r в круглых скобках Pчастн1и Pчастн2 (1,1,2 и 3,3,2),
сомножители мультипликативной формы Pчастн1 и Pчастн2,
всевозможные фрагменты Pост(вычеты, как класс формул с остатком-фрагментом).
Наименования классов совпадают с наименованием признаков и их сочетаний.
Литература
[1] Пшеничников C.Б. Алгебра текста. Researchgate Preprint, 2021