Интерпретатор скрипта на С++

?v=1

Всем привет.

Написал простой интерпретатор, конечно не конкурент lua, но тоже может пригодиться.
Кому интересно прошу.
Сразу пример, что получилось:

stringstream ss;
ss << "$a = 5;"
      "$b = 2;"
      "while($a > 1){"
      "  $a -= 1;"
      "  $b = summ($b, $a);"
      "  if($a < 4){"
      "    break;"
      "  }"
      "}"
      "$b";
string res = ir.cmd(ss.str()); // 9


Что хотелось


Идея была в том, чтобы полностью отделить функционал (пользовательские операторы и функции) от самого языка скрипта, ограничиться минимумом ключевых слов (всем известных), ну и сделать интерпретатор и язык компактным и удобным для использования.

Что получилось


Скриптовый язык вышел простой и ограниченный конечно.
Состоит из трех компонентов — переменные, выражения и функции, и нескольких базовых ключевых слов. Тип значений для всех компонентов — строка.
Нет жестко забитых функций и операторов, все добавляет программист перед запуском скрипта.

Как это работает


Первый этап — парсинг скрипта. На этом этапе идет синтаксический разбор текста скрипта: выделяются ключевые слова, операторы, функции.
Явно АСД не создается, но косвенно появляется (можно сказать в плоскости массива) в виде очереди операций, которые должны быть выполнены последовательно, то есть другими словами, все встречающиеся сущности попадают в массив операций сразу в нужном порядке выполнения.
Все ошибки написания скрипта находятся на этом этапе.
Второй этап — выполнение скрипта. Здесь идет проход по массиву операций, с последовательным выполнением каждой.
Внутри все построено на рекурсивном вызове функций и проверках условий вызова.

Основные компоненты скрипта:

  • Переменная. Любая последовательность символов в коде скрипта начинающаяся с '$', считается переменной.
    Переменные используются для хранения промежуточных результатов вычислений, и для передачи параметров в функции. Имеют глобальную область видимости.
    Объявляются и используются только в коде скрипта, сразу использовать без объявления можно (значение по умолчанию — пустая строка):
    $c = 5 + 6;
    summ($c, 6);
    

    Ко всем переменным в скрипте можно обращаться (и изменять их при необходимости) из основного кода, например, в функции:
    Intrerpreter ir;
    ir.addFunction("summScriptVars", [&ir](const vector& args) ->string {
        int res = 0;
        for (auto& v : ir.allVariables()) {
          if (isNumber(v.second)) res += stoi(v.second);
        }
        return to_string(res);
      });
    
  • Выражение. Состоит из переменных, операторов и вызовов функций.
    Обязательно должно заканчиваться символом ';'.
    Может быть параметром функции, в этом случае его не нужно закрывать символом ';'.
    В выражениях могут использоваться скобочки для повышения приоритета операций над переменными. О приоритете ниже.
    $b = 4; 
    $c = 5 + $b + 3 - 7; 
    $a = $b * (3 + $c) + summ($a, $b, $c + 1);
    
  • Функция. Любые функции создаются на уровне основного кода, в скрипте только используются. Функция принимает массив параметров, возвращает строку как результат работы.
    Сначала функцию нужно определить и добавить в основном коде:
    Interpreter ir;
    ir.addFunction("summ", [](const vector& args) ->string {
        int res = 0;
        for (auto& v : args) {
          if (isNumber(v)) res += stoi(v);
        }
        return to_string(res);
      });
    

    В скрипте функция вызывается по имени, параметры передаются в скобочках, как обычно:
    $b = summ($b, $a);
    

    Функция может принимать другие функции и выражения:
    $b = 1;
    $c = summ($b, summ($b + 5, $b + $b - 1), 4);
    $a = $c - summ($b, 3);
    
  • Оператор. Любая последовательность символов в коде скрипта, заранее определенная в основном коде, считается оператором.
    Сначала оператор нужно определить и добавить в основном коде:
     Interpreter ir;
     ir.addOperator("+", [](string& leftOpd, string& rightOpd) ->string {
        if (isNumber(leftOpd) && isNumber(rightOpd))
          return to_string(stoi(leftOpd) + stoi(rightOpd));
        else
          return leftOpd + rightOpd;
      }, 1);
     
      ir.addOperator("==", [](string& leftOpd, string& rightOpd) ->string {
        return leftOpd == rightOpd? "1" : "0";
      }, 2);
    
      ir.addOperator("=", [](string& leftOpd, string& rightOpd) ->string {
        leftOpd = rightOpd;
        return leftOpd;
      }, 17);
    

    При создании оператора помимо определения нужно задать приоритет.
    Приоритет работает так же как в С++: нулевой наивысший, далее чем больше значение приоритета, тем позже будет выполнен оператор. Порядок выполнения операторов с одинаковым приоритетом — слева направо.
    Операторы используются в выражениях.
    $c = 5 + 6;
    $b = 2;
    $a = $c + 5; 
    $c = summ($a + 5 / $b);
    


Теперь опишу остальные ключевые слова языка скрипта, в основном это управляющие конструкции.

  • while(condition){body}. Выполняет циклически последовательность выражений (далее, тело цикла) в зависимости от результата выполнения условия.
    Условие заключается в скобочки '()' и, как и в любом языке, рассчитывается на каждой итерации цикла.
    Условие считается выполненным, если результат расчета условия для численного значения не равен 0, для строкового значения — не пустая строка (численное значение — значит, что строка может быть преобразована в целое число).
    Тело цикла заключается в фигурные скобки '{}', и состоит из неограниченной последовательности выражений и управляющих конструкций (то есть в теле цикла могут быть другие циклы).
    $c = 1;
    $b = 4; 
    while($b > 0){
      $c *= $b; 
      $b -= 1;
    }
    
  • if(condition){body}. Выполняет однократно последовательность выражений в зависимости от результата выполнения условия.
    $c = 1;
    $b = 4; 
    if(($b - 4) == 0){
      $c = $b;
    }
    
  • else{body}. Выполняет однократно последовательность выражений, если не было выполнено предыдущее условие.
    $c = 1;
    $b = 4; 
    if(($b - 3) == 0){
      $c = $b;
    }
    else{
      $b = $c;
    }
    
  • elseif(condition){body}. Выполняет однократно последовательность выражений, если не было выполнено предыдущее условие и выполняется текущее условие.
    $c = 1;
    $b = 4; 
    if(($b = $b - 3) == 0){
      $c = $b;
    }
    elseif($c == summ($b)){
      $b = $c;
    }
    
  • break; . Выполняет прерывание текущего цикла.
    continue; . Начинает заново текущий цикл.
    $b = 4; 
    while($b > 0){
      $b = rand(10);
      if ($b == 3){
        continue;
      }
      if ($b == 2){
        break; 
      }
    }
    
  • #macro name{body}. Объявление макроса.
    #name; . Вставка тела макроса далее в коде.
    Под макросом здесь имеется в виду код, который повторяется много раз в скрипте, и можно его заменить именем.
    #macro myMc{
     $c = 1;
     $b = 4; 
    };
    $d = 5;
    #myMc;
    
  • goto l_name; . Перемещение на метку вверх или вниз по скрипту. Должен быть единственным оператором в выражении.
    l_name: . Метка, на которую можно переместиться.
    Метка обязательно должна начинаться с 'l_' (элл и нижнее подчеркивание) и заканчиваться ':'.
    $a = 5; 
    while($a > 0){
      $a -= 1;
      if ($a == 2){
        goto l_myLabel;
      }  
    }
    l_myLabel: $a;
    

    На метку можно перемещаться из основного кода, например, в функции скрипта вызвать специальную функцию 'gotoOnLabel' (это конечно грязный хак, специально для месье, которые знают…):
    Interpreter ir;
    ir.addFunction("myJump", [&ir](const vector& args) ->string {
        if (!args.empty())
          ir.gotoOnLabel(args[0]);
        }
        return "";
      });
    


Как использовать и где может быть полезен


Предлагается использовать как код, то есть добавлять в свой проект файл исходного кода интерпретатора, он всего один. Заголовочный файл тоже единственный.

Может использоваться в простых случаях, когда не хочется подключать что-то внешнее, но нужно дать пользователю возможность интерактивно влиять на ход выполнения ПО.
Либо в случаях, когда не хочется давать пользователю в руки весь арсенал скриптовых языков, а ограничиться простым набором команд.
Еще можно попробовать построить RPC на его основе.

Что дальше, что планируется нового


Если коротко, то ничего.
Проект в ширину расти не будет, никаких новых ключевых слов, структур не планируется добавлять. Не хочу, чтобы он разбух и превратился в еще один птичий язык, в котором надо разбираться, что там наворочено, а здесь все пока прозрачно более-менее.
Только поддержка, правка багов, возможно, стоит добавить несколько заранее определенных пользовательских функций, отдельно.

Распространяется свободно, лицензия MIT

Спасибо.

P.S.:
Я писал его ранее когда-то давно, там получилось не очень. Тут после одного письма пользователя, решил все это дело переписать по нормальному.
Вот думал, публиковать-нет статью на эту поделку, по сути тривиальный баян в принципе, и есть уже мастодонты всякие в этой нише.
Нажал все-таки кнопочку, может еще кому-то пригодится когда.

© Habrahabr.ru