whisper.cpp 1.7.5

good-penguin.png

2 апреля состоялся выпуск 1.7.5 высокопроизводительной системы автоматического распознавания речи whisper.cpp, реализующей модель Whisper от OpenAI, написанной на языках C и C++ и распространяемой по лицензии MIT.

В проекте используется авторская тензорная библиотека машинного обучения GGML, написанная на языке C и оптимизированная для использования различных бэкендов (CUDA, Vulkan, BLAS, SYCL, OpenCL и др.).

Это довольно большое обновление с различными улучшениями сборки и CI, особенно для iOS и WASM. Также есть некоторый прирост производительности, особенно для бэкенда Metal и, возможно, для устройств на базе Arm.

Список основных изменений:

  • В API добавлена функция whisper_full_get_segment_no_speech_prob_from_state.
  • В примере server.cpp для конвертирования (вызовом FFmpeg) исходного файла в .wav реализовано генерирование уникального имени временного файла.
  • Обновлены библиотеки GGML и llama.cpp.
  • Для декодирования flac, mp3, ogg и wav теперь используется библиотека miniaudio 0.11.22, без необходимости использования внешних конверторов, как было ранее.
  • Улучшена документация.
  • Улучшены скрипты загрузки моделей.
  • Многочисленные исправления биндингов для других языков программирования.
  • Исправлены найденные ошибки.

>>> Подробности на GitHub

Linux.org.ru прочитано 2762 раза