2 апреля состоялся выпуск 1.7.5 высокопроизводительной системы автоматического распознавания речи whisper.cpp, реализующей модель Whisper от OpenAI, написанной на языках C и C++ и распространяемой по лицензии MIT.

В проекте используется авторская тензорная библиотека машинного обучения GGML, написанная на языке C и оптимизированная для использования различных бэкендов (CUDA, Vulkan, BLAS, SYCL, OpenCL и др.).

Это довольно большое обновление с различными улучшениями сборки и CI, особенно для iOS и WASM. Также есть некоторый прирост производительности, особенно для бэкенда Metal и, возможно, для устройств на базе Arm.

Список основных изменений:

В API добавлена функция whisper_full_get_segment_no_speech_prob_from_state.
В примере server.cpp для конвертирования (вызовом FFmpeg) исходного файла в .wav реализовано генерирование уникального имени временного файла.
Обновлены библиотеки GGML и llama.cpp.
Для декодирования flac, mp3, ogg и wav теперь используется библиотека miniaudio 0.11.22, без необходимости использования внешних конверторов, как было ранее.
Улучшена документация.
Улучшены скрипты загрузки моделей.
Многочисленные исправления биндингов для других языков программирования.
Исправлены найденные ошибки.

>>> Подробности на GitHub

Linux.org.ru прочитано 6799 раз