Vicuna, Stable Diffusion и другие нейронки на винде без боли22.04.2023 23:01

Привет всем, хочу поделиться своим сборником всяких портабелек нейронок разного пошиба для винды, где уже всё установлено и надо приложить минимальные усилия, чтобы всё это запустить. Вообще все эти штуки я собирал и делал для себя, но когда выложил это всё на itch, то оказалось, что они кому-то пригодились, и я решил репостнуть всё это безобразие на хабр. Здесь напишу небольшой список того, что реально может кому-нибудь быть полезно. Полный список с ссылками на скачивание здесь.

KoboldAI — удобный граф. интерфейс для запуска вообще всех GPT-подобных текстовых нейронок, которые поддерживает библиотека transformers. Онлайн версия со всякими модельками.

Vicuna 1.1 — очень хороший чат-бот на базе слитой LLaMa от фейсбука на 7 миллиардов, специально квантованная в 4 бита и сконвертированная в формат ggml для быстрой работы на ЦПУ с граф. интерфейсом koboldcpp. Умеет в русский. Требует от 4 гб RAM и процессор с AVX (любой после 2009 года вроде). Koboldcpp тоже может запускать почти всё текстовое в ggml. Онлайн версию 1.0 можно попробовать здесь.

NLLB — переводчик от фейсбука, не самый крутой, но зато между 200 языками. Запуск не совсем однокнопочный и в jupytere, на цпу. Жрёт 4 гига оперативы. Онлайн демка.

FreeVC — не очень хороший, зато открытый клонер голоса с одного аудио на другое. Запуск тоже немножко через консоль, зато с вебгуем и на цпу. Онлайн потыкать здесь.

Whisper — транскрибатор на 60 языках от openai, работает на ЛЮБОМ гпу, даже на встроенном в ноутах (на цпу тоже, но немного помедленнее), ест мало видеопамяти, но есть и большие прожорливые модельки. Очень хорошая онлайн демка.

Ultimate Vocal Remover — штука, интересная двумя нейронками, Demucs очень круто делит аудио на вокал, басы, ударные и остальное, а MDX-Net делит только на вокал и музыку, но способна творить магию качества. Можно и на гпу (вроде только нвидиа, но на других не проверял) и на цпу. Онлайн разделить можно здесь, но очередь.

Cupscale — апскейлер с real-ESRGANом, не самый лучший, но очень хороший, удобный и многофункциональный, можно даже видео апскейлить. Конкретно реалесрган работает на вулкане, т.е. на любом гпу, но не очень быстро. Что интересно, реалесрган (ну хорошо, конкретно дефолтная модель realesrganplus-4x) умеет не только апскейлить, но и выполнять лёгкий денойз картинки и даже избавляет её от артефактов сжатия. Ещё хочу обратить внимание на модель typescale, которая мегакруто умеет апскейлить всякие документы. Реалесрган онлайн.

Ну и stable diffusion конечно, конкретно это портабельный пакет из релиза automatic1111, но уже установленный и с модельками на выбор, либо deliberatev2(базовая модель — sd1.5), либо illuminati diffusion 1.1(базовая модель — sd2.1). Работает только на нвидии от 6 гигов однокнопочно, от 2х гигов — надо написать одну строчку в батнике, на цпу тоже можно, но несерьёзно долго. На амд установка мудрёная, но говорят, что работает.

Lama cleaner — замечательный удаляльщик всякого с фоток на LaMa (не путать с LLaMa). Работает вроде только на нвидии от 2 гигов, но не проверял. Онлайн можно тут.

Flowframes — интерполятор кадров на RIFE. Имеет всякие полезные штуки, такие как автоматическая дедупликация кадров перед работой. Работает только на нвидии от 2 гигов.

Point-E — текст в 3д или картинка в 3д. Результаты, мягко говоря, не очень, но альтернатив пока нет, в принципе какие-то простые объекты оно вполне делает. Работает на нвидии от 6 гигов, можно на цпу, но долго. Запуск немного через консоль. Тот же вебгуй, но онлайн.

DeepXTools — по нескольким маскам делает маску для всех кадров чего-нибудь на видео. Работает на нвидии от 4 гигов.

DeepFaceLab и DeepFaceLive — тренировка и применение дипфейков

Ну, как-то так, всем добра ^_^, сорян если немного япиарюсь.