voxtral.c

https://habr.com/ru/news/994952/
https://github.com/antirez/voxtral.c
antirez написал распознаватель речи на чистом Си, без зависимостей.
Это оказалось не правдой, ибо всё равно нужна либо Accelerate
зависимость от macOS (ну да, которая из коробки есть, но какой
нормальный человек будет использовать это проприетарное ПО?), либо
(Open?)BLAS. Поставив OpenBLAS, всё собралось без проблем. >8GB модель
ещё надо скачать. Большую часть времени оно не распараллеливается,
поэтому работает медленнее whisper.cpp. Но русский распознаёт хорошо.
Подкаст на котором сравниваю: он идеально распознан и в whisper.cpp,
поэтому пока не могу сказать и понять кто из них лучше. Деление на
предложения у Voxtral-Mini-4B-Realtime-2602 модели идёт похуже вроде,
но не уверен что это можно за прям уж недостаток считать. Буду
сравнивать, как другие подкасты под руку попадутся.

С whisper.cpp у меня то в целом претензий нет, да и вывод у него с
таймингами поприятнее, плюс вообще никаких зависимостей и более быстрая
работа (но это наверное с меньшей по размеру моделью связано?). Были
проблемы с зацикливанием, на самой свежей модели. На более старой всё же
один или два раза они тоже случились, но (пере)запуская со смещением по
времени позволяет продолжить распознавание. Просто это оценить может
только человек -- сам whisper.cpp не понимает что "слетел" с катушек.

    [оставить комментарий]