Apple обошла Whisper от OpenAI по скорости расшифровки речи
RSSВ новых версиях iOS 26 и macOS Tahoe Apple представила обновлённые API для преобразования речи в текст, которые в ходе бета-тестирования продемонстрировали впечатляющую скорость — значительно опережая конкурентов, включая даже популярную систему OpenAI Whisper. Об этом сообщил обозреватель MacStories Джон Вурхис.
Apple использует собственные фреймворки для работы с речью — именно они лежат в основе таких функций, как живые транскрипции в приложениях «Заметки» и «Диктофон», а также расшифровка телефонных звонков в iOS 18.1. В iOS 26 и macOS Tahoe компания внедрила новый класс SpeechAnalyzer и модуль SpeechTranscriber, которые обрабатывают похожие запросы ещё быстрее и эффективнее.
По данным Вурхиса, новый механизм справился с расшифровкой 34-минутного видеофайла размером 7 ГБ всего за 45 секунд, используя командную утилиту Yap (разработанную его сыном Финном). Для сравнения, MacWhisper с моделью Large V3 Turbo затратил на ту же задачу 1 минуту и 41 секунду — на 55% дольше. Другие инструменты на базе Whisper показали ещё более скромные результаты: VidCap — 1:55, а MacWhisper Large V2 — почти 4 минуты (3:55).
При этом, по словам Вурхиса, заметных различий в качестве транскрипции между решениями не наблюдалось — выигрыш Apple именно в скорости. Преимущество объясняется тем, что Apple обрабатывает речь локально, на устройстве, избегая сетевых задержек, характерных для облачных сервисов.
Хотя для единичных файлов разница во времени может показаться незначительной, Вурхис подчёркивает: при массовой расшифровке лекций или видео, особенно длительных, выигрыш становится экспоненциальным и может сэкономить пользователям часы работы.
Новая система транскрипции уже доступна в бета-версиях iOS, iPadOS, macOS и visionOS. Вурхис предполагает, что в ближайшем будущем именно решения Apple могут вытеснить Whisper как основной инструмент для расшифровки речи на Mac.
