Ja używałem capcut jak miałem dzwięk w wideo, ale znalazłem takie narzędzie. nie testowałem: https://speechnotes.co/
W sumie by mi się przydało, więc zaraz odpalę do testów Speech Note; https://github.com/mkiol/dsnote
Można zainstalować przez 'sklep' z aplikacjami w Ubuntu/Debianie wyszukując po nazwie, albo jak chcesz się poczuć bardziej hakersko - instalacja w terminalu:
flatpak install flathub net.mkiol.SpeechNote
Jeśli masz komputer z oddzielną kartą graficzną (GPU nvidia albo AMD) to warto doinstalować elementy do tego i tego i ją wykorzystać, bo to na pewno znacznie przyśpieszy działanie. Program Open Source, działa w całości lokalnie, ma nic nie wysyłać do internetu, więc znacznie bardziej prywatne niż używanie czegokolwiek online. Teoretycznie polski jest tam w pełni wspierany.
Na lekko złomotawym komputerze bez karty graficznej prędkością nie powala, dyktując powyższy komentarz musiałem poczekać ze 2 minuty aż go przemieli, ale wynik zaskakująco dobry. Jestem pod wrażeniem.
Po instalacji trzeba wejść w języki wyszukać polski i wybrać model językowy do ściągnięcia. Pierwszy z góry dał słabe efekty, ale faster whisper large v3 daje bardzo dobre wyniki.
Dzięki harc! Nawet udało mi się zainstalować po hakersku :D
Korzystałem z rozwiązania chmurowego (czyli bez gwarancji prywatności):
– w wersji free-bez rejestracji – limit 10 min per kawałek, limit dobowy oraz brak rozróżniania rozmówców; za to jakość dla jęz. polskiego – co najmniej dobra.
Analogicznie można użyć YouTube'a z autotranscript, tylko trzeba mieć tam konto.
zapytajszmer
Społeczność Szmerfów pytających :) Masz pytanie? Zadaj je, inne Szmerfy chętnie odpowiedzą.