OpenAI's Whisper ir jauns ar AI darbināms risinājums, kas var pārvērst jūsu balsi tekstā. Pats labākais, ka tas ir bez maksas.
Tomēr ir kāds āķis: to instalēt un lietot ir grūtāk nekā vidējo Windows utilītu. It īpaši, ja vēlaties izmantot sava Nvidia GPU Tensor Cores, lai sniegtu tai jauku stimulu.
Tomēr neuztraucieties. Tāpēc mēs esam šeit! Lasiet tālāk, lai uzzinātu, kā to instalēt un izmantot, kā arī, ja jums tāds pieder, lai Whisper izmantotu jūsu Nvidia GPU priekšrocības.
Kas ir OpenAI's Whisper?
ChatGPT mūsdienās ir populārs, un mēs to jau redzējām kā jūs varat izmantot OpenAI ChatGPT. Un tomēr tas nav vienīgais interesantais OpenAI projekts.
Whisper ir dabiska valodas apstrādes sistēma, ko nodrošina dziļa mācīšanās un neironu tīkli, kas var "saprast" runu un pārrakstīt to tekstā. Bet tā ir arī sava lieta, kas atrodas vienā vietā starp visiem līdzīgiem risinājumiem:
- Whisper ir mākslīgā intelekta risinājums, kas "apmācīts" dabiskajā valodā. Tātad, tas labāk saprot "normālu" cilvēka runu nekā vecākus risinājumus.
- Whisper nav aprīkots ar interfeisu, kā arī nevar ierakstīt audio. Tas var uzņemt tikai esošos audio failus un izvadīt teksta failus.
- Tā kā Whisper labi spēj "izprast valodu", Whisper ir arī automātiskās tulkošanas superspēja vienā darbībā.
- Whisper nav tiešsaistes pakalpojums, un tas var darboties pilnīgi bezsaistē.
- Ja jums ir salīdzinoši moderns Nvidia GPU (GTX970 vai jaunāks), Whisper var darboties "aparatūras paātrinātā režīmā", lai palielinātu tā ātrumu.
- Nav nepieciešams reģistrēties, iegādāties licenci vai iegādāties abonementu.
Kāpēc AMD GPU netiek atbalstīti?
Lai GPU būtu noderīgi vairāk nekā grafikai, tiem jādarbojas kā pilnībā programmējamiem procesoriem. Tāpēc Nvidia izveidoja CUDA, kas oficiāli tiek uzskatīta par "paralēlu skaitļošanas platformu un programmēšanas modeli". Lai uzzinātu vairāk par CUDA un saistīto aparatūru (“CUDA kodoliem”), izlasiet mūsu rakstu par kas ir CUDA kodoli un kā tie uzlabo datorspēles.
CUDA ir patentēta Nvidia tehnoloģija, kas ir saderīga tikai ar Nvidia GPU. Tuvākās AMD aparatūras alternatīvas ir OpenCL un Radeon Compute Platform. Lai uzzinātu vairāk par to, kā tiek salīdzināti katra uzņēmuma risinājumi, skatiet mūsu rakstu par AMD skaitļošanas vienības vs. Nvidia CUDA kodoli.
Salīdzinot ar alternatīvām, CUDA tiek uzskatīta par nobriedušāku, efektīvāku un vieglāk lietojamu. Tādējādi lielākā daļa izstrādātāju ir vērsti tikai uz CUDA, kas savukārt nozīmē, ka viņu programmatūra izmanto tikai Nvidia GPU aparatūras funkcijas. Un tas ietver Whisper.
Kā lejupielādēt un instalēt Whisper
Diemžēl Whisper nav atsevišķa lietotne, kuru varat lejupielādēt, instalēt un palaist. Tas ir atkarīgs no citas programmatūras, kas arī ir jāinstalē.
Operētājsistēmai Windows, lai šī rokasgrāmata būtu vienkārša, mēs plaši izmantosim Chocolatey, lai instalētu lielāko daļu nepieciešamo programmatūras daļu. Pārbaudiet mūsu ceļvedi ātrākais veids, kā instalēt Windows programmatūru lai iegūtu vairāk informācijas par Chocolatey.
Linux un Mac datoriem instalēšanas procesam (izņemot Windows ceļa mainīgo un viegli lietojamos pakešfailus, ko mēs izveidosim) jābūt līdzīgam.
- Lai instalētu un izmantotu Whisper, jums ir jābūt Python un tas ir PIP rīks ir instalēts un pievienots Windows mainīgajam “Ceļš”. Lai iegūtu informāciju par to, skatiet mūsu rakstu par kā instalēt Python PIP operētājsistēmās Windows, Mac un Linux.
- Uzstādīt FFMPEG caur Chocolatey ar šo komandu:
Instalējiet arī tās Python versiju ar:šokolāde uzstādīt ffmpeg
pip3 uzstādīt python-ffmpeg
- Visbeidzot instalējiet Whisper no tās Github lapas ar:
pip3 instalējiet git+https://github.com/openai/whisper.git
Whisper CUDA iespējotas versijas iegūšana
Lai gan Whisper neizmanto Nvidia GPU, lāpa pakotne, uz kuru tā paļaujas, piedāvā CUDA paātrinātu versiju. Izmantojot šo "vienkāršās" versijas vietā, Whisper var daudz ātrāk pabeigt transkripcijas, izmantojot jūsu Nvidia GPU.
Lai izmantotu Whisper, izmantojiet sava Nvidia GPU CUDA kodolus:
- Ja jums jau ir instalēta lāpas "vaniļas" versija, atinstalējiet un iztīriet tās paliekas, izmantojot:
Kad tas ir izdarīts, rīkojieties šādi:pip3 atinstalēt lāpa
pip kešatmiņaattīrīšana
- Instalējiet luktura versiju ar iespējotu CUDA ar:
pip3 uzstādīt lāpa torchvision torchaudio -- extra-index-url https://download.pytorch.org/whl/cu117
- Lai pārbaudītu, vai Whisper var izmantot jūsu Nvidia GPU, izmantojiet:
Jums vajadzētu redzēt (noklusējums: cuda) tā vietā (noklusējums: CPU).čuksti --palīdzība | findstr -i pytorch
Ko darīt, ja lāpu neizdodas uzstādīt
Ja, instalējot lāpu, rodas kļūda “versija nav atrasta”, iespējams, paralēli pašreizējai būs jāinstalē vecāka Python versija.
Izmantojiet šo komandu, lai to izdarītu:
šokolāde uzstādīt pitons --versija OLDER_VERSION blakus
Aizstāt "OLDER_VERSION" ar versiju, piemēram, 3.10.
Pēc tam izmantojiet sekundārās versijas ceļu visām "vispārējām" Whisper komandām (piemēram, "c:\Python310\Scripts\pip.exe", nevis tikai "pip").
Kā ierakstīt savu balsi
Varat izmantot jebkuru skaņas ierakstīšanas lietotni, lai pārvērstu savu balsi WAV vai MP3 failā. Operētājsistēmā Windows ir iekļauta šāda lietojumprogramma — lai iegūtu plašāku informāciju par to, skatiet kā izmantot Windows 10 balss ierakstītāja lietotni.
Lai iegūtu pilnvērtīgāku opciju, izmēģiniet Audacity. Uzziniet, kā to izdarīt, izmantojot mūsu ceļvedi kā izmantot Audacity audio ierakstīšanai operētājsistēmās Windows un Mac.
Kā sākt pārrakstīšanu ar čuksti
Lai gan Whisper nav aprīkots ar lietotājam draudzīgu GUI, tā lietošana ir ļoti vienkārša.
Pieņemsim, ka mums ir fails Jaunākā piezīme.mp3 kas satur runu grieķu valodā, mapē c:\MyAudioFiles, un vēlaties to tulkot angļu valodā un pārrakstīt teksta failā.
- Mēs sākam ar skriešanu Komandu uzvedne vai PowerShell.
- Mēs "mainām direktoriju", kurā tiek saglabāts audio fails, izmantojot šo komandu:
cd C:\MyAudioFiles
- Mēs atlaižam Whisper uz faila ar:
čuksti--modelisbāze-- valodagr-- uzdevumstulkotJaunākā piezīme.mp3
Pēc apstrādes teksta fails (ar nosaukumu "LatestNote.mp3.txt") parādīsies tajā pašā mapē. Atveriet to teksta redaktorā, piemēram, Notepad lai apskatītu tulkoto tekstu.
Mēs izmantojām tulkošanas piemēru, jo angļu valodas transkripcija ir vēl vienkāršāka: jums ir tikai "jāzaudē" karodziņi "--language" un "-task". Tādējādi vienkāršai transkripcijai iepriekš minētā komanda būtu šāda:
čuksti--modelisbāzeJaunākā piezīme.mp3
"Modeļa" karodziņš ir nepieciešams, jo Whisper izmanto vienu no dažādām opcijām. Izvērsīsim tos, lai palīdzētu jums izvēlēties savām vajadzībām vislabāko.
Kuru modeli izvēlēties?
Whisper piedāvā dažādus valodu modeļus. Jo lielāks modelis, jo labāka ir tā precizitāte, bet arī augstākas aparatūras prasības. Viņi ir:
- Sīks.
- Bāze.
- Mazs.
- Vidēja.
- Liels.
Lielākajai daļai angļu valodas runātāju vajadzētu būt labi ar sīks vai bāze modeļiem. Tie, kuriem angļu valoda nav dzimtā, var redzēt labākus rezultātus ar lielākiem modeļiem, piemēram mazs un vidējs.
Tomēr ņemiet vērā, ka vidējiem un lieliem modeļiem ir nepieciešami vairāk nekā 8 GB VRAM (tas ir, "jūsu GPU atmiņa").
Lai atlasītu kādu no tiem, norādiet modeli pēc slēdža "--model" komandā:
čuksti -- modelis mazs/mazs/vidējs/liels [fails]
Piemēram:
čuksti--modelismazsMana_balss_piezīme.mp3
Kā racionalizēt transkripciju
Ja katru reizi, kad vēlaties pārrakstīt kādu audio, ir jāievada visa komanda Whisper, var ātri kļūt garlaicīgi. Izveidosim globāli pieejamu pakešfailu, lai racionalizētu procesu.
- Skrien Windows Explorer un apmeklējiet savu C: disku.
- Izveidojiet mapi saviem skriptiem un kopējiet tās ceļu uz starpliktuvi.
- Windows izvēlnē Sākt meklējiet "ceļš" un atlasiet Rediģējiet sistēmas vides mainīgos.
- Atrodi Ceļš mainīgais zem Lietotāja mainīgie YOUR_USERNAME. Veiciet dubultklikšķi uz tā, lai to rediģētu. Klikšķiniet uz Jaunsun ielīmējiet ceļu uz savu skriptu mapi. Klikšķiniet uz labi lai pieņemtu izmaiņas.
- Atgriezieties skriptu mapē programmā Windows Explorer. Izveidojiet jaunu sērijveida failu ar nosaukumu "wht.bat". "Iekšā" ievietojiet šo komandu:
čuksti --model tiny --language lv %1
- Izveidojiet vēl divus pakešfailus "whs" un "whm".
- Ievietojiet to pirmajā skriptā:
čuksti --model small --language lv %1
- Ievietojiet to otrajā:
čuksti --model medium --language lv %1
Apsveicam! Tagad jums ir trīs skripti, lai ērti izmantotu Whisper mazos, mazos un vidējos modeļus ar saviem audio failiem! Lai pārrakstītu jebkuru audio failu tekstā:
- Atrodiet failu ar Windows failu pārlūks.
- Ar peles labo pogu noklikšķiniet tukšā vietā un izvēlieties Atvērt terminālī.
- Ierakstiet šo komandu, aizstājot "wht" ar "whs" vai "whm", lai izmantotu mazo vai vidējo valodu modeļus:
koJŪSU_AUDIO_FILE.mp3
Rakstīšana skaņas ātrumā, izmantojot čukstus
Pat ātrākie pieskārienu mašīnrakstītāji nevar sasniegt ātrumu, kādā mēs runājam. Tomēr vēl nesen runāt, nevis rakstīt, nebija optimāla dokumentu izveidei.
Lielākā daļa balss-teksta risinājumu sniedza viduvējus rezultātus. Jūs varētu atrast dažus risinājumus, kurus būtu vērts izmēģināt, taču tie bija sarežģīti lietojami vai dārgi. Par laimi, Whisper to visu mainīja.
Pēc iepriekš norādītajām darbībām jums vajadzētu būt gatavam ļoti precīzi atšifrēt vai tulkot savu balsi, izmantojot tikai vienu komandu.