I modern tid är tal en populär och smart metod för att interagera med elektroniska enheter. Som vi vet finns det många verktyg för taligenkänning med öppen källkod tillgängliga på olika plattformar. Från början av denna teknik har förståelsen av den mänskliga rösten förbättrats samtidigt. Det är därför det har engagerat många fler professionella än tidigare. Den tekniska utvecklingen är tillräckligt stark för att göra det tydligare för allmogen.
Även taligenkänning med öppen källkodls för Linux
Verktyg för röstigenkänning med öppen källkod är inte tillgängliga som den vanliga programvaran vi använder i våra dagliga liv på Linux-plattformen. Efter en lång research hittade vi några välutrustade applikationer för dig med en kort beskrivning. Låt oss ta en titt på punkterna nedan!
1. Kaldi
Kaldi är en speciell typ av taligenkänningsprogram som startades som en del av ett projekt vid John Hopkins University. Denna verktygslåda kommer med en utdragbar design och är skriven i programmeringsspråket C++. Det ger en flexibel och bekväm miljö för sina användare, med många tillägg för att öka Kaldis kraft.
Anmärkningsvärda funktioner
- En gratis och flexibel röstigenkänningsapplikation med öppen källkod under Apache-licensen.
- Körs på flera plattformar, inklusive GNU/LinuxBSD och Microsoft Windows.
- Ger stöd för att installera och konfigurera applikationen för ditt system.
- Förutom taligenkänningssystemet stöder det också djupa neurala nätverk och linjära transformationer.
2. CMUSphinx
CMUSphinx levereras med en grupp utvalda berikade system med flera förbyggda paket relaterade till taligenkänning. Det är ett program med öppen källkod utvecklat vid Carnegie Mellon University. Du kommer att få detta talaroberoende igenkänningsverktyg på flera språk, inklusive franska, engelska, tyska och holländska.
Anmärkningsvärda funktioner
- Det är ett lättanvänt och snabbt taligenkänningssystem med ett användarvänligt gränssnitt.
- Levereras med en flexibel design och effektivt system, även i plattformar med låga resurser.
- Tillhandahåller träningsverktyg för akustiska modeller genom sitt Sphinxtrain-paket.
- Hjälper till att utföra olika typer av uppgifter genom sina användbara paket, inklusive sökordsupptäckning, uttalsutvärdering, justering och mer.
- Det är ett plattformsoberoende verktyg som stöder både Windows- och Linux-system.
3. DeepSpeech
DeepSpeech är en taligenkänningsmotor med öppen källkod som konverterar ditt tal till text. Det är en gratis applikation från Mozilla. För att köra DeepSearch-projektet på din enhet behöver du Python 3 eller högre. Dessutom behöver den en Git-tilläggsfil, nämligen Git Large File Storage. Det används för att versionera stora filer medan du kör dem på ditt system.
Anmärkningsvärda funktioner
—
- DeepSpeech använder TensorFlow-ramverket för att göra rösttransformationen mer bekväm.
- Den stöder NVIDIA GPU, vilket hjälper till att utföra snabbare slutledning.
- Du kan använda DeepSearch-inferensen på tre sätt: Python-paketet, Node.JS-paketet eller kommandoradsklienten.
- Varje gång du vill köra den här programvaran på ditt system måste du aktivera den virtuella miljön med kommandot Python.
- Denna applikation behöver en Linux- eller Mac-miljö för att köras.
4. Wav2Letter++
WavLetter++ är ett modernt och populärt taligenkänningsverktyg utvecklat av Facebook AI Research-teamet. Det är ett annat program med öppen källkod under BCD-licensen. Denna supersnabba röstigenkänningsmjukvara byggdes i C++ och introducerades med många funktioner. Det ger möjlighet till språkmodellering, maskinöversättning, talsyntes och mer till sina användare i en flexibel miljö.
Anmärkningsvärda funktioner
- Den innehåller en aktiv community på populära plattformar som Facebook och Google-grupper för att hjälpa sina användare över hela världen.
- WavLetter++ är en snabb och flexibel verktygslåda som använder ArrayFire-tensorbiblioteket för maximal effektivitet.
- Det låter dig arbeta med ett högpresterande ramverk som wav2letter++, som hjälper dig att göra framgångsrik forskning och modellinställning.
- Det ger också fullständig dokumentation genom självstudieavsnitten.
- Du hittar detaljerade recept för WSJ, Timit och Librispeech i receptmappen.
5. Julius
Julius är jämförelsevis en äldre mjukvara för röstigenkänning med öppen källkod utvecklad av Lee Akinobu. Detta verktyg är skrivet i programmeringsspråket C av utvecklarna av Kawahara Lab, Kyoto University. Det är en högpresterande taligenkänningsapplikation med ett stort ordförråd. Du kan använda den på både engelska och japanska språk. Det kan vara ett utmärkt val om du vill använda det för akademiska och forskningsändamål.
Anmärkningsvärda funktioner
- Julius är en mycket konfigurerbar applikation som kan ställa in olika sökparametrar för att justera dess prestanda.
- Detta verktyg är baserat på en 2-pass strategi, som ger dig prestanda i realtid och hög kvalitet.
- Det är ett plattformsoberoende projekt som körs på Linux, BSD, Windows och Android-system.
- Integrerad med Julian, en grammatikbaserad igenkänningstolkare.
- Förutom att stödja regelbaserad grammatik, ger den Word-grafutdata, förtroendepoäng, GMM-baserad indataavvisning och många fler faciliteter.
6. Simon
Simon levereras med en modern och lättanvänd programvara för taligenkänning utvecklad av Peter Grasch. Det är ett annat program med öppen källkod under GNU General Public License. Du är fri att använda Simon i både Linux- och Windows-system. Det ger också flexibiliteten att arbeta med vilket språk du vill.
Anmärkningsvärda funktioner
- Simon ger möjlighet att göra olika aritmetiska operationer med hjälp av sin röststyrda kalkylator.
- Kompatibel med Skype och andra populära VOIP-program för att skapa ett enkelt kommunikationssystem med vänner och släktingar.
- Det låter användare titta på bildspel och videor, lyssna på musik och mer med enkla röstkommandon.
- Det är också ett viktigt verktyg för att läsa tidningar och surfa på internet.
7. Mycroft
Mycroft har en lättanvänd röstassistent med öppen källkod som konverterar röst till text. Det anses vara ett av de mest populära Linux-taligenkänningsverktygen i modern tid, skrivet i Python. Det tillåter användare att utnyttja det här verktyget på bästa sätt i ett vetenskapsprojekt eller företagsprogram. Den kan också användas som en praktisk assistent som kan berätta tid, datum, väder och mer.
Anmärkningsvärda funktioner
- Integrerad med de mest populära sociala medierna och professionella plattformarna, inklusive Facebook, Github, LinkedIn och mer.
- Du kan köra den här applikationen på olika mjukvaru- och hårdvaruplattformar. Det kan vara en stationär dator eller en Raspberry Pi.
- Förutom att vara en smart röstassistent ger den möjligheten för ljudinspelning, maskininlärning, mjukvarubibliotek och mer.
- Det låter användare konvertera det naturliga språket till maskinläsbar data genom Adapt, en avsiktstolkare av Mycroft.
8. OpenMindSpeech
OpenMindSpeech är ett av Linux-verktygen för taligenkänning som syftar till att konvertera ditt tal till text gratis. Det är en del av Open Mind Initiative och driver sin verksamhet, speciellt för utvecklare. Innan man fick det nuvarande namnet introducerades detta program med olika namn som VoiceControl, SpeechInput och FreeSpeech.
Anmärkningsvärda funktioner
- Den använder spillmiljön i röstigenkänningsoperationer för att göra komplexa applikationer flexibla.
- Open Mind Speech är mestadels kompatibel med Linux- och UNIX-baserade plattformar.
- Med hjälp av internet kan taldata samlas in från e-medborgare, som bidrar till rådata.
9. SpeechControl
SpeechControl är en fri taligenkänningsapplikation som är lämplig för alla Ubuntu-distro. Den levereras med ett grafiskt användargränssnitt baserat på Qt. Även om det fortfarande är i ett tidigt utvecklingsskede kan du använda det för ditt projekt.
Anmärkningsvärda funktioner
- Speech Control är ett program med öppen källkod under General Public License (GPL).
- Den syftar till att fungera som en virtuell assistent som ger repetitiv uppgiftsvägledning för att utföra processen smidigt.
- Det är mest lämpligt för Linux-baserade plattformar.
- Det ger också lättförståelig användardokumentation med projektdetaljer.
10. Deepspeech.pytorch
Deepspeech.pytorch är en annan nämnvärd applikation för taligenkänning med öppen källkod som i slutändan är implementeringen av DeepSpeech2 för PyTorch. Den innehåller en uppsättning kraftfulla nätverk baserade på DeepSpeech2-arkitekturen. Med många användbara resurser kan den användas som ett av Linux-taligenkänningsverktygen för forskning och projektutveckling.
Anmärkningsvärda funktioner
- Stöder brusförstärkning som hjälper till att öka robustheten vid tidpunkten för inläsning av ljud.
- Det tillhandahåller ett grundläggande serverskript för att skicka postbegäran till servern.
- Stöd flera datamängder för nedladdning, inklusive TEDLIUM, AN4, Voxforge och LibriSpeech.
- Den låter dig lägga till brus till träningsdata genom brusinjektion.
- Stöder Visdom och Tensorboard för visualisering av träning om vetenskapliga experiment.
Avslutande tankar
Så vi har nått målpunkten för taligenkänningsverktyg med öppen källkod för Linux. Jag hoppas att du fick uttömmande information om detta ämne. Ovannämnda applikationer är gratis, lätta att använda och redo att vara en del av ditt akademiska eller personliga projekt.
Vilken föredrar du mest? Om du har några andra val, tveka inte att meddela oss. Vänligen dela den här artikeln med din community om du tycker att den är till hjälp. Tills dess, ha det bra. Tack!
