Förstå röstigenkänning

Prova Vårt Instrument För Att Eliminera Problem





Föreställ dig att du sitter avslappnad i soffan och bara beställer din dator eller laptop eller mobiltelefon för att utföra enkla uppgifter som att skriva ett brev eller utföra några kommandon. Är det möjligt?

Naturligtvis är det, det är där röstigenkänning kommer in i bilden.




Går enligt definitionen är det processen att känna igen mänskligt tal och avkodat det till textform.

Princip

Grundprincipen för röstigenkänning innebär att tal eller ord som talas av någon människa orsakar vibrationer i luften, så kallade ljudvågor. Dessa kontinuerliga eller analoga vågor digitaliseras och bearbetas och avkodas sedan till lämpliga ord och sedan lämpliga meningar.



röstigenkänning

Komponenter i ett system för taligenkänning

Så vad består ett grundläggande taligenkänningssystem av?

Komponenter i ett system för taligenkänning

  • En anordning för att fånga tal : Den består av en mikrofon som konverterar ljudvågssignalerna till elektriska signaler och en analog till digital omvandlare som samplar och digitaliserar de analoga signalerna för att erhålla de diskreta data som datorn kan förstå.
  • En digital signalmodul eller en processor : Det utför bearbetning på den råa talsignalen som frekvensdomänomvandling, återställer endast den information som krävs etc.
  • Förbehandlad signallagring : Det förbehandlade talet lagras i minnet för att utföra ytterligare uppgift för taligenkänning.
  • Referens Talmönster : Datorn eller systemet består av fördefinierade talmönster eller mallar som redan är lagrade i minnet, som ska användas som referens för matchning.
  • Mönstermatchningsalgoritm : Den okända talsignalen jämförs med referenstalmönstret för att bestämma de faktiska orden eller ordmönstret.
Systemets funktion

Låt oss nu se hur hela systemet faktiskt fungerar.


Systemets funktion

  • Ett tal kan ses som en akustisk vågform, dvs signalbärande meddelandeinformation. En normal människa med den begränsade rörelsehastigheten för hans / hennes artikulatorer (talorgan) kan producera tal med en genomsnittlig hastighet av 10 ljud per sekund. Den genomsnittliga informationshastigheten är cirka 50-60 bitar / sekund. Det betyder faktiskt att endast 50 bitar / sekund information krävs i talsignalen. Denna akustiska vågform omvandlas till analoga elektriska signaler av mikrofonen. Analog-till-digital-omvandlaren konverterar denna analoga signal till digitala sampel genom att ta exakta mätningar av vågen med diskreta intervall.
  • Den digitaliserade signalen består av en ström av periodiska signaler samplade med 16000 gånger per sekund och är inte lämplig för att utföra faktisk taligenkänning processen eftersom mönstret inte lätt kan lokaliseras. För att extrahera den faktiska informationen omvandlas signalen i tidsdomän till signal i frekvensdomänen. Detta görs av den digitala signalprocessorn med FFT-teknik. I den digitala signalen, komponenten efter var 1/100then sekund analyseras och frekvensspektrumet för varje sådan komponent beräknas. Med andra ord är den digitaliserade signalen segmenterad i små delar av frekvensamplituder.
  • Varje segment eller frekvensdiagram representerar olika ljud från människor. Datorn utför matchningen av de okända segmenten med det lagrade fonetiken för det specifika språket. Denna mönstermatchning görs på 3 sätt:

Med ett akustiskt fonetiskt tillvägagångssätt : I det akustiska fonetiska synsättet används i allmänhet Hidden Markov-modellen. Denna modell utvecklar en icke-deterministisk sannolikhetsmodell för taligenkänning. Denna modell består av två variabler - de dolda tillstånden för fonem som är lagrade i datorminnet och det synliga frekvenssegmentet för den digitala signalen. Varje fonem har sin egen sannolikhet och segmentet matchas med fonemet enligt sannolikheten och de matchade fonemen samlas sedan samman för att bilda de rätta orden enligt de lagrade grammatikreglerna för språket.

Med en modelligenkänningsstrategi : I mönstrsigenkänningsmetoden utbildas systemet med ett visst talmönster för vilket språk som helst och det okända talmönstret jämförs med referenstalmönstret genom att bestämma avståndet mellan signalerna med användning av tidsförvrängningsteknik.

Använda artificiell intelligens : Artificiell intelligens baseras på användningen av grundläggande kunskapskällor såsom kunskap om ljud som talas utifrån spektrala mätningar, kunskap om korrekt meningsfulla och syntaktiska ord.

Faktorer som taligenkänningssystemet beror på

Taligenkänningssystemet beror på följande faktorer:

  • Isolerade ord : Det måste göras en paus mellan de ord som följer på varandra eftersom kontinuerliga ord kan överlappa varandra vilket gör det svårt för systemet att förstå när ett ord startar eller slutar. Således måste det vara en tystnad mellan ord i följd.
  • Enstaka högtalare : Många högtalare som försöker ge talinmatning samtidigt kan orsaka överlappning av signaler och avbrott. De flesta av de taligenkänningssystem som används är högtalarberoende system.
  • Ordförrådets storlek : Språk med stort ordförråd är svåra att överväga för mönstermatchning än de med liten ordförråd eftersom chansen att ha tvetydiga ord är mindre i det senare.
System för taligenkänning på Windows 7

Jag skulle vilja rekommendera följande steg för alla personer som använder Windows 7 för taligenkänningssystemet

  • Öppna Kontrollpanelen från startmenyn eller genom att klicka på ikonen.
  • Välj Lättåtkomst och klicka sedan på Taligenkänning.
  • Klicka sedan på Ställ in mikrofon och välj skrivbordsmikrofon bland de tillgängliga alternativen.
  • Ta sedan talhandledningen och följ instruktionerna.
  • Därefter träna din dator för bättre alternativ så att datorn lagrar ett bestämt mönster av din talsignal. Detta görs genom att klicka på alternativet 'träna din dator för att bättre förstå dig' och sedan följa instruktionerna.
  • Starta nu taligenkänningsikonen och börja diktera ditt tal till datorn. Du kan också lägga till dina egna ord i datorns ordlista.
Praktiska system för taligenkänning: Använda HM2007

Ett praktiskt taligenkänningssystem kan konstrueras med hjälp av IC för taligenkänning HM2007 . HM2007 är en 48-stifts IC som ger taligenkänningsfunktion. Det fungerar i två lägen: Manuellt läge eller CPU-läge. I båda lägena tränas IC först för att känna igen ord av användaren som säger varje ord för motsvarande nummer som trycks ned på knappen. IC lagrar varje ordsignal i minnesplatsen som motsvarar ordet. Datautmatningen från IC: n är gränssnitt till mikrokontrollern varifrån den visas på LCD-skärmen.

Praktiska system för taligenkänning

Normalt använder vi manuellt läge för HM2007-drift.

  • HM2007 består av en RDY-stift som är en aktiv låg stift som indikerar att IC är redo för träningsändamål.
  • Röstingången ges via en mikrofon ansluten till IC-enhetens MICIN-stift.
  • IC är gränssnitt med en knappsats som används för att tillhandahålla nummerinmatning motsvarande varje ord. IC fungerar i två funktioner - Clear och Train. När du trycker på tågknappen på tangentbordet börjar IC: n sin träningsprocess.
  • Användaren trycker på en siffertangent innan han trycker på ”Train” -tangenten och säger ordet som krävs till mikrofonen.
  • IC skickar en hög signal till ME-stift (Memory Enable) som är ansluten till motsvarande ME-stift i SRAM. 8-bitars datasignalen som motsvarar det tryckte numret lagras i SRAM (externt RAM) via den externa bussen.
  • Efter det att röstingången detekterats är RDY-stiftet logiskt högt och IC kommer till igenkänningstillståndet, där det startar igenkänningsprocessen.
  • Resultatet av processen ges genom databussen med DEN-stiftet (Data Enable) högt.
  • 8-bitarsdata kan sedan ges till mikrokontrollern via en seriegränssnittsprocessor eller först låses med spärr IC 74HC573.
  • Microcontroller är gränssnitt med en LCD och är programmerad så att motsvarande ord visas på displayen.

Den enda försiktighetsåtgärden som måste vidtas är att inte använda homonymer (ord med liknande ljud) och också att ta hand om excitationen i rösten.

Så det här är allt hur en grundläggande taligenkänningssystem Arbetar. Ytterligare ingångar är välkomna att läggas till.

Bildkredit

  • System för taligenkänning av Gstatisk
  • Talvågformmanipulation av Dadisp

Komponenter i taligenkänningssystemet genom en introduktion till tal- och högtalarigenkänning - Richard D. Peacocke och Daryl H. Graf