वाक् पहचान तकनीक

भाषण मान्यता, बोले गए आदेशों का जवाब देने के लिए उपकरणों की क्षमता। वाक् पहचान विभिन्न उपकरणों और उपकरणों (कई विकलांग व्यक्तियों के लिए एक विशेष वरदान) के हाथों से मुक्त नियंत्रण को सक्षम बनाती है, स्वचालित अनुवाद को इनपुट प्रदान करती है, और प्रिंट-तैयार श्रुतलेख बनाती है। भाषण मान्यता के लिए जल्द से जल्द अनुप्रयोगों में स्वचालित टेलीफोन सिस्टम और मेडिकल डिक्टेशन सॉफ्टवेयर थे। यह अक्सर डिक्टेशन के लिए, डेटाबेस को क्वेरी करने के लिए, और कंप्यूटर-आधारित सिस्टम को कमांड देने के लिए उपयोग किया जाता है, विशेष रूप से उन व्यवसायों में जो विशिष्ट शब्दसंग्रह पर भरोसा करते हैं। यह वाहनों और स्मार्टफोनों में व्यक्तिगत सहायकों को भी सक्षम बनाता है, जैसे कि एप्पल का सिरी।

इससे पहले कि कोई भी मशीन भाषण की व्याख्या कर सकती है, एक माइक्रोफोन को किसी व्यक्ति की आवाज़ के कंपन का अनुवाद एक वेवलिक इलेक्ट्रिकल सिग्नल में करना चाहिए। बदले में इस सिग्नल को सिस्टम के हार्डवेयर द्वारा परिवर्तित किया जाता है - उदाहरण के लिए, एक कंप्यूटर का साउंड कार्ड - एक डिजिटल सिग्नल में। यह डिजिटल सिग्नल है कि एक भाषण मान्यता कार्यक्रम भाषण के बुनियादी भवन ब्लॉकों को अलग-अलग ध्वनियों को पहचानने के लिए विश्लेषण करता है। फोनमों को फिर शब्दों में समेट लिया जाता है। हालांकि, कई शब्द एक जैसे लगते हैं, और, उपयुक्त शब्द का चयन करने के लिए, प्रोग्राम को संदर्भ पर निर्भर होना चाहिए। कई कार्यक्रम ट्रिग्राम विश्लेषण के माध्यम से संदर्भ स्थापित करते हैं, एक विधि जो लगातार तीन-शब्द समूहों के डेटाबेस पर आधारित होती है जिसमें संभाव्यताएं निर्दिष्ट की जाती हैं कि किसी भी दो शब्द किसी दिए गए तीसरे शब्द का पालन करेंगे। उदाहरण के लिए, यदि कोई वक्ता "कौन है," कहता है, तो अगले शब्द को सर्वनाम के रूप में पहचाना जाएगा "I" समान-ध्वनि के बजाय "आंख"। फिर भी, त्रुटियों को ठीक करने के लिए कभी-कभी मानवीय हस्तक्षेप की आवश्यकता होती है।

टेलीफोन आवाज नेविगेशन सिस्टम जैसे कुछ अलग-थलग शब्दों को पहचानने के कार्यक्रम लगभग हर उपयोगकर्ता के लिए काम करते हैं। दूसरी ओर, निरंतर भाषण कार्यक्रम, जैसे कि श्रुतलेख कार्यक्रम, को किसी व्यक्ति के भाषण पैटर्न को पहचानने के लिए प्रशिक्षित किया जाना चाहिए; प्रशिक्षण में उपयोगकर्ता पाठ के जोर से नमूने पढ़ना शामिल है। आज, व्यक्तिगत कंप्यूटर और मोबाइल उपकरणों की बढ़ती शक्ति के साथ, भाषण मान्यता की सटीकता में स्पष्ट रूप से सुधार हुआ है। हज़ारों शब्दों वाले शब्दकोषों में त्रुटि दर लगभग 5 प्रतिशत तक कम हो गई है। रेडियोलॉजिकल डायग्नोसिस के डिक्टेशन जैसे विशेष अनुप्रयोगों के लिए सीमित स्वरों में भी अधिक सटीकता पाई जाती है।