मुख्य प्रौद्योगिकी

वाक् पहचान तकनीक

वाक् पहचान तकनीक
वाक् पहचान तकनीक

वीडियो: L16: Artificial Intelligence & Big Data I Science & Technology (UPSC CSE - Hindi) I S K Sharma 2024, जुलाई

वीडियो: L16: Artificial Intelligence & Big Data I Science & Technology (UPSC CSE - Hindi) I S K Sharma 2024, जुलाई
Anonim

भाषण मान्यता, बोले गए आदेशों का जवाब देने के लिए उपकरणों की क्षमता। वाक् पहचान विभिन्न उपकरणों और उपकरणों (कई विकलांग व्यक्तियों के लिए एक विशेष वरदान) के हाथों से मुक्त नियंत्रण को सक्षम बनाती है, स्वचालित अनुवाद को इनपुट प्रदान करती है, और प्रिंट-तैयार श्रुतलेख बनाती है। भाषण मान्यता के लिए जल्द से जल्द अनुप्रयोगों में स्वचालित टेलीफोन सिस्टम और मेडिकल डिक्टेशन सॉफ्टवेयर थे। यह अक्सर डिक्टेशन के लिए, डेटाबेस को क्वेरी करने के लिए, और कंप्यूटर-आधारित सिस्टम को कमांड देने के लिए उपयोग किया जाता है, विशेष रूप से उन व्यवसायों में जो विशिष्ट शब्दसंग्रह पर भरोसा करते हैं। यह वाहनों और स्मार्टफोनों में व्यक्तिगत सहायकों को भी सक्षम बनाता है, जैसे कि एप्पल का सिरी।

इससे पहले कि कोई भी मशीन भाषण की व्याख्या कर सकती है, एक माइक्रोफोन को किसी व्यक्ति की आवाज़ के कंपन का अनुवाद एक वेवलिक इलेक्ट्रिकल सिग्नल में करना चाहिए। बदले में इस सिग्नल को सिस्टम के हार्डवेयर द्वारा परिवर्तित किया जाता है - उदाहरण के लिए, एक कंप्यूटर का साउंड कार्ड - एक डिजिटल सिग्नल में। यह डिजिटल सिग्नल है कि एक भाषण मान्यता कार्यक्रम भाषण के बुनियादी भवन ब्लॉकों को अलग-अलग ध्वनियों को पहचानने के लिए विश्लेषण करता है। फोनमों को फिर शब्दों में समेट लिया जाता है। हालांकि, कई शब्द एक जैसे लगते हैं, और, उपयुक्त शब्द का चयन करने के लिए, प्रोग्राम को संदर्भ पर निर्भर होना चाहिए। कई कार्यक्रम ट्रिग्राम विश्लेषण के माध्यम से संदर्भ स्थापित करते हैं, एक विधि जो लगातार तीन-शब्द समूहों के डेटाबेस पर आधारित होती है जिसमें संभाव्यताएं निर्दिष्ट की जाती हैं कि किसी भी दो शब्द किसी दिए गए तीसरे शब्द का पालन करेंगे। उदाहरण के लिए, यदि कोई वक्ता "कौन है," कहता है, तो अगले शब्द को सर्वनाम के रूप में पहचाना जाएगा "I" समान-ध्वनि के बजाय "आंख"। फिर भी, त्रुटियों को ठीक करने के लिए कभी-कभी मानवीय हस्तक्षेप की आवश्यकता होती है।

टेलीफोन आवाज नेविगेशन सिस्टम जैसे कुछ अलग-थलग शब्दों को पहचानने के कार्यक्रम लगभग हर उपयोगकर्ता के लिए काम करते हैं। दूसरी ओर, निरंतर भाषण कार्यक्रम, जैसे कि श्रुतलेख कार्यक्रम, को किसी व्यक्ति के भाषण पैटर्न को पहचानने के लिए प्रशिक्षित किया जाना चाहिए; प्रशिक्षण में उपयोगकर्ता पाठ के जोर से नमूने पढ़ना शामिल है। आज, व्यक्तिगत कंप्यूटर और मोबाइल उपकरणों की बढ़ती शक्ति के साथ, भाषण मान्यता की सटीकता में स्पष्ट रूप से सुधार हुआ है। हज़ारों शब्दों वाले शब्दकोषों में त्रुटि दर लगभग 5 प्रतिशत तक कम हो गई है। रेडियोलॉजिकल डायग्नोसिस के डिक्टेशन जैसे विशेष अनुप्रयोगों के लिए सीमित स्वरों में भी अधिक सटीकता पाई जाती है।