구글은 음성 검색 기능을 강화하기 위해 새로운 기술을 개발했다. 새로운 기술은 CTC (Connectionist Temporal Classification) 및 시퀀스 식별 교육 기술을 사용합니다. 2012 년 Google은 GMM (Gaussian Mixture Model)에서 DNN (Deep Neural Networks)으로 전환하여 당시 사용자가 어떤 소리를 내고 있는지를 더 잘 평가하고 음성 인식 정확도를 높였습니다.
개선 된 음향 모델은 RNN (Recurrent Neural Networks)에 의존합니다. RNN은 토폴로지에 피드백 루프를 가지고있어 시간 의존성을 모델링 할 수 있습니다. 이전 예제에서 사용자가 / u /를 말할 때 조음 장치는 / j / 사운드 및 / m / 사운드에서 온 것입니다. "박물관"이라고 큰 소리로 말하십시오. 한 번의 호흡으로 매우 자연스럽게 흐르며 RNN이이를 포착 할 수 있습니다. 여기서 사용되는 RNN의 유형은 메모리 셀과 정교한 게이팅 메커니즘을 통해 다른 RNN보다 정보를 더 잘 기억하는 LSTM (Long Short-Term Memory) RNN입니다. 이러한 모델을 채택하면 이미 인식기의 품질이 크게 향상되었습니다.
기술의 변화는 Google에 의해 이루어졌으며, 이제는 iOS 및 Android의 Google 앱에서 음성 검색을 지원하고 Android 기기의 받아쓰기에 사용되고 있습니다.
출처: Google 연구 블로그