본문 바로가기

인공지능(Audio Task)/딥러닝 Research

(2)
Listen, Attend and Spell 모델 implementation 1. OverView [LAS: Listen, Attend and Spell 모델 개요] pyramid birectual LSTM기반의 Listener와 Attention, Decoder가 결합된 모델로, seq2seq의 모델 구조와 비슷한 음성처리 모델이다. 이 모델을 기반으로 몇 가지 task들을 수행할 예정인데, 본 글에서는 구현을 다룹니다. ​ [Listener] pyramid birectual LSTM의 경우 음성 신호의 길이가 길기 때문에 이를 해결하기 위해 적용되는 구조이다. 이 구조가 없으면 수렴이 늦어지는 등의 현상이 발생한다. ​ [Attention] Scaled Dot Product Attention을 기반으로한 멀티 헤드 어텐션을 사용한다. ​ [Speller] 교사 강요(teach..
음원 데이터 전처리 (Audio Data Preprocessing) 음성 신호를 분석할 때 음성 파일에서 실제로 음성이 시작되는 부분만을 사용하고 싶을 수 있습니다. 음성이 시작되지 않는 부분은 불필요하기도 하지만 성능 저하나 추가적인 자원소모가 있을 수도 있을 것입니다. 이번 포스팅에서는 간단하게 음성 파일에서 음성이 시작되고 끝나는 부분의 앞과 뒤에 불필요한 부분을 잘라내는 방법을 다루어 보겠습니다. 대표사진 삭제 사진 설명을 입력하세요. 이번에 trimming할 source는 위와 같습니다. 참고로 라벨은 임의로 정한 것입니다. 사진의 그래프를 보면 앞과 뒤에 아예 소리가 없는 것은 아니지만 사람이 발화할때처럼 소리의 크고 작음이 변하지 않고 일정한 부분이 보이실 것입니다. 이 소리는 사실 차량이 내는 소리입니다. 도로에서 녹음이 되었는지 사람이 발화하는 상황에서 ..

728x90