인공지능(Audio Task)/Paper Review (5) 썸네일형 리스트형 wav2vec 2.0: A Framework for Self-Supervised Learning of Speech Representations Introduction 세상에는 많은 언어들이 있습니다. 그런데 이러한 언어들 들모두에 대해 수천시간의 충분한 학습용 데이터를 얻기는 힘듭니다. 따라서 self supervised learning을 통해 구축한 사전학습 모델을 통해 적은 데이터를 가지고도 나름 괜찮은 수준의 음성 인식 모델을 구축하는 것이 목표입니다. 이산적인 인코더의 출력을 위한 gumbel softmax, 사전 학습 이후 fine tuning을 위한 CTC loss등의 방식을 사용하며 bert과 유사하게 masking하는 방식을 사용하여 적은 양의 데이터로 downstream task를 수행하더라도 꽤 좋은 성능을 보여줍니다. Model 전체 구조는 위와 같습니다. raw audio인 X에서 출발하여 여러 출력 결과들이 모여 학습이 .. Museformer: Transformer with Fine- and Coarse-Grained Attention for Music Generation Introduction museformer는 음악생성을 위한 transformer기반 모델입니다. self attention 매커니즘이 transformer구조가 음악의 복잡한 상관관계들을 잘 포착하도록 하였지만 긴 시퀀스(특히 음악은 문장 단위의 자연어 처리에 비해 굉장히 깁니다)와 음악의 구조 모델링에는 한계가 뚜렷합니다. 음악의 경우 대체적으로 반복되는 패턴이 나타나는데 이러한 부분들을 기존의 transformer가 잘 생성하지 못합니다. 그래도 긴 문장에 대한 처리가 자연어 처리 분야에서 요구되는 경우가 많았기 떄문에 이러한 긴 시퀀스를 처리하는 모델들은 있습니다. 대표적으로 Transformer-XL, Longformer, Linear Trasnformer가 있는데 앞의 두 모델의 경우 loca.. Conformer: Convolution-augmented Transformer for Speech Recognition Introduction ASR 분야에서 RNN, Transformer, CNN이 각각의 특성들로 인해 효과적입니다. RNN은 temporal dependency[1]를 이용할 수 있고 transformer는 long distance interaction[2]을 잘 파악하며 CNN은 음성신호의 작은 변질에는 강건하고 국소적 특징을 잘 파악합니다. 다만 이러한 방식들이 음성인식에 사용될 때 약간의 한계가 있습니다. CNN은 국소적인 특징 파악에는 강한 반면 전체적인 맥락 파악은 힘들고, Transformer는 미세한 특징을 추출하는 능력은 다소 떨어집니다. 결론적으로 conformer은 CNN과 self-attention의 결합을 통해 global한 한interaction과 local interaction을.. Time Series Data Augmentation for Deep Learning: A Survey 본 논문은 시계열 데이터 분야에 적용할 수 있는 데이터 증강 기법들에 대한 전반적인 조사를 수행한 논문입니다. 이미지와 다르게 각도를 조정하면서 데이터 증강을 할 수는 없지만 시계열 데이터만의 특수한 특성을 이용하여 데이터 증강을 할 수 있습니다. 거기에 GAN모델을 활용한 고차원적인 증강을 시도해 볼 수도 있습니다. Audio 자체가 time series data라서 audio domain research에 참고하거나 cross application을 기대해볼 수 도 있겠습니다. 1. Introduction 심층학습이 성공적으로 작동하려면 많은 양의 데이터가 필요합니다. 그렇지 않으면 데이터에 과적합이 될 수 있습니다. 그런데 시계열 데이터는 라벨링 된 데이터가 충분하지 않습니다. 따라서 증강기법이 중.. SpecAugment: A Simple Data Augmentation Method for Automatic Speech Recognition 1. Introduction 심층학습은 자동 음성인식(Automatic Speech Recognition)에 잘 적용되고 있습니다. 다만 이러한 심층학습 모델들은 과적합이 쉽게 일어나는 문제가 있었습니다. 이러한 시점에서 나온 이 논문은 과적합되는 문제를 세가지의 주요 데이터 증강기법으로 과소적합 문제로 바꿉니다. 즉, 학습을 더 시키는 등의 기존에 흔히 쓰던 과소적합 문제를 해결하는 방식들을 적용하면 되는 것입니다. 물론 심층학습을 이용한 방식 자체가 기본적으로 데이터 증강과 밀접합니다. 이미지의 경우 방향도 돌렸다가 좌우 반전을 시키기도 하는데, 음성인식분야에서도 비슷하게 다양한 시도들이 있었습니다. Vocal Tract Length Normalization, Noisy Audio(잡음을 추가하는 방.. 이전 1 다음