Sang-gil Lee @ NVIDIA
2025. 4. 27.

(Sang-gil @ GTC2025)
안녕하세요, 디피스트 초기 멤버 이상길 입니다. 2017 - 2018 년 까지 활발히 활동했고, 2023 년 2월 졸업 이후에는 인더스트리에서 연구활동을 이어가고 있습니다.
personal webpage: https://l0sg.github.io
research interest: speech and audio applications: text-to-speech, voice conversion, sound effects & music generation, neural audio codecs, and audio language models.
2023.2 - 2024.1: Qualcomm AI Research 서울 오피스에서 디피스트 동기인 규홍과 함께 edge device 에 최적화된 TTS 프레임워크 연구개발을 진행했습니다.
2024.1 - Current: NVIDIA Applied Deep Learning Research 팀에서 audio generative AI 전반을 연구하고 있습니다, 디피스트 동기인 성원, 재현과 같은 팀에서 활동하고 있습니다.
Recent works
BigVGAN-v2 (SOTA universal neural vocoder)
acoustic feature (e.g. mel spectrogram) → waveform 생성 모델로, audio generative AI 의 핵심 구성요소입니다. 2025년 4월 기준 엔비디아 HuggingFace 에서 전체 다운로드 순위 최상위권을 기록하고 있습니다. (5M+ total downloads)
BigVGAN-v2의 성능을 다룬 ICLR 2025 blog post: https://d2jud02ci9yv69.cloudfront.net/2025-04-28-better-scores-worse-generation-178/blog/better-scores-worse-generation/
BigVGAN 의 테크닉들은 다양한 neural audio codec (ex: DAC https://arxiv.org/abs/2306.06546) 및 speech/audio generative model 에 사용되고 있습니다.
ETTA: Elucidating the Design Space of Text-to-Audio Models
최근 제가 가장 관심을 가지고 있는 주제인 text-to-audio/music 에서 public data 만으로 최고 성능을 달성할 수 있는 실전 레시피를 집대성한 논문입니다.
텍스트, 이미지 도메인과는 달리 오디오는 고퀄리티의 caption 이 부족한 상황입니다. 이를 해결하기 위해 ETTA는 엔비디아의 자체 audio language model (Audio Flamingo) 를 사용하여 대규모 synthetic caption 데이터셋을 구축했습니다.
ETTA는 대규모 synthetic data 및 model scaling 을 통해 text-to-audio 연구 사상 최초로 real world 를 벗어난 완전히 새로운 사운드 (“emergent ability”) 를 생성할 수 있음을 보여주었습니다. 데모 샘플을 확인해보세요!
ETTA 의 테크닉들은 저희 팀에서 진행 중인 대규모 오디오 AI 프로젝트 Fugatto 에 포함되었습니다
2024년 10월 부터 미국 Bay Area 에 있는 엔비디아 HQ 에서 출퇴근하며 살고 있습니다. 편하게 연락 주세요!