Sang-gil Lee @ NVIDIA

#Shorts

#Shorts

#Shorts

#Shorts

2025. 4. 27.

undefined

(Sang-gil @ GTC2025)


안녕하세요, 디피스트 초기 멤버 이상길 입니다. 2017 - 2018 년 까지 활발히 활동했고, 2023 년 2월 졸업 이후에는 인더스트리에서 연구활동을 이어가고 있습니다.

  • personal webpage: https://l0sg.github.io

  • research interest: speech and audio applications: text-to-speech, voice conversion, sound effects & music generation, neural audio codecs, and audio language models.

  • 2023.2 - 2024.1: Qualcomm AI Research 서울 오피스에서 디피스트 동기인 규홍과 함께 edge device 에 최적화된 TTS 프레임워크 연구개발을 진행했습니다.

  • 2024.1 - Current: NVIDIA Applied Deep Learning Research 팀에서 audio generative AI 전반을 연구하고 있습니다, 디피스트 동기인 성원, 재현과 같은 팀에서 활동하고 있습니다.


Recent works

  1. BigVGAN-v2 (SOTA universal neural vocoder)

https://developer.nvidia.com/blog/achieving-state-of-the-art-zero-shot-waveform-audio-generation-across-audio-types/


  1. ETTA: Elucidating the Design Space of Text-to-Audio Models

  • https://research.nvidia.com/labs/adlr/ETTA/

  • 최근 제가 가장 관심을 가지고 있는 주제인 text-to-audio/music 에서 public data 만으로 최고 성능을 달성할 수 있는 실전 레시피를 집대성한 논문입니다.

  • 텍스트, 이미지 도메인과는 달리 오디오는 고퀄리티의 caption 이 부족한 상황입니다. 이를 해결하기 위해 ETTA는 엔비디아의 자체 audio language model (Audio Flamingo) 를 사용하여 대규모 synthetic caption 데이터셋을 구축했습니다.

  • ETTA는 대규모 synthetic data 및 model scaling 을 통해 text-to-audio 연구 사상 최초로 real world 를 벗어난 완전히 새로운 사운드 (“emergent ability”) 를 생성할 수 있음을 보여주었습니다. 데모 샘플을 확인해보세요!

  • ETTA 의 테크닉들은 저희 팀에서 진행 중인 대규모 오디오 AI 프로젝트 Fugatto 에 포함되었습니다


2024년 10월 부터 미국 Bay Area 에 있는 엔비디아 HQ 에서 출퇴근하며 살고 있습니다. 편하게 연락 주세요!

Share This Post