Skip to content

Giới thiệu về WaveGAN

Giới thiệu về WaveGAN

Giới thiệu

  • Mạng đối sinh (Generative Adversarial Network) được công bố vào năm 2014 đã mở ra kỷ nguyên mới cho việc tạo ra dữ liệu và GAN luôn có thế mạnh trong việc tạo và ghép hình ảnh, văn bản. Đến năm 2018, WaveGAN đã đặt tiền đề cho mạng sinh dữ liệu tạo ra âm thanh khi trở thành mô hình ứng dụng GAN đầu tiên sử dụng cho audio. Việc tạo ra âm thanh có thể sử dụng để chuyển đổi văn bản thành giọng nói, tạo cảm hứng cho các nhạc sĩ viết nhạc, tạo các mẫu âm thanh nhạc cụ hoặc hiệu ứng chân thật.

  • Trước khi đi vào tìm hiểu chi tiết, hãy cùng xem qua thử các sản phẩm từ WaveGAN

So sánh giữa âm thanh và hình ảnh

image audio comparision
Hình 1. Ảnh các thành phần chính khi được phân tích của ảnh tự nhiên (trái) và của mẫu âm thanh (phải).
  • Minh họa cho sự khác biệt giữa âm thanh và hình ảnh bằng cách phân tích các thành phần chính trên các trục. Các hình vuông đại diện cho các ảnh tự nhiên, các hình chữ nhật là cá mẫu từ đoạn âm thanh. Như trên hình đã thể hiện, các ảnh tự nhiên chứa các thông tin như độ dày, khuynh độ và cạnh các đặc trưng còn các đoạn âm thanh thì lại mang tính định kỳ hơn.

Đánh giá đoạn âm thanh

  • Hình ảnh có thể dễ dàng được đánh giá bằng mắt thường để phân biệt thật giả, nhưng để đánh giá chất lượng của một đoạn âm thanh thì cần rất nhiều thời gian. Đối với mẫu âm thanh dài, lưu trữ và so sánh cũng trở nên khó khăn hơn. Việc chia nhỏ mẫu âm thanh dài có thể dẫn đến nội dung âm thanh bị vô nghĩa. Giảm kích thước của đoạn âm thanh bằng cách giảm số lần lấy mẫu trên 1 giây có hiệu quả với 1 vài trường hợp âm thanh chứa những tần số không cần thiết cho việc đánh giá. Nhưng phương pháp này cũng không giảm được thời gian một người đánh giá.

Về GAN 1 cách ngắn gọn

  • GAN bao gồm 2 mô hình mạng neural, 1 Generator và 1 Discriminator cạnh tranh nhau theo thuật toán Minimax với mục đích là Generator được huấn luyện để tạo ra các mẫu dữ liệu đạt chuẩn.

Mô hình WaveGAN

  • WaveGAN là một bản chỉnh sửa của mô hình Deep Convolutional Generative Network (DCGAN) , được dùng để huấn luyện dữ liệu audio 1 chiều thay vì dữ liệu ảnh 2 chiều. Mô hình còn được thay các lớp pooling bằng các lớp convolution, sử dụng ReLU như hàm kích hoạt cho toàn bộ các lớp Generator, Leaky ReLU cho các lớp trong Discriminator.

transposed convolution wave gan
Hình 2. Miêu tả lớp Transposed Covolution của DCGAN (trái) và WaveGAN (phải).
  • Transposed Convolution có thể được xem như phép toán ngược của Convolution, thường dùng để upsampling, tạo ra các feature map có số chiều lớn hơn số chiều của feature map được đưa vào.

transposed
Hình 3. Mô tả quá trình Transposed.
  • Generator sẽ nhận đầu vào 1 input z là mảng 1 chiều có chiều dài bằng 100 với các giá trị trong khoảng [ -1,1] được lấy từ phân phối đều. Mảng 1 chiều này sẽ được đưa qua lớp Fully-Connected để được biến đổi thành tensor có số chiều phù hợp cho lớp Convolution đầu tiên, rồi được đưa qua lần lượt các lớp Transposed Convolution. Ngay sau mỗi lớp Transposed Convolution là lớp ReLU để đảm bảo các giá trị luôn dương. Lớp tanh ở cuối mô hình Generator giúp cho dữ liệu âm thanh được tạo ra nằm trong khoảng [-1;1].

generator
Hình 4. Mô hình Generator của WaveGAN.
  • Giá trị đầu ra của mô hình Generator sẽ là dữ liệu đầu vào của mô hình Discriminator. Dữ liệu được đưa vào Discriminator sẽ đi qua các bộ lớp Convolution 1D – LeakyReLU – Phase Shuffle. Lớp cuối cùng sẽ định hình lại dữ liệu truyền cho lớp Fully-Connected và trả về 1 giá trị.

discriminator
Hình 5. Mô hình Discriminator của WaveGAN.
  • Các lớp Phase Shuffle ở mô hình Discriminator để tránh việc mô hình dựa vào các mẫu tần số lặp lại mà đánh giá sai nhãn. Phase Shuffle sẽ ngẫu nhiên làm rối loạn các giai đoạn của mỗi lớp từ -n đến n mẫu trước khi đưa vào lớp tiếp theo.

shuffle phase
Hình 6. Ví dụ cho phase shuffle trong mô hình Discriminator

Kết luận

  • WaveGAN là ứng dụng của mạng GANs học không giám sát tạo ra âm thanh đầu tiên, đồng thời cũng là cảm hứng cho nhiều bài báo khác phát triển việc sinh dữ liệu bằng GANs trong lĩnh vực âm thanh. Hãy cùng thử các hiệu ứng trống được tạo ra từ WaveGAN nhé.

Trả lời

Email của bạn sẽ không được hiển thị công khai. Các trường bắt buộc được đánh dấu *