تولید پادکست ۹۰ دقیقه‌ای با دستور متنی؛ هوش مصنوعی جدید مایکروسافت معرفی شد

رضا کریمی

10 ماه پیش

تولید پادکست ۹۰ دقیقه‌ای با دستور متنی؛ هوش مصنوعی جدید مایکروسافت معرفی شد

مایکروسافت با معرفی پروژه‌ی متن‌باز VibeVoice قدم تازه‌ای در حوزه‌ی تبدیل متن به گفتار برداشت. برخلاف رویکرد همیشگی این شرکت در ادغام کوپایلت با خدمت‌ها، این‌بار تمرکز روی ابزار مستقلی است که می‌تواند متن را به صدایی شبیه انسان تبدیل کند.

VibeVoice برای تولید محتوای صوتی طولانی‌مدت و چندنفره طراحی شده است و توانایی ساخت پادکست‌هایی تا ۹۰ دقیقه با حداکثر چهار گوینده‌ی متفاوت را دارد. این ویژگی، ابزار مایکروسافت را از بسیاری از مدل‌های قبلی متمایز می‌کند.

فناوری VibeVoice در دو ورژن ارائه می‌شود؛ یکی با ۱٫۵ میلیارد پارامتر که توانایی تولید ۹۰ دقیقه صدا دارد و دیگری با ۷ میلیارد پارامتر که کیفیت بالاتری ارائه می‌دهد اما لاگ‌آوتی آن به ۴۵ دقیقه محدود شده است. ورژن‌ی سبک‌تر این هوش مصنوعی برای تولید بلادرنگ‌بندی صدا نیز در دست توسعه قرار دارد.

درحال حاضر، پروژه‌ی VibeVoice فقط روی زبان‌های انگلیسی و چینی آموزش دیده است اما توسعه‌دهندگان وعده داده‌اند که زبان‌های بیشتری به آن اضافه شود. این مدل توانایی ایجاد مکالمات طبیعی، انتقال احساسات و حتی تلاش برای خوانندگی را دارد؛ هرچند کیفیت خواندن آواز مدل هنوز پایین است.

علاقه‌مندان می‌توانند VibeVoice را به‌صورت محلی روی کامپیوتر شخصی اجرا یا ورژنی آنلاین آن را امتحان کنند. این پروژه‌ی متن‌باز علاوه‌بر تولید پادکست، می‌تواند به‌عنوان ابزار مهمی در حوزه‌ی دسترس‌پذیری و کمک به افراد کم‌بینا یا ناتوان در استفاده از محتوای متنی مورد استفاده قرار گیرد.

بیشتر بخوانید: سامسونگ هوش مصنوعی پیشرفته گوگل و مایکروسافت را به محصولاتش می‌آورد

برچسب‌ها: مایکروسافت