تولید پادکست ۹۰ دقیقه‌ای با دستور متنی؛ هوش مصنوعی جدید مایکروسافت معرفی شد

بدون دیدگاه
تولید پادکست ۹۰ دقیقه‌ای با دستور متنی؛ هوش مصنوعی جدید مایکروسافت معرفی شد

مایکروسافت با معرفی پروژه‌ی متن‌باز VibeVoice قدم تازه‌ای در حوزه‌ی تبدیل متن به گفتار برداشت. برخلاف رویکرد همیشگی این شرکت در ادغام کوپایلت با خدمت‌ها، این‌بار تمرکز روی ابزار مستقلی است که می‌تواند متن را به صدایی شبیه انسان تبدیل کند.

VibeVoice برای تولید محتوای صوتی طولانی‌مدت و چندنفره طراحی شده است و توانایی ساخت پادکست‌هایی تا ۹۰ دقیقه با حداکثر چهار گوینده‌ی متفاوت را دارد. این ویژگی، ابزار مایکروسافت را از بسیاری از مدل‌های قبلی متمایز می‌کند.

فناوری VibeVoice در دو ورژن ارائه می‌شود؛ یکی با ۱٫۵ میلیارد پارامتر که توانایی تولید ۹۰ دقیقه صدا دارد و دیگری با ۷ میلیارد پارامتر که کیفیت بالاتری ارائه می‌دهد اما لاگ‌آوتی آن به ۴۵ دقیقه محدود شده است. ورژن‌ی سبک‌تر این هوش مصنوعی برای تولید بلادرنگ‌بندی صدا نیز در دست توسعه قرار دارد.

درحال حاضر، پروژه‌ی VibeVoice فقط روی زبان‌های انگلیسی و چینی آموزش دیده است اما توسعه‌دهندگان وعده داده‌اند که زبان‌های بیشتری به آن اضافه شود. این مدل توانایی ایجاد مکالمات طبیعی، انتقال احساسات و حتی تلاش برای خوانندگی را دارد؛ هرچند کیفیت خواندن آواز مدل هنوز پایین است.

علاقه‌مندان می‌توانند VibeVoice را به‌صورت محلی روی کامپیوتر شخصی اجرا یا ورژنی آنلاین آن را امتحان کنند. این پروژه‌ی متن‌باز علاوه‌بر تولید پادکست، می‌تواند به‌عنوان ابزار مهمی در حوزه‌ی دسترس‌پذیری و کمک به افراد کم‌بینا یا ناتوان در استفاده از محتوای متنی مورد استفاده قرار گیرد.

برچسب‌ها: مایکروسافت

جدیدترین‌ مطالب

مطالب بیشتر

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

این فیلد را پر کنید
این فیلد را پر کنید
لطفاً یک نشانی ایمیل معتبر بنویسید.
برای ادامه، شما باید با قوانین موافقت کنید