مدل زبانی جدید اپل می‌تواند با سرعتی خیره‌کننده متون طولانی تولید کند

بدون دیدگاه
مدل زبانی جدید اپل می‌تواند با سرعتی خیره‌کننده متون طولانی تولید کند

مدل زبانی جدید اپل با بهره‌گیری از معماری پیشرفته قادر است متن‌های بلند و پیچیده را با شتابی فوق‌العاده و دقت بالا تولید کند. براساس ریپورت‌ها، تیم تحقیقاتی اپل یک مدل مبتنی بر Diffusion ارائه کرده است که می‌تواند متن‌ها را تا ۱۲۸ برابر سریع‌تر از مدل‌های مشابه ایجاد کند.

مدل‌های زبانی بزرگ مانند ChatGPT از نوع Autoregressive هستند؛ این مدل‌ها متن را به‌صورت توکن به توکن و پشت سر هم تولید می‌کنند و هر توکن را با مد نظر داشتن لاگینی یوزر و تمام توکن‌های پیشین می‌سازند.

مدل زبانی جدید اپل شتاب بسیار زیادی دارد

در مقابل، مدل‌های Diffusion چند توکن را همزمان تولید کرده و در چند مرحله اصلاح می‌کنند تا پاسخ نهایی شکل بگیرد. یکی از انواع پیشرفته این مدل‌ها، Flow-matching است که مراحل اصلاح چندگانه را کنار می‌گذارد و تلاش می‌کند نتیجه نهایی را در یک مرحله به‌دست آورد.

مطالعه جدید اپل با عنوان «FS-DFM: Fast and Accurate Long Text Generation with Few-Step Diffusion Language Models» یک مدل جدید موسوم به Few-Step Discrete Flow-Matching (FS-DFM) معرفی می‌کند. این مدل می‌تواند متن‌های بلند را تنها با هشت مرحله اصلاح با شتابی زیادی تولید کند، درحالی‌که مدل‌های Diffusion معمولی بیش از هزار مرحله نیاز داشتند تا کیفیت مشابه ارائه دهند.

برای رسیدن به این شتاب، پژوهشگران از سه مرحله استفاده کرده‌اند: ابتدا مدل آموزش می‌بیند که چندین مرحله اصلاح متن را کنترل کند، سپس یک مدل «معلم» برای انجام به‌روزرسانی‌های دقیق و بزرگ‌تر در هر مرحله به کار گرفته می‌شود و در نهایت نحوه اجرای هر مرحله بهینه می‌شود تا مدل بتواند با طی مراحل کمتر و ثبات بیشتر به نتیجه برسد.

معرفی مدل زبان سریع اپل

در مقایسه با مدل‌های بزرگ مشابه، FS-DFM در معیارهای «آنتروپی» و «سردرگمی» عملکرد قابل توجهی داشته است. سردرگمی کیفیت متن را اندازه می‌گیرد؛ هرچه پایین‌تر باشد، متن طبیعی‌تر و دقیق‌تر است. آنتروپی میزان اطمینان مدل در انتخاب هر کلمه را نشان می‌دهد؛ مقدار پایین متن را تکراری یا قابل پیش‌بینی می‌کند و مقدار زیاد باعث می‌شود متن نامنسجم یا تصادفی شود.

بیشتر بخوانید:  قدرتمندترین توربین بادی جهان در چین با قابلیت تأمین برق ۵۵ هزار خانه!

مدل FS-DFM با پارامترهای ۱٫۷، ۱٫۳ و ۰٫۱۷ میلیارد، در مقایسه با مدل‌های Dream و LLaDA با ۷ و ۸ میلیارد پارامتر، در معیار سردرگمی عددی پایین‌تر و در آنتروپی نتیجه‌ای پایدارتر به‌دست آورد.

باتوجه‌به عملکرد عالی و کمبود مدل‌های مشابه، پژوهشگران اعلام کرده‌اند که قصد دارند کد برنامه و چک‌پوینت‌های مدل را منتشر کنند تا امکان بازتولید و تحقیقات بیشتر فراهم شود. مطالعه کامل مقاله در arXiv شامل نمونه‌های عملکردی و نمودارهایی است که مراحل اصلاح هر توکن و نحوه تغییرات آن را نشان می‌دهد.

برچسب‌ها: ChatGPT, اپل

جدیدترین‌ مطالب

مطالب بیشتر

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

این فیلد را پر کنید
این فیلد را پر کنید
لطفاً یک نشانی ایمیل معتبر بنویسید.
برای ادامه، شما باید با قوانین موافقت کنید