نموذج AudioPaLM يمكنه الاستماع والتحدث والترجمة

كشف باحثو جوجل عن نموذج لغة كبير جديد يسمى AudioPaLM وهو قادر على الاستماع والتحدث والترجمة حيث تم إنشاء هذا النموذج الذي يعمل بدقة عالية من مزيج من PaLM-2 و AudioLM.

يتميز نموذج AudioLM بأداء عالٍ في الحفاظ على معلومات اللغة الصوتية مثل هوية المتحدث ونبرة الصوت من خلال الجمع بين AudioLM و PaLM-2 يمكن لنموذج AudioPaLM الاستفادة من الخبرة اللغوية لـ PaLM-2 والحفاظ على AudioLM لمعلومات اللغة الصوتية لتحقيق فهم أكثر اكتمالاً للنص والكلام وإنشاءهما بشكل أفضل.

نموذج AudioPaLM يمكنه الاستماع والتحدث والترجمة

إنتاج النص والصوت باستخدام نموذج AudioPaLM

يستخدم نموذج AudioPaLM كلمات شهيرة يمكنها تمثيل الكلام والنص بعدد محدود من الرموز المميزة وتسمح هذه الميزة لنموذج اللغة الجديد من جوجل بدمج مهام مثل التعرف على الكلام وتحويل النص الى كلام وترجمة الكلام في بنية وعملية تعليمية واحدة موحدة.

إنتاج النص والصوت باستخدام نموذج AudioPaLM

نظرًا للجمع بين نموذجي لغتين يمكن لنموذج جوجل الجديد معالجة النص والكلام او إنشائهما هذا يوسع تطبيقات AudioPaLM ويمكن استخدامه لمهام مثل التعرف على الصوت او تحويل الصوت الى نص.

يبدو ان AudioPaLM كان أداؤه افضل من الأنظمة الأخرى فيما يتعلق بترجمة الكلام في الاختبارات ويمكن للنموذج أيضًا ترجمة الصوت الى نص والقيام بنفس الشيء بالنسبة لمجموعات اللغات الجديدة.

يمكن لنموذج اللغة الجديد من جوجل تبديل الأصوات بين اللغات المختلفة بناءً على المطالبات المنطوقة القصيرة هذا النموذج قادر أيضًا على تسجيل أصوات مختلفة وإعادة إنتاجها بلغات مختلفة.

إرسال تعليق (0)
أحدث أقدم