क्लिष्ट वातावरणात, मानवांना AI पेक्षा भाषणाचा अर्थ अधिक चांगल्या प्रकारे समजू शकतो, कारण आपण केवळ आपले कानच नाही तर आपले डोळे देखील वापरतो.
उदाहरणार्थ, आपण एखाद्याचे तोंड हलताना पाहतो आणि आपल्याला अंतर्ज्ञानाने कळते की आपण ऐकतो तो आवाज त्या व्यक्तीकडून येत असावा.
Meta AI एका नवीन AI संवाद प्रणालीवर काम करत आहे, जे AI ला संभाषणात जे पाहते आणि ऐकते त्यामधील सूक्ष्म सहसंबंध ओळखण्यास देखील शिकवते.
लेबल नसलेल्या व्हिडिओंमधून व्हिज्युअल आणि श्रवणविषयक संकेत शिकून दृकश्राव्य उच्चार वेगळे करणे सक्षम करून नवीन कौशल्ये कसे शिकतात, त्याच प्रकारे VisualVoice शिकते.
यंत्रांसाठी, हे चांगले समज निर्माण करते, तर मानवी धारणा सुधारते.
जगभरातील सहकाऱ्यांसोबत मेटाव्हर्समध्ये ग्रुप मीटिंगमध्ये सहभागी होण्याची कल्पना करा, व्हर्च्युअल स्पेसमधून जाताना लहान गट मीटिंगमध्ये सामील व्हा, ज्या दरम्यान दृश्यातील ध्वनी रिव्हर्ब्स आणि टायब्रेस वातावरणानुसार करतात त्यानुसार समायोजित करा.
म्हणजेच, ते एकाच वेळी ऑडिओ, व्हिडिओ आणि मजकूर माहिती मिळवू शकते, आणि एक समृद्ध पर्यावरणीय समज मॉडेल आहे, ज्यामुळे वापरकर्त्यांना "अतिशय व्वा" आवाज अनुभव घेता येतो.
पोस्ट वेळ: जुलै-20-2022