Egy hétfőn közzétett frissítésben a Google további információkat osztott meg az Universal Speech Model (USM) rendszerről, amelyet a Google a céljai megvalósításának "kritikus első lépéseként" jellemez.
A vállalat tavaly novemberben jelentette be terveit egy olyan nyelvi modell létrehozására, amely 1000, a világon leggyakrabban beszélt nyelvet támogat, miközben a USM modelljét is felfedte. A Google az USM-et "a legkorszerűbb beszédmodellek családjaként" írja le, amely 2 milliárd paramétert tartalmaz, és
amelyet 12 millió órányi beszéd és 28 milliárd mondat alapján modelleztek le több mint 300 nyelven.
Az USM, amelyet a YouTube már használ a zárt feliratok létrehozásához, támogatja az automatikus beszédfelismerést (ASR) is. Ez automatikusan felismeri és lefordítja a nyelveket, többek között az angolt, a magyart, a mandarint, az amhárit, a cebuanót és az asszamit.
Jelenleg a Google szerint az USM több mint 100 nyelvet támogat, és "alapként" szolgál majd egy még kiterjedtebb rendszer kiépítéséhez. A Meta egy hasonló mesterséges fordítóeszközön dolgozik, amely még korai stádiumban van.
A technológia egyik célpontja egy olyan kiterjesztett valóságot megjelenítő szemüveg lehet, mint amilyen a Google tavalyi I/O rendezvényén bemutatott. Így az képes lehet felismerni az idegen nyelveket és valós idejű fordításokat nyújtani, amelyek közvetlenül a szemünk előtt jelennek meg. Ez a technológia azonban még mindig egy kicsit távolinak tűnik, de az irány már megvan és keresőóriást ismerve már csak pár milliárd és pár óriási hiba kell, hogy a Google elérje a célját.
Ha szeretne még több érdekes techhírt olvasni, akkor kövesse az Origo Techbázis Facebook-oldalát, kattintson ide!