Передовая технология, созданная учеными Техасского университета в Остине, создает реалистичные изображения на основе звуковых записей городских и сельских улиц. При этом необычная нейросеть демонстрирует поразительную точность.
Система обучена на огромном наборе аудиовизуальных клипов и способна идентифицировать объекты на изображении, соответствующие определенным звукам.
Результаты исследований показывают, что люди могут правильно идентифицировать изображение, сгенерированное системой по аудиозаписи, среди других изображений, с точностью до 80 %. Более того, компьютерный анализ подтверждает, что созданные изображения точно отражают пропорции открытого неба, зелени и зданий, а также условия освещения, присутствующие в оригинальных видеороликах.
Технология обладает мощным потенциалом для различных областей науки, от криминалистики до городского планирования. Понимание связи между звуком и нашим восприятием пространства может привести к значительному улучшению качества жизни в