25 апреля, 2024

hleb

Находите все последние статьи и смотрите телешоу, репортажи и подкасты, связанные с Россией.

Microsoft тихо представляет новый вид ИИ (он может вас тихо взорвать)

построить майкрософт

Гетти Изображений

Это привилегия быть одним из последних людей.

Наиболее технически неправильно

Я понимаю, что в осязаемом будущем артисты, ранее известные как люди, станут острой смесью мяса и чипсов.

Я, наверное, не должен был удивляться, когда пришли исследователи Microsoft, чтобы немного ускорить безнадежное будущее.

Все это звучало так невинно и так научно. Название статьи исследователей Это было творчески непрозрачно: «Парадигмы языка нейронного кодирования — это скрипты без снимков для сборки речи».

Как вы думаете, что это может означать? Существует новый и более быстрый способ Машина для записи ваших произнесенных слов?

также: ChatGPT революция? Похоже, у Microsoft большие планы на чат-бота с искусственным интеллектом

Резюме исследователей начинается достаточно красиво. В нем используется множество слов, фраз и сокращений, незнакомых, скажем, многим формам нормального человеческого языка. Это показывает, что модель языка нейронного кодирования называется VALL-E.

Наверняка это имя призвано смягчить вас. Что может быть страшного в технологии, которая выглядит почти как тот милый маленький робот из трогательного фильма?

мы будем, Может быть, это: «VALL-E подчеркивает возможности обучения в контексте и может использоваться для синтеза высококачественной личной речи с помощью всего 3-секундной записи невидимого говорящего в качестве голосовой подсказки».

Мне часто хотелось выделить способности к обучению. Вместо этого мне пришлось ждать их появления.

Последнее предложение исследователей вызывает дрожь. Большим мозгам Microsoft теперь нужно всего 3 секунды, чтобы вы сказали что-то, чтобы подделать более длинные предложения и, возможно, большие речи, которые вы не произносили, но которые звучат так же, как вы.

Я не буду слишком углубляться в науку, так как никому из нас это не принесет пользы.

Упомяну только, что VALL-E использует аудиотеку, разработанную одной из самых авторитетных и надежных компаний в мире — Meta. названный Бесплатная LiteЭто склад 7000 человек, говорящих в общей сложности 60000 часов.

Естественно, я слушал творчество ВАЛЛ-И.

также: «Мы увидим компьютер совершенно нового типа», — говорит пионер искусственного интеллекта Джефф Хинтон.

Я слушал человека, говорящего в течение 3 секунд. Затем я прослушал восемь секунд, которые его копия ВАЛЛ-И сказала: «Затем они осторожно ходили вокруг и вокруг хижины, прежде чем найти что-то, что показало, что Уоррентон выполнил свою задачу».

Осмелюсь заметить большую разницу, если таковая имеется.

Это правда, что многие утверждения звучали как очень плохие выдержки из литературы восемнадцатого века. Образец: «Значит, этот здоровый человеческий отец утешал свою несчастную дочь, а мать снова обнимала ее, делая все возможное, чтобы утешить ее чувства».

Но что я могу сделать, кроме как слушать больше примеров, приведенных исследователями? Некоторые версии ВАЛЛ-И вызывают больше подозрений, чем другие. Орфография была неправильной. Они чувствовали себя разделенными.

Общий эффект, однако, глубоко пугающий.

Вас уже предупредили, куз. Вы знаете, что когда мошенники связываются с вами, вам не следует с ними разговаривать, иначе они запишут вас, а затем воссоздадут ваш стиль, чтобы ваш голый голос заказывал дорогие продукты.

также: Используйте персонализацию на основе ИИ, чтобы блокировать нежелательные звонки и текстовые сообщения.

Однако, похоже, это другой уровень сложности. Вы, наверное, уже видели слишком много серий «Павлина».захватыватьГде дипфейки обслуживаются как нормальная часть правительства. Может быть, мне действительно не следует беспокоиться, потому что Microsoft в наши дни такая милая, неагрессивная компания.

Однако мысль о том, что кого-то легко обмануть, заставив думать, что я говорю что-то, чего я не делала и никогда не сделаю, не дает мне покоя. Тем более, что исследователи утверждают, что они могут имитировать «эмоциональную и голосовую среду» первых трех секунд речи.

Вы будете рады, что исследователи обнаружили этот потенциал для дискомфорта. Они предлагают: «Поскольку VALL-E может синтезировать речь, которая сохраняет личность говорящего, у него могут быть потенциальные риски злоупотребления моделью, например, подделка распознавания голоса или выдача себя за определенного говорящего».

решение? Постройте систему обнаружения, говорят исследователи.

Что может заставить одного или двух человек задаться вопросом: «Зачем я вообще это сделал?»

Часто в технологиях ответ таков: «Потому что мы можем».

READ  Карты Google теперь будут отображать информацию о ценах на вашем маршруте – TechCrunch