Роборуку научили играть кубиком

Некоторые вещи даются людям намного легче, чем роботам. Чтобы научиться вертеть в робопальцах кубик с буквами, нейросети,управляющей движениями пальцев, пришлось освоить сразу несколько вселенных с разным набором физических констант — и ей все равно не удалось стать такой же ловкой, как средний человек. Но она очень старается и все время учится.

Инженеры основанной Илоном Маском компании OpenAI создали нейросеть-симулятор роботической руки-манипулятора, которая рассчитывает движения пяти пальцев, вращающих шестигранный кубик. Выбрав наиболее удачные последовательности движений, система передает команды на настоящую роборуку (робот Shadow Dexterous Hand), держащую настоящий кубик, и тестирует их в реальности. Методом проб и ошибок робот учится манипулировать объектами так же, как это делают люди.

Сначала нейросеть пробует случайные движения, и у нее чаще всего ничего не получается, — объясняет изданию Wired инженер OpenAI Маттиас Плапперт, — но за каждое удачное решение, которое приближает ее к решению поставленной задачи (например, развернуть кубик заданной стороной в заданную сторону) система получает «вознаграждение». За выпавший из манипулятора кубик и другие ошибки систему «наказывают» (отнимают баллы). Со временем система выбирает решения, которые дают лучший результат, и учится избегать тех, за которые теряет баллы.

Параметры нескольких виртуальных систем, в которых происходит обучение, слегка разнятся: где-то изменена масса кубика, где-то — сила притяжения Земли, где-то гибкость робопальцев, меняется положение роборуки в пространстве. Нейросеть осваивает эти виртуальные миры, а затем попадает в реальность. «Если бы мы обучили ее всего на одном наборе параметров, а замет заставили бы работать в реальном мире, ничего бы не вышло, а с нашим подходом материальный мир для нее — всего лишь один из возможных наборов случайным образом выбранных параметров», — объясняет Плапперт.