Экспериментальное испытание инструмента Autoresearch Андрея Карпати на архивном проекте по машинному обучению показало, что система может ускорять рутинные инженерные задачи в исследованиях, при этом по-прежнему опираясь на контроль человека для предметно-специфических решений. За одну сессию агентно-ориентированный инструмент организовал кодовую базу, наметил план восстановления окружения, попытался воспроизвести результаты и пометил проблемные места, требующие ручного вмешательства.
Autoresearch предназначен для автоматизации частей исследовательского рабочего процесса: он читает репозитории, предлагает следующие шаги, редактирует код и выполняет команды для запуска экспериментов. В ходе теста он ориентировался в документации, выявлял отсутствующие зависимости и генерировал скрипты для стандартизации настройки и запуска, снижая первоначальные трудности, которые часто сопровождают возвращение к старым проектам.
Эффективность варьировалась в зависимости от сложности. Инструмент справлялся с типичными задачами управления пакетами и рефакторинга, выявлял устаревшие элементы и предлагал базовые эксперименты, но испытывал трудности с наследованными ограничениями, индивидуальной предварительной обработкой данных и сборками, чувствительными к аппаратному обеспечению. Наиболее устойчивый прогресс наблюдался, когда человек давал точечные указания, проверял изменения и прояснял неоднозначные варианты конфигурации, что подчеркивало модель человек-в-контуре (human-in-the-loop), а не полную автономность.
Результаты указывают на прагматичную роль агентных помощников программирования в исследовательской среде: ускорение воспроизводимости и поддержки существующих работ при сохранении тонких решений по моделированию и наборам данных за экспертами. По мере того как платформы ИИ для программирования конкурируют, стремясь объединить планирование, выполнение и отслеживание происхождения результатов, следующие достижения, вероятно, придут от более тесных связей с непрерывной интеграцией, виртуализацией окружений и проверками воспроизводимости, которые сделают эти инструменты более надежными в разных лабораториях и при работе с устаревшими кодовыми базами.