Высокотехнологичный экспорт – будущее российской экономики
Высокотехнологичный экспорт – будущее российской экономики
Ученые лаборатории компьютерных технологий Университета ИТМО разработали новый анализатор, предназначенный для разграничения текстов, созданных человеком и нейросетью. Система, построенная на базе двух языковых моделей, обеспечивает точность идентификации до 94%. Помимо определения авторства, разработка способна оптимизировать стиль сгенерированных ИИ текстов, делая их более естественными. Данный сервис, по информации пресс-службы университета, представляется весьма перспективным для верификации контента в медиа, в образовательных учреждениях и коммерческих организациях.
Большие языковые модели (LLM), являясь типом нейросетей для генерации текста, обучаются на обширных массивах человеческих текстов. Тем не менее, их продукция часто характеризуется логическими погрешностями, шаблонностью и буквальным переводом, что препятствует их использованию для дальнейшего обучения LLM.
Существующие алгоритмы выявления ИИ-текстов используют различные сигналы, включая соответствие текста «ожиданиям», лингвистические характеристики и технические маркеры. Однако, как отметил научный руководитель проекта Вячеслав Шаламов, они не способны эффективно распознавать тексты, подвергшиеся последующей доработке человеком.
Разработанный в ИТМО детектор ИИ-текстов использует комбинацию из двух больших языковых моделей для анализа стиля написания, структуры предложений, лексического разнообразия и других параметров. Алгоритм оценивает, насколько «неожиданным» является стиль текста для моделей. Это позволяет достигать точности в 94% при идентификации текстов, написанных человеком или ИИ, и около 80% для текстов, созданных в соавторстве. Классификатор выдает три варианта: «Human» (человек), «Raw AI» (необработанный ИИ) или «Rephrased AI» (перефразированный ИИ). Особо стоит отметить, что выбранные модели оптимизированы для работы с русскоязычным контентом.
Инструмент может быть применен в образовании, медиа, социальных сетях и бизнесе. Демоверсия доступна на Hugging Face Spaces.
Источники:
https://russian.rt.com/science/article/1530651-tekst-ii-ili-cheloveka-kak-uznat