Исследователи Массачусетского технологического института (MIT) совершили важное открытие в понимании работы больших языковых моделей (LLM). Они обнаружили, что эти системы обрабатывают информацию способом, удивительно схожим с человеческим мозгом.
Подобно тому, как человеческий мозг использует «семантический хаб» в передней височной доле для интеграции информации из разных источников, языковые модели применяют аналогичный механизм для обработки разнородных данных. Однако исследование также выявило потенциальные проблемы. Существуют концепции и знания, которые не могут быть переведены между языками или типами данных, например, культурно-специфические знания.
В таких случаях может потребоваться разработка специфических механизмов обработки для разных языков.
Если у модели английский является доминирующим языком, она использует его как центральную среду для обработки японского текста, арифметических задач или компьютерного кода.
«Большие языковые модели остаются черными ящиками. Они демонстрируют впечатляющие результаты, но мы очень мало знаем об их внутренних механизмах», – отмечает Чжаофэн Ву, аспирант MIT и ведущий автор исследования, которое будет представлено на Международной конференции по изучению представлений.
Исследователи также обнаружили, что могут влиять на внутренние слои модели с помощью английского текста даже при обработке других языков, предсказуемо изменяя результаты. Это открытие может иметь важные практические применения: ученые могут использовать этот феномен для улучшения обмена информацией между различными типами данных, повышая эффективность моделей.
Эти открытия могут помочь в решении существующих проблем многоязычных моделей. Сейчас англоязычные модели, изучающие новый язык, часто теряют точность в английском. Лучшее понимание работы семантического хаба может помочь исследователям предотвратить такую языковую интерференцию.