ИИ ускорит оцифровку гербариев: место сбора растений точно определяют нейросети
Исследователи из Университета Северной Каролины в Чапел-Хилл совершили прорыв в области оцифровки естественнонаучных коллекций, доказав, что современные языковые модели искусственного интеллекта могут с высокой точностью определять географическое происхождение ботанических образцов. Согласно исследованию, опубликованному в журнале Nature Plants, этот процесс, известный как геопривязка, может быть автоматизирован с точностью, близкой к экспертной, но в разы быстрее и дешевле.
Геопривязка традиционно считается одним из самых трудоёмких этапов при переводе гербарных коллекций в цифровой формат. Учёные использовали большие языковые модели (LLM) для анализа текстовых описаний мест сбора растений, содержащихся в исторических записях. Результаты показали, что ИИ способен определять координаты с ошибкой менее 10 километров, что превосходит показатели многих существующих полуавтоматических методов.
«Наше исследование показывает, как большие языковые модели могут взять на себя одно из самых серьёзных узких мест в оцифровке ботанических коллекций, — отметил ведущий автор работы, постдокторант Юйян Се. — Этот прорыв ускорит оцифровку образцов растений, открывая новые возможности для экологических исследований».
Достижение имеет колоссальное значение для изучения биоразнообразия. По оценкам, в мировых гербариях хранится от 2 до 3 миллиардов образцов растений, из которых оцифрована лишь незначительная часть. Без пространственной привязки эти данные остаются «немыми» для современных методов анализа, что ограничивает возможности учёных в отслеживании изменений ареалов видов, влияния климата и динамики экосистем.
«Недавние достижения в области больших языковых моделей потенциально могут трансформировать процесс геопривязки, — заявил соавтор исследования, доцент Сяо Фэн. — Это даёт исследователям беспрецедентные возможности для углубления нашего понимания глобального распределения биоразнообразия».
Автоматизация процесса позволит в сжатые сроки обработать миллионы записей, которые десятилетиями оставались физически недоступными в музейных хранилищах. Гербарии, представляющие собой уникальные «капсулы времени», содержат не только информацию о самих растениях, но и косвенные данные об окружающей среде прошлого, такие как состав атмосферы или климатические условия, которые можно изучать через морфологические или химические признаки образцов.