Переход к использованию агентного ИИ для налоговой отчетности выявляет критическую проблему ответственности из-за вероятностной природы больших языковых моделей. Тесты TaxCalcBench показывают, что даже передовые модели демонстрируют крайне низкую точность в специализированных финансовых задачах, создавая риски как для пользователей, так и для разработчиков.

Что произошло
Результаты тестирования TaxCalcBench (июль 2025) выявили низкую точность флагманских моделей при выполнении налоговых задач: GPT-5 показала результат 41.7%, Gemini 2.5 Pro — 32.4%, а Claude Opus 4 — 27.5%. В то же время специализированная архитектура Filed достигла точности 72.5%. При этом IRS возлагает полную ответственность за любые ошибки на налогоплательщика.
Контекст
Существует фундаментальный разрыв между вероятностным подходом современных LLM и детерминированными требованиями налогового законодательства. Ситуация осложняется юридическим прецедентом United States v. Heppner (февраль 2026), который подтвердил, что данные, обработанные ИИ, могут не подпадать под действие адвокатской тайны.
Почему это важно для индустрии
Отрасли необходимо переходить от использования общих чат-ботов к созданию специализированных многоагентных архитектур (Vertical AI), способных обеспечить детерминированный результат. Ожидается формирование новых регуляторных стандартов и методов оценки (benchmarking) для агентных систем, аналогичных EU AI Act, а также внедрение обязательных механизмов верификации и guardrails.
Почему это важно для пользователей
Использование публичных LLM для расчета налогов сопряжено с огромным финансовым риском — ошибки могут стоить пользователям тысяч долларов. Кроме того, существует угроза конфиденциальности: персональные данные, передаваемые ИИ, могут быть доступны третьим лицам и использованы в судебных разбирательствах.
Что пока неизвестно / ограничения
Необходимы дальнейшие исследования относительно того, как именно новые регуляторные рамки повлияют на скорость внедрения Vertical AI в финансовом секторе.
Источники
Автор
Look at AI, редакция
