На общие вопросы можно дать только общие ответы. Если вкратце, то не факт что в этой задаче нужен ИИ для анализа. <br/> <br/> Разбираем вопрос в "потоковом" режиме: <br/> <blockquote>У меня есть json файлы с большим объемом данных - около ляма строк.</blockquote> Ну и что, что " <a href="https://en.wiktionary.org/wiki/%D0%BB%D1%8F%D0%BC" rel="nofollow">лям</a> "? Это пока не тот объем, из-за которого на этом этапе стоит беспокоиться. <br/> <br/> <blockquote>У меня есть <b>json</b> файлы с большим объемом данных - около ляма строк. Мне нужно <b>вытащить из файла</b> определенные данные ...</blockquote> Для "вытаскивания" (т.е. извлечения) из JSON имеются утилита <a href="https://jqlang.github.io/jq/" rel="nofollow">jq</a> . Она может работать и с файлами и в поточном режиме, через STDIN (standard input). Какие данные? Пока не ясно. <br/> С расчетом на дальнейшую работу по данным, забегая наперед, по умолчанию, уже можно советовать СУБД SQLite, которая умеет и хранить данные в колонках JSON и извлекать из недр структур интересующие данные. Подходит и для большего количества файлов. <br/> <br/> <blockquote>... в сгруппированном виде</blockquote> Тут важно было прояснить как именно, но автор не утрудился и здесь. Допускаю, что необходимо произвести выборки с агрегацией. Снова же, примеров никаких не дано. Поскольку файлов (вспоминая про упомянутые ранее "лямы") "много", то агрегации нужно выполнять эффективно. Тут на ум приходит модифицированный движок <a href="https://www.opennet.ru/opennews/art.shtml?num=61309" rel="nofollow">DuckDB</a> , ориентированный, в свою очередь, на аналитические запросы. <br/> Ссылочки: <br/> 1. <a href="https://duckdb.org/docs/extensions/json.html" rel="nofollow">https://duckdb.org/docs/extensions/json.html</a> <br/> 2. <a href="https://duckdb.org/2023/03/03/json.html" rel="nofollow">https://duckdb.org/2023/03/03/json.html</a> <br/> <br/> Смысл работы с данными состоит в том, что импортируются в СУБД или заносятся программно, а затем SQL запросами получать нужные данные. <br/> Предстоит определить в каких полях JSON находятся нужные данные и какого типа (число, строка, булевого, дата и пр.), чтобы оперировать данными. <br/> <br/> <blockquote>а потом через AI сделать анализ выбранных данных.</blockquote> Перед применением ИИ в анализе нужно осведомиться каковы традиционные методы работы с данными и убедиться в том, что они неспособны решить задачу. А этого не было сделано.