На общие вопросы можно дать только общие ответы. Если вкратце, то не факт что в этой задаче нужен ИИ для анализа.
Разбираем вопрос в "потоковом" режиме:
У меня есть json файлы с большим объемом данных - около ляма строк.
Ну и что, что " лям "? Это пока не тот объем, из-за которого на этом этапе стоит беспокоиться.
У меня есть json файлы с большим объемом данных - около ляма строк. Мне нужно вытащить из файла определенные данные ...
Для "вытаскивания" (т.е. извлечения) из JSON имеются утилита jq . Она может работать и с файлами и в поточном режиме, через STDIN (standard input). Какие данные? Пока не ясно.
С расчетом на дальнейшую работу по данным, забегая наперед, по умолчанию, уже можно советовать СУБД SQLite, которая умеет и хранить данные в колонках JSON и извлекать из недр структур интересующие данные. Подходит и для большего количества файлов.
... в сгруппированном виде
Тут важно было прояснить как именно, но автор не утрудился и здесь. Допускаю, что необходимо произвести выборки с агрегацией. Снова же, примеров никаких не дано. Поскольку файлов (вспоминая про упомянутые ранее "лямы") "много", то агрегации нужно выполнять эффективно. Тут на ум приходит модифицированный движок DuckDB , ориентированный, в свою очередь, на аналитические запросы.
Ссылочки:
1. https://duckdb.org/docs/extensions/json.html
2. https://duckdb.org/2023/03/03/json.html
Смысл работы с данными состоит в том, что импортируются в СУБД или заносятся программно, а затем SQL запросами получать нужные данные.
Предстоит определить в каких полях JSON находятся нужные данные и какого типа (число, строка, булевого, дата и пр.), чтобы оперировать данными.
а потом через AI сделать анализ выбранных данных.
Перед применением ИИ в анализе нужно осведомиться каковы традиционные методы работы с данными и убедиться в том, что они неспособны решить задачу. А этого не было сделано.