Для достижения максимальной сжимаемости данных в ClickHouse вы можете применить следующие рекомендации: 1. Используйте столбцы с фиксированной длиной для строк, если такая возможность есть. Это позволит уменьшить избыточное использование места для хранения данных. 2. Оптимизируйте типы данных для каждого столбца, чтобы использовать наименьшее количество байтов для хранения значений. Например, вместо использования типа "UInt64" для столбца, который может хранить значения только от 0 до 100, вы можете использовать тип "UInt8" для экономии места. 3. При записи данных в таблицу, используйте "массивы" для группировки связанных данных. Это позволит уменьшить дублирование данных и сжать их эффективнее. 4. Проверьте использование компрессии данных в ClickHouse. В ClickHouse доступны различные алгоритмы сжатия данных, такие как LZ4, ZSTD и другие. Вы можете выбрать наиболее подходящий алгоритм сжатия для ваших данных, чтобы добиться лучших результатов. 5. Рассмотрите возможность использования блочного сжатия. Блочное сжатие позволяет улучшить сжимаемость данных путем объединения нескольких записей в один блок и сжатия его целиком. 6. Используйте сжатие уровня таблицы. ClickHouse предоставляет возможность задать сжатие на уровне таблицы, что позволит автоматически сжимать все данные в таблице без необходимости указывать компрессию для каждого столбца отдельно. 7. Вы можете рассмотреть возможность предварительного обработки данных и устранения дубликатов или ненужной информации перед записью в ClickHouse. Это позволит сэкономить место и ускорить операции чтения и записи. Надеюсь, эти советы помогут вам достичь максимальной сжимаемости данных в ClickHouse для ваших объемов данных.
В области Big Data, основной подход - ELT (Extract, Load, Transform). Это означает, что вы сохраняете все данные на входе без предварительной фильтрации, потому что нельзя знать заранее, какие данные понадобятся в будущем. Затем вы можете осуществить фильтрацию и построить просматриваемые представления данных. Главное - иметь все данные. ClickHouse, являющийся колоночным хранилищем, позволяет легко выбирать как два поля из двух, так и два поля из двух тысяч. Если ваше хранилище все же заполнится (со скоростью 2,5 Гб в день), тогда можно удалить некоторые столбцы, которые стали ненужными после, например, пары месяцев использования.