Каким образом можно эффективно управлять огромным количеством небольших файлов при их хранении и распределении?

Question

Раймонд

xfs , хранение-данных

Каким образом можно эффективно управлять огромным количеством небольших файлов при их хранении и распределении?

Как правильно реорганизовать хранение миллиардов мелких файлов на XFS файловой системе с древовидной структурой, чтобы решить проблему с заполнением инодов (90% занято, при использовании только 30% места)? Задачу можно разделить на две секции: хранение внутренних данных (несколько xml-файлов объединенных по конкретному ID, 1.5Тб+ файлов, gzip, удаление через 3 месяца) и раздачу статики (например, 2+Тб пользовательских файлов, включая картинки, которые нужно выдавать через nginx с использованием хешей). Какие подходы (S3, MinIO) стоит рассмотреть для улучшения хранения? Буду благодарен за практический опыт и рекомендации.

13 декабря 2023 г. 11:47

Ответы на вопрос 2

Похожие вопросы

Answer 1

Для эффективного управления огромным количеством небольших файлов при их хранении и распределении можно использовать следующие подходы:

1. Формирование древовидной структуры каталогов: Разбить файлы на несколько уровней каталогов на основе определенных атрибутов файлов, таких как первые символы имени файла, хеш-значений или идентификаторов. Это поможет улучшить производительность поиска и манипулирования файлами.

2. Использование компрессии данных: Если файлы представляют собой текстовые или несжатые данные, их можно сжимать, чтобы сэкономить место на диске и уменьшить нагрузку на файловую систему. Gzip является хорошим выбором для сжатия файлов.

3. Массовое удаление устаревших файлов: Если вы знаете, что некоторые файлы будут устаревать через определенное время, например, через 3 месяца, можно настроить автоматическое удаление этих файлов с помощью задач планировщика. Таким образом, вы можете освободить место на диске и сэкономить ресурсы.

4. Использование контента-хеширования для раздачи статики: Вместо использования обычных URL-адресов для доступа к файлам, вы можете использовать контент-хеш, такой как MD5 или SHA1, в качестве имени файла или параметра запроса. Это позволит использовать кэширование и улучшит производительность при раздаче статических файлов.

5. Распределенное хранение с использованием S3 или MinIO: Рассмотрите использование распределенных объектных хранилищ, таких как Amazon S3 или MinIO, которые обеспечивают масштабируемость и отказоустойчивость при хранении и доступе к файлам. Они могут предоставить возможности автоматического масштабирования и репликации файлов, а также высокий уровень доступности и производительности.

Реорганизация хранения миллиардов мелких файлов на XFS файловой системе с древовидной структурой, чтобы решить проблему с заполнением инодов и эффективно использовать доступное место, может включать следующие шаги:

1. Пересмотр структуры каталогов: Определить новую структуру каталогов, основанную на каких-либо атрибутах файлов, которая позволит более равномерно распределить файлы по инодам. Например, использование хеш-значений файлов или идентификаторов для распределения файлов по подкаталогам.

2. Использование ext4 с параметром dir_index: Если ваша файловая система XFS достигла своих пределов, можно рассмотреть возможность перехода на ext4 файловую систему с включенным параметром dir_index. Этот параметр позволяет оптимизировать поиск в каталогах с большим количеством файлов.

3. Перемещение устаревших файлов в архивное хранилище: Если существуют файлы, которые редко используются и уже устарели, можно переместить

Answer 2

gzip не лучшее решение, ибо он stream, и для случайного доступа к конкретному файлу лучше хотя бы zip 
 
 по хешу - можно раскладывать хеш на подстроки и хранить в поддиректориях, имя которых часть кеша, а в конце zip. В зависимости от количества файлов в конечном зип файле, и файлов всего, выбрать нужный уровень вложенности - обычно хватает два или три. Так можно обойтись без базы. 
 
 Если не файлы, то я думаю s3 (который внутри объектно-ориентированная база) либо другая объектно ориентированная база (ибо s3 бывает медленный)