Каким образом можно эффективно обработать большой объем текстовых данных?

Question

Рустам

python

Каким образом можно эффективно обработать большой объем текстовых данных?

Как разделить текстовый файл на части, чтобы обработать каждую часть по отдельности? Я пытался прочитать файл, но после разделения он сохраняется в пяти файлах размером около 1,5 ГБ, хотя исходный файл был 222 ГБ.

6 апреля 2024 г. 16:09

Ответы на вопрос 2

Похожие вопросы

Answer 1

Для эффективной обработки большого объема текстовых данных можно воспользоваться параллельной обработкой данных или использовать специализированные инструменты и библиотеки для работы с большими файлами.

Чтобы разделить текстовый файл на части для последующей обработки, можно воспользоваться следующими способами:

1. Использовать утилиту командной строки, например, split в UNIX-подобных системах, для разделения файла на более мелкие части.

2. Разработать скрипт на языке программирования, который будет читать и обрабатывать файл по частям, сохраняя результаты обработки в отдельные файлы.

3. Использовать специализированные библиотеки или инструменты для обработки больших файлов, такие как Apache Spark, Hadoop или Dask.

Если после разделения и сохранения файла в пяти частях их размер все равно составляет 1,5 ГБ, это может быть связано с тем, что текстовый файл содержит много строчек с небольшим объемом данных. В этом случае, возможно, стоит преобразовать данные в другой формат или использовать другой метод разделения файлов для более эффективной обработки.

Answer 2

Зачем ты складываешь строки в список? Почему не писать их сразу в выходной файл? 
 with open("sus.txt", "r", encoding='utf-8') as source:
    idx = 1  # номер файла-приёмника
    go = True
    while go:
        with open(f'part{idx}.txt', 'w', encoding='utf-8') as dest:
            for _ in range(500):  # не более 500 строк в каждый файл
                line = source.readline()
                if not line:  # пустая строка = конец файла
                    go = False
                    break
                dest.write(line)
        idx += 1