Форум по Delphi программированию

Delphi Sources



Вернуться   Форум по Delphi программированию > Все о Delphi > [ "Начинающим" ]
Ник
Пароль
Регистрация <<         Правила форума         >> FAQ Пользователи Календарь Поиск Сообщения за сегодня Все разделы прочитаны

Ответ
 
Опции темы Поиск в этой теме Опции просмотра
  #1  
Старый 30.11.2014, 15:19
aquatell aquatell вне форума
Прохожий
 
Регистрация: 21.04.2011
Сообщения: 31
Репутация: 10
По умолчанию Нужно перемешать строки в текстовом файле 25 гб

Всем привет, такая задачка нужно перемешать строки в текстовом файле размером 25 гб порядка 520 млн строк как можно сделать наиболее быстро нужен какой то алгоритм пусть и примитивный но чтобы работал, кто подскажет?
Теоретически алгоритм есть, но незнаю как реализовать технически:
1) Подсчитать количество строк в файле
2) Берем случайные 2 строки из общего количества и меняем их местами.
3) Количество замен нужно как минимум половина от общего кол-во строк / 2 потому что меняем только 2 строки

Последний раз редактировалось aquatell, 30.11.2014 в 15:25.
Ответить с цитированием
  #2  
Старый 30.11.2014, 23:30
Аватар для Страдалецъ
Страдалецъ Страдалецъ вне форума
Гуру
 
Регистрация: 09.03.2009
Адрес: На курорте, из окна вижу теплое Баренцево море. Бррр.
Сообщения: 4,721
Репутация: 52347
По умолчанию

Быстро не выйдет по любому ибо читать вы будете текст не последовательно, а произвольно. Как вариант псевдоперемешивания, без потери скорости, предлагаю такой:
- считываем из исходного файла в массив по N строк, затем случайным образом перемешиваем их в массиве и записываем полученный новый набор строк в новый файл. Операцию повторяем до конца исходного файла.
__________________
Жизнь такова какова она есть и больше никакова.
Помогаю за спасибо.
Ответить с цитированием
Этот пользователь сказал Спасибо Страдалецъ за это полезное сообщение:
aquatell (01.12.2014)
  #3  
Старый 30.11.2014, 23:45
Аватар для Freeman
Freeman Freeman вне форума
Местный
 
Регистрация: 05.10.2012
Адрес: Санкт-Петербург
Сообщения: 576
Версия Delphi: 6
Репутация: выкл
По умолчанию

Если это обычный текстовый файл, то структура у него нерегулярная, и результат по-любому придется записывать в другой файл.

Общий алгоритм такой:
  • Отображаем файл на память.
  • Последовательно двигаем окно по файлу, сохраняем в масив или TList триплет (номер окна, смещение, длина строки), то есть индексируем файл.
  • Перемешиваем индексы в массиве.
  • Сохраняем результат, последовательно прыгая окном туда-сюда и сохраняя строки по смещению, согласно индексу.

Если разрабатывать под 64-битную платформу и требовать 25 ГБ свободной памяти, можно за один раз считать файл в память, после чего оперировать указателями и длинами. Номер окна не понадобится из-за отсутствия окон.

Если пытаться решить задачу обычным TStringList, он захочет 50 ГБ ОЗУ из-за особенности реализации TStrings.LoadFromStream.
__________________
Не стоит путать форумы с богадельнями. © Bargest
Ответить с цитированием
Этот пользователь сказал Спасибо Freeman за это полезное сообщение:
aquatell (01.12.2014)
  #4  
Старый 05.12.2014, 00:56
Аватар для Страдалецъ
Страдалецъ Страдалецъ вне форума
Гуру
 
Регистрация: 09.03.2009
Адрес: На курорте, из окна вижу теплое Баренцево море. Бррр.
Сообщения: 4,721
Репутация: 52347
По умолчанию

Вот попробуйте, не тестировал на очень больших файлах (просто нет таких, а делать лень), но на полумиллионе строк довольно шустро отрабатывает.
Вложения
Тип файла: rar TextMix.rar (1.12 Мбайт, 68 просмотров)
__________________
Жизнь такова какова она есть и больше никакова.
Помогаю за спасибо.
Ответить с цитированием
Этот пользователь сказал Спасибо Страдалецъ за это полезное сообщение:
Seraphim (10.08.2015)
Ответ


Delphi Sources

Опции темы Поиск в этой теме
Поиск в этой теме:

Расширенный поиск
Опции просмотра

Ваши права в разделе
Вы не можете создавать темы
Вы не можете отвечать на сообщения
Вы не можете прикреплять файлы
Вы не можете редактировать сообщения

BB-коды Вкл.
Смайлы Вкл.
[IMG] код Вкл.
HTML код Выкл.
Быстрый переход


Часовой пояс GMT +3, время: 23:05.


 

Сайт

Форум

FAQ

RSS лента

Прочее

 

Copyright © Форум "Delphi Sources" by BrokenByte Software, 2004-2023

ВКонтакте   Facebook   Twitter