|
#1
|
|||
|
|||
Простой парсинг
Значит, в делфи разбираюсь в основном с сетевыми приложениями, парсингом не занимался. Имеется список:
Код:
1000055;16.12.2009 15:22:23 1000020;18.02.2009 10:40:40 1000021;23.10.2004 08:12:28 1000023;01.02.2001 15:24:11 1000024;12.02.2006 06:52:57 1000042;10.11.2003 15:09:51 1000048;21.05.2003 23:11:54 1000049;28.08.2006 06:52:57 1000083;24.03.2001 18:28:21 1000084;30.12.2001 09:34:27 1000085;07.07.2010 18:10:57 1000088;22.07.2010 19:57:05 1000000;14.10.2002 19:21:27 1000001;10.12.2003 07:08:55 1000002;14.07.2010 14:19:53 1000039;26.07.2002 13:03:58 1000013;12.06.2000 13:36:40 1000016;18.01.2010 02:15:19 Нужно отобрать ICQ номера с last update'ом (обновлением информации) скажем за 7 месяц 2010 года, все номера из этой категории. Как это сделать? На выходе по критерию 2010.07 должен получиться список вида: Код:
1000085 1000088 1000002 Последний раз редактировалось Admin, 25.07.2010 в 16:54. |
#2
|
||||
|
||||
Код для разбиения строки по точке с запятой недавно давал, посмотри тут.
Дальше переводишь дату в TDateTime (StrToDateTime в помощь), и сравниваешь с заданной (EncodeDate, EncodeTime, и им подобные). За готовым решением - с готовым кошельком, или хотя бы наброском программы. Оставайтесь хорошими людьми... VK id2634397, ds [at] phoenix [dot] dj |
#3
|
|||
|
|||
Зачем же так даты и тп?
Я написал, используя компонент "regexpr". Код:
PHP код:
Но проблема в том, что при списке уже 100к - повисает.. =( А надо отпарсить 3млн. |
#4
|
||||
|
||||
Регулярку оптимизируй... У тебя, если я что-то понимаю, максимальные длины не указаны. Или у тебя с рассчётом, что программу будут использовать на номерах ICQ > 999 999 999, и в годах больше 9999? Про то, что дня и месяца больше двух цифр не существует, я помолчу...
Оставайтесь хорошими людьми... VK id2634397, ds [at] phoenix [dot] dj |
#5
|
||||
|
||||
И, кстати, одна строчка занимает около 9+1+10+1+8+1=30 байт. умнож на N строк, и подумай, сколько такая регулярка будет ползать по такой строчке. Мой метод с пробегом по строкам, ИМХО, быстрее, но на ОЧЕНЬ больших количествах и он загнётся. Кури маны про потоки (FileStream и им подобные)
Оставайтесь хорошими людьми... VK id2634397, ds [at] phoenix [dot] dj |
#6
|
||||
|
||||
Код:
unit Unit1; interface uses Windows, Messages, SysUtils, Variants, Classes, Graphics, Controls, Forms, Dialogs, ExtCtrls, StdCtrls; type TForm1 = class(TForm) Memo1: TMemo; Memo2: TMemo; procedure FormCreate(Sender: TObject); private { Private declarations } public { Public declarations } end; var Form1: TForm1; implementation {$R *.dfm} procedure TForm1.FormCreate(Sender: TObject); var adate: String; i: Integer; j: Integer; s: String; begin adate:='07.2010'; for i:=0 to Memo1.Lines.Count-1 do begin s:=Memo1.Lines[i]; j:=Pos(';', s); if (j>0) and (Copy(s, j+4, 7)=adate) then Memo2.Lines.Add(Copy(s, 1, j-1)); end; end; end. Последний раз редактировалось NumLock, 04.05.2012 в 10:45. |
#7
|
|||
|
|||
Я бы сделал через БД.
Хотя можно делать и полностью кодом (как-то писал такое). Собственно: 1. Не надо файл грузить полностью сразу. Особенно, если он "весит" несколько десятков мегабайт или больше. Читай построчно. 2. Результат складываешь в отдельный списочек. Тут встает вопрос правильного определения нужно ли добавлять запись в результат. Номера в списке повторяются или нет? Если нет, то все просто. Если да, то надо понимать будет ли включен номер в результат. |
#8
|
|||
|
|||
Пусть номера не повторяются. Тогда это что-то типа такого:
Код:
procedure CheckNmb(AFileName : String; AMonth, AYear : Integer); var S : TStringList; F : TextFile; Buf : String; D : TDateTime; begin S := TStringList.Create; AssignFile(F,AFileName); Reset(F); While Not EOF(F) Do Begin ReadLn(F,B); D := StrToDateTime(Copy(B,Pos(';',B)+1,Length(B)); If (MonthOf(D) = AMonth) And (YearOf(D) = AYear) Then S.Add(Copy(B,1,Pos(';',B)-1); End; CloseFile(F); ShowMessage(S.Text); S.Free; end; |