Форум по Delphi программированию

Delphi Sources



Вернуться   Форум по Delphi программированию > Все о Delphi > [ "Начинающим" ]
Ник
Пароль
Регистрация <<         Правила форума         >> FAQ Пользователи Календарь Поиск Сообщения за сегодня Все разделы прочитаны

Ответ
 
Опции темы Поиск в этой теме Опции просмотра
  #1  
Старый 07.11.2019, 07:57
pikabu pikabu вне форума
Прохожий
 
Регистрация: 27.12.2017
Сообщения: 30
Версия Delphi: 10.1
Репутация: 10
По умолчанию Парсинг html

Может быть изъезженная тема, но все же. Как спарсить значения из:
Код HTML:
<div style=""><a title="Camil White 1л" href="#good/edit?id=adba9ac6-f3be-11e8-9107- 5048000499ff">Camil White 1л</a></div> </td> <td tabindex="-1" class="cellTableCell cellTableEvenRowCell"> <div style=""></div> </td> <td tabindex="-1" align="left" class="cellTableCell cellTableEvenRowCell"> <div style=""> <div title="4784">4784</div> </div> </td> <td tabindex="-1" class="cellTableCell cellTableEvenRowCell"> <div style=""></div> </td> <td tabindex="-1" align="left" class="cellTableCell cellTableEvenRowCell"> <div style=""> <div title=""></div> </div> </td> <td tabindex="-1" class="cellTableCell cellTableEvenRowCell"> <div style=""></div> </td> <td tabindex="-1" align="left" class="cellTableCell cellTableEvenRowCell"> <div style=""> <div title="шт">шт</div> </div> </td> <td tabindex="-1" class="cellTableCell cellTableEvenRowCell"> <div style=""></div> </td> <td tabindex="-1" align="right" class="cellTableCell cellTableEvenRowCell"> <div style=""> <div title="-3">-3</div> </div> </td> <td tabindex="-1" class="cellTableCell cellTableEvenRowCell"> <div style=""></div> </td> <td tabindex="-1" align="right" class="cellTableCell cellTableEvenRowCell"> <div style=""> <div title="14,95">14,95</div> </div> </td> <td tabindex="-1" class="cellTableCell cellTableEvenRowCell"> <div style=""></div> </td> <td tabindex="-1" align="right" class="cellTableCell cellTableEvenRowCell"> <div style=""> <div title="0">0</div> </div> </td> <td tabindex="-1" class="cellTableCell cellTableEvenRowCell"> <div style=""></div> </td> <td tabindex="-1" align="right" class="cellTableCell cellTableEvenRowCell"> <div style=""> <div title="0,00">0,00</div> </div> </td> <td tabindex="-1" class="cellTableCell cellTableEvenRowCell"> <div style=""></div> </td> <td tabindex="-1" align="right" class="cellTableCell cellTableEvenRowCell"> <div style=""> <div title="1">1</div> </div> </td> <td tabindex="-1" class="cellTableCell cellTableEvenRowCell"> <div style=""></div> </td> <td tabindex="-1" align="right" class="cellTableCell cellTableEvenRowCell"> <div style=""> <div title="-4">-4</div> </div> </td> <td tabindex="-1" class="cellTableCell cellTableEvenRowCell"> <div style=""></div> </td> <td tabindex="-1" align="right" class="cellTableCell cellTableEvenRowCell"> <div style=""> <div title="14,95">14,95</div> </div> </td> <td tabindex="-1" class="cellTableCell cellTableEvenRowCell"> <div style=""></div> </td> <td tabindex="-1" align="left" class="cellTableCell cellTableEvenRowCell cellTableLastColumn row-menu"> <div style=""></div> </td> </tr> <tr class="cellTableOddRow" onclick=""> <td tabindex="-1" align="center" class="cellTableCell cellTableOddRowCell cellTableFirstColumn"> <div style=""></div> </td> <td tabindex="-1" class="cellTableCell cellTableOddRowCell"> <div style=""></div> </td>
Нужны значения между
Код:
<a title=" и href
Код:
<div title=" и </div>

В регулярных выражениях не получается разобраться
Ответить с цитированием
  #2  
Старый 07.11.2019, 14:47
Аватар для Страдалецъ
Страдалецъ Страдалецъ вне форума
Гуру
 
Регистрация: 09.03.2009
Адрес: На курорте, из окна вижу теплое Баренцево море. Бррр.
Сообщения: 4,721
Репутация: 52347
По умолчанию

Вроде так маска должна выглядеть для регулярки:
'<a title="(.*)" href=.*<div title="(.*)">'
Соответственно возвращать для каждой итерации должна по 2 значения
__________________
Жизнь такова какова она есть и больше никакова.
Помогаю за спасибо.
Ответить с цитированием
  #3  
Старый 07.11.2019, 20:53
lmikle lmikle вне форума
Модератор
 
Регистрация: 17.04.2008
Сообщения: 8,015
Версия Delphi: 7, XE3, 10.2
Репутация: 49089
По умолчанию

Скорее вот такое:
Код:
<div title=".*">|<a title=".*" href

А вообще вот хороший ресурс для отладки:
https://regex101.com/
Ответить с цитированием
  #4  
Старый 11.11.2019, 08:32
pikabu pikabu вне форума
Прохожий
 
Регистрация: 27.12.2017
Сообщения: 30
Версия Delphi: 10.1
Репутация: 10
По умолчанию

Не парсит. Что я делаю не так?

Код:
var
re:TRegExpr;
begin
re := TRegExpr.Create;
  re.ModifierM := true;
  re.InputString := Memo1.Text;
  re.Expression := '<div title=".*">|<a title=".*" href';
  re.Compile;
  try
    if re.Exec(re.InputString) then
      repeat
        Memo2.Lines.Add(re.Match[2]);
      until not re.ExecNext;
  finally
    re.Free;
  end;
end;
Ответить с цитированием
  #5  
Старый 11.11.2019, 14:51
pikabu pikabu вне форума
Прохожий
 
Регистрация: 27.12.2017
Сообщения: 30
Версия Delphi: 10.1
Репутация: 10
Печаль

Делаю так
Код:
var  re:TRegExpr;
begin
re:=TRegExpr.Create;
re.Expression:='<a title="(.*?)" href|<div title="([\d]+)\"';
if re.Exec(memo1.text) then
repeat
 memo2.Lines.Add(trim(re.Match[1])+re.Match[2]);
until not re.ExecNext;
re.Free;
end;
По результату то, что в
Код:
re,Match[1]
(там где название позиции), выгружается только первое значение, а
Код:
re,Match[2]
(там где цифры) все, которые есть. Почему так происходит, почему названия парсит не все, пните меня!
Ответить с цитированием
  #6  
Старый 11.11.2019, 15:05
Аватар для Kailon
Kailon Kailon вне форума
Активный
 
Регистрация: 06.06.2010
Сообщения: 339
Версия Delphi: 10.4
Репутация: 429
Сообщение

Все нормально работает. Используйте стандартный модуль для работы с регулярными выражениями.
Код:
uses
RegularExpressions;
...

procedure TForm1.Button1Click(Sender: TObject);
var
 RegEx: TRegEx;
 M: TMatchCollection;
 RegStr: String;
 I: LongInt;
begin
  RegStr := '<div title=".*">|<a title=".*" href';
  RegEx := TRegEx.Create(RegStr);
  if RegEx.IsMatch(Memo1.Text)then
    begin
      Memo2.Clear;
      M:=RegEx.Matches(Memo1.Text, RegStr, [roMultiLine, roIgnoreCase]);
      for I := 0 to M.Count - 1 do
        Memo2.Lines.Add(M.Item[i].Value);
    end;
end;
__________________
Всегда пишите код так, будто сопровождать его будет склонный к насилию психопат, который знает, где вы живете.
Ответить с цитированием
Ответ


Delphi Sources

Опции темы Поиск в этой теме
Поиск в этой теме:

Расширенный поиск
Опции просмотра

Ваши права в разделе
Вы не можете создавать темы
Вы не можете отвечать на сообщения
Вы не можете прикреплять файлы
Вы не можете редактировать сообщения

BB-коды Вкл.
Смайлы Вкл.
[IMG] код Вкл.
HTML код Выкл.
Быстрый переход


Часовой пояс GMT +3, время: 04:30.


 

Сайт

Форум

FAQ

RSS лента

Прочее

 

Copyright © Форум "Delphi Sources" by BrokenByte Software, 2004-2023

ВКонтакте   Facebook   Twitter