Удаление тегов HTML из текста средствами UNIX и(или) PHP

С помощью UNIX (должен быть предустановлен порт "sed"):

1.csv - файл ресурс (расширение может быть любое, в данном случае у нас готовый файл с данными в формате .CSV)
2.csv - новый файл (создавать данный файл надо с таким же расширением, что и ресурсный файл), в который будет размещен "очищенный, от html-тегов текст"

Запускаем в командной строке:
sed 's/<[^>]*>//g' -f 1.csv -w 2.csv

Заглядываем в библию UNIX для внесения дополнительных ключей:
]]>man sed]]>

Все, наслаждаемся результатом - текст очищен от html тегов!

P.S. Также можно с помощью средств PHP:

Regex.Replace(text, "<(.|\n)*?>", string.]]>Empty]]>, RegexOptions.IgnoreCase);

Решать как и чем чистить в тексте теги-html - решать вам!)) Успехов, Anrysys!

Комментарии

Отправить комментарий