Удаление тегов HTML из текста средствами UNIX и(или) PHP
С помощью UNIX (должен быть предустановлен порт "sed"):
1.csv - файл ресурс (расширение может быть любое, в данном случае у нас готовый файл с данными в формате .CSV)
2.csv - новый файл (создавать данный файл надо с таким же расширением, что и ресурсный файл), в который будет размещен "очищенный, от html-тегов текст"
Запускаем в командной строке:
sed 's/<[^>]*>//g' -f 1.csv -w 2.csv
Заглядываем в библию UNIX для внесения дополнительных ключей:
man sed
Все, наслаждаемся результатом - текст очищен от html тегов!
P.S. Также можно с помощью средств PHP:
Regex.Replace(text, "<(.|\n)*?>", string.Empty, RegexOptions.IgnoreCase);
Решать как и чем чистить в тексте теги-html - решать вам!)) Успехов, Anrysys!

Комментарии
Отправить комментарий