(PHP 4, PHP 5)
htmlspecialchars — Преобразует специальные символы в HTML-сущности
$string
[, int $flags
= ENT_COMPAT | ENT_HTML401 [, string $encoding
= 'UTF-8' [,bool $double_encode
= true ]]] )В HTML некоторые символы имеют специальное значение и для сохранения своего значения должны быть преобразованы в HTML-сущности. Эта функция возвращает строку, над которой проведены эти преобразования. Если вам нужно преобразовать все возможные сущности, используйте htmlentities().
Вызова функции htmlspecialchars() достаточно, если кодировка поддерживает все символы во входной строке (такая как UTF-8, но также ISO-8859-1 при входной только ISO-8859-1). Необходимость в вызове функции htmlentities() появляется только тогда, когда выходная кодировка не поддерживает все символы из входной строки.
Эта функция полезна при отображении данных, введенных пользователем, которые могут содержать нежелательные HTML тэги, например в форуме или гостевой книге.
Производятся следующие преобразования:
ENT_NOQUOTES
is not set.ENT_QUOTES
.string
Конвертируемая строка (string).
flags
Битовая маска из нижеуказанных флагов, определяющих режим обработки кавычек, некорректных кодовых последовательностей и используемый тип документа. По умолчанию используется ENT_COMPAT | ENT_HTML401.
Название константы | Описание |
---|---|
ENT_COMPAT |
Преобразует двойные кавычки, одинарные кавычки не изменяются. |
ENT_QUOTES |
Преобразует как двойные, так и одинарные кавычки. |
ENT_NOQUOTES |
Оставляет без изменения как двойные, так и одинарные кавычки. |
ENT_IGNORE |
Без всяких уведомительных сообщений отбрасывает некорректные кодовые последовательности вместо возврата пустой строки. Использование этого флага не рекомендуется, так как это может привести к » негативным последствиям, связанным с безопасностью. |
ENT_SUBSTITUTE |
Заменяет некорреткные кодовые последовательности символом замены Юникода U+FFFD в случае использования UTF-8 и при использовании другой кодировки, вместо возврата пустой строки. |
ENT_DISALLOWED |
Заменяет неверные коды символов для заданного типа документа символом замены юникода U+FFFD (UTF-8) или (при использовании другой кодировки) вместо того, чтобы оставлять все как есть. Это может быть полезно, например, для того, чтобы убедиться в формальной правильности XML-документов со встроенным внешним контентом. |
ENT_HTML401 |
Обработка кода в соответствии с HTML 4.01. |
ENT_XML1 |
Обработка кода в соответствии с XML 1. |
ENT_XHTML |
Обработка кода в соответствии с XHTML. |
ENT_HTML5 |
Обработка кода в соответствии с HTML 5. |
encoding
Определяет кодировку, используемую для преобразования. Если не указано, то кодировкой по умолчанию является ISO-8859-1 для PHP до версии 5.4.0, и UTF-8 начиная с версии 5.4.0.
Для целей этой функции кодировки ISO-8859-1, ISO-8859-15, UTF-8, cp866, cp1251, cp1252 и KOI8-R являются практически эквивалентными, предполагая то, что сама строка string
содержит корректные символы в указанной кодировке, то символы, изменяемые htmlspecialchars(), останутся на тех же местах во всех этих кодировках.
Поддерживаются следующие кодировки:
Кодировка | Псевдонимы | Описание |
---|---|---|
ISO-8859-1 | ISO8859-1 | Западно-европейская Latin-1. |
ISO-8859-5 | ISO8859-5 | Редкоиспользуемая кириллическая кодировка (Latin/Cyrillic). |
ISO-8859-15 | ISO8859-15 | Западно-европейская Latin-9. Добавляет знак евро, французские и финские буквы к кодировке Latin-1(ISO-8859-1). |
UTF-8 | 8-битная Unicode, совместимая с ASCII. | |
cp866 | ibm866, 866 | Кириллическая кодировка, применяемая в DOS. |
cp1251 | Windows-1251, win-1251, 1251 | Кириллическая кодировка, применяемая в Windows. |
cp1252 | Windows-1252, 1252 | Западно-европейская кодировка, применяемая в Windows. |
KOI8-R | koi8-ru, koi8r | Русская кодировка. |
BIG5 | 950 | Традиционный китайский, применяется в основном на Тайване. |
GB2312 | 936 | Упрощенный китайский, стандартная национальная кодировка. |
BIG5-HKSCS | Расширенная Big5, применяемая в Гонг-Конге. | |
Shift_JIS | SJIS, SJIS-win, cp932, 932 | Японская кодировка. |
EUC-JP | EUCJP, eucJP-win | Японская кодировка. |
MacRoman | Кодировка, используемая в Mac OS. | |
'' | Пустая строка активирует режим определения кодировки из файла скрипта (Zend multibyte),default_charset и текущей локали (см. nl_langinfo() и setlocale()), в указанном порядке. Не рекомендуется к использованию. |
Замечание: Остальные кодировки не поддерживаются, вместо них будет применена кодировка по умолчанию и сгенерировано предупреждение.
double_encode
Если параметр double_encode
выключен, то PHP не будет преобразовывать существующие html-сущности. По умолчанию преобразуется все без ограничений.
Преобразованная строка (string).
Если входная строка string
содержит неверную последовательность символов в указанной кодировке encoding
, то будет возвращаться пустая строка в случае, если флаги ENT_IGNORE
или ENT_SUBSTITUTE
не установлены.
Версия | Описание |
---|---|
5.4.0 | Значение по умолчанию для параметра encoding было изменено на UTF-8. |
5.4.0 | Добавлены константы ENT_SUBSTITUTE , ENT_DISALLOWED , ENT_HTML401 , ENT_XML1 , ENT_XHTML и ENT_HTML5 . |
5.3.0 | Добавлена константа ENT_IGNORE . |
5.2.3 | Добавлен параметр double_encode . |
4.1.0 | Добавлен параметр charset . |
Пример #1 Пример использования htmlspecialchars()
$new = htmlspecialchars("Test", ENT_QUOTES);
echo $new; // Test
?>
При переходе с версии php4 на php5 параметры кодеровки обязательны.