PHP si Unicode folosind UTF-8

Aug 11, 2009 PHP php6 unicode utf-8

Una dintre cele mai mari probleme legate de web este coadarea.

Pe vremuri standardul folosit de baza folosit era ISO 8859-1, unde erau definite 191 caractere latine, iar 1 caracter = 1B. Pentru limbi diferite erau folosite codari diferite, dar de aici pleaca multe probleme legate de portabilitate, posibilitatea de a acoperii un numar mai mare de limbi etc.

Problema apare cand un proiect trebuie sa fie disponibil in mai multe limbi, iar numarul limbilor nu este controlat. Un proiect cum este WordPress de exemplu trebuie sa poata fi folosit in orice limba.

Unicode este o alternativa mult mai buna pentru ISO 8859-1, acesta avand definite peste 100.000 caractere. Cu alte cuvinte cuprinde cam toate caracterele existente in orice limba.

Cum spuneam si la MySQL, caracterele UTF-8 au o lungime variabila intre 1 si 4B.

Afisarea de continut UTF-8 in paginile PHP

Pentru ca browserul sa interpreteze continutul unei pagini in format UTF-8, acesta trebuie sa primeasca header-ele potrivite:

1<?php header("Content-type: text/html; charset=utf-8");?>

Atentie! Headerul trebuie sa fie primele lucruri trimise catre server! Adica trebuie sa fie primul lucru afisat pe pagina.

Tipul documentului se poate specifica si prin meta-ul “Content-Type”. Daca mai exista un tag meta similar in pagina acesta trebuie scos si inlocuit cu:

1<meta http-equiv="Content-Type" content="text/html; charset=utf-8">

**Fisierul .htaccess si procesarea stringurilor
**

Adaugati in fisierul .htaccess (pentru serverul Apache) urmatoarele linii:

1# charset-ul default folosit de PHP
2php_value default_charset utf-8
3# codarea pentru mbstring
4php_value mbstring.internal_encoding utf-8
5php_value mbstring.func_overload 7

Prima linie seteaza charset-ul default pentru PHP, acesta poate sa nu fie setat din php.ini.

A doua si a treia linie linie seteaza functile mbstring (multi byte string).

Folosind UTF-8, cum spuneam si mai sus 1 caracter != 1B, iar de aici pot aparea erori:

1$var = 'aşadar';
2
3echo strlen($var).PHP_EOL; // 7
4echo strtoupper($var).PHP_EOL; // AşADAR
5
6// folosind functii mbstring
7echo mb_strlen($var).PHP_EOL; // 6
8echo mb_strtoupper($var).PHP_EOL; // AŞADAR

De asta am setat mai sus modul pentru mbstring folsind fisierul .htacess. Continutul introdus prin formulare trebuie procesat folosind functii mbstring, pentru a evita probleme ca cele de mai sus.

Functiile disponibile sunt in manual.

Codare continut vechi

Exista multe moduri de a converti continut ISO 8859-1 in UTF-8. Doua dintre solutiile de conversie puse la dispozitie de PHP sunt:

– functia iconv() care converteste dintr-un format in altul:

1echo iconv("ISO-8859-1", "UTF-8", "Test");

– functia utf8_encode() care converteste din ISO 8859-1 in UTF-8:

1echo utf8_encode("Test");

Ce ne rezerva viitorul?

Mult asteptatul PHP6 va avea suport nativ pentru Unicode, deci toate trucurile de mai sus nu vor mai fi necesare. In momentul cand scriu acest blog PHP 6 este gata 70.70%, iar cu putin noroc va fi gata in mai putin de un an.