Claudiu Persoiu

Blog-ul lui Claudiu Persoiu


Archive for 11 August 2009

PHP si Unicode folosind UTF-8

without comments

Una dintre cele mai mari probleme legate de web este coadarea.

Pe vremuri standardul folosit de baza folosit era ISO 8859-1, unde erau definite 191 caractere latine, iar 1 caracter = 1B. Pentru limbi diferite erau folosite codari diferite, dar de aici pleaca multe probleme legate de portabilitate, posibilitatea de a acoperii un numar mai mare de limbi etc.

Problema apare cand un proiect trebuie sa fie disponibil in mai multe limbi, iar numarul limbilor nu este controlat. Un proiect cum este WordPress de exemplu trebuie sa poata fi folosit in orice limba.

Unicode este o alternativa mult mai buna pentru ISO 8859-1, acesta avand definite peste 100.000 caractere. Cu alte cuvinte cuprinde cam toate caracterele existente in orice limba.

Cum spuneam si la MySQL, caracterele UTF-8 au o lungime variabila intre 1 si 4B.

Afisarea de continut UTF-8 in paginile PHP

Pentru ca browserul sa interpreteze continutul unei pagini in format UTF-8, acesta trebuie sa primeasca header-ele potrivite:

<?php header("Content-type: text/html; charset=utf-8");?>

Atentie! Headerul trebuie sa fie primele lucruri trimise catre server! Adica trebuie sa fie primul lucru afisat pe pagina.

Tipul documentului se poate specifica si prin meta-ul “Content-Type”. Daca mai exista un tag meta similar in pagina acesta trebuie scos si inlocuit cu:

<meta http-equiv="Content-Type" content="text/html; charset=utf-8">

Fisierul .htaccess si procesarea stringurilor

Adaugati in fisierul .htaccess (pentru serverul Apache) urmatoarele linii:

# charset-ul default folosit de PHP
php_value default_charset utf-8
# codarea pentru mbstring
php_value mbstring.internal_encoding utf-8
php_value mbstring.func_overload 7

Prima linie seteaza charset-ul default pentru PHP, acesta poate sa nu fie setat din php.ini.

A doua si a treia linie linie seteaza functile mbstring (multi byte string).

Folosind UTF-8, cum spuneam si mai sus 1 caracter != 1B, iar de aici pot aparea erori:

$var = 'aşadar';

echo strlen($var).PHP_EOL; // 7
echo strtoupper($var).PHP_EOL; // AşADAR

// folosind functii mbstring
echo mb_strlen($var).PHP_EOL; // 6
echo mb_strtoupper($var).PHP_EOL; // AŞADAR

De asta am setat mai sus modul pentru mbstring folsind fisierul .htacess. Continutul introdus prin formulare trebuie procesat folosind functii mbstring, pentru a evita probleme ca cele de mai sus.

Functiile disponibile sunt in manual.

Codare continut vechi

Exista multe moduri de a converti continut ISO 8859-1 in UTF-8. Doua dintre solutiile de conversie puse la dispozitie de PHP sunt:

– functia iconv() care converteste dintr-un format in altul:

echo iconv("ISO-8859-1", "UTF-8", "Test");

– functia utf8_encode() care converteste din ISO 8859-1 in UTF-8:

echo utf8_encode("Test");

Ce ne rezerva viitorul?

Mult asteptatul PHP6 va avea suport nativ pentru Unicode, deci toate trucurile de mai sus nu vor mai fi necesare. In momentul cand scriu acest blog PHP 6 este gata 70.70%, iar cu putin noroc va fi gata in mai putin de un an.

Written by Claudiu Persoiu

11 August 2009 at 10:40 AM

Posted in PHP

Tagged with , , ,

MySQL si Unicode folosind UTF-8

without comments

O data cu globalizarea, batranul cod ASCII nu mai este potrivit. Ganditi-va ca intr-o buna zi trebuie sa dezvoltati un proiect in germana, rusa sau chiar japoneza, puteti adapta characterset-ul pentru fiecare din aceste limbi sau puteti pur si simplu sa-l dezvoltati folosind Unicode.

Pentru a folosi Unicode cu MySQL se poate folosi UTF-8.

Trebuie sa retineti ca caracterele UTF-8 au o marime variabila si sunt compatibile ASCII. In ASCII 1 caracter = 1B, in UTF-8 1 caracter poate avea intre 1 si 4 B.

Charset si collation UTF-8 pe server

In MySQL tipul caracterelor este dictat de charset.

Pentru a vedea daca este instalat pe server:

SHOW CHARSET LIKE 'utf8';

sau cu information_schema

SELECT * FROM `CHARACTER_SETS` WHERE CHARACTER_SET_NAME = 'utf8';

Daca a fost gasit charset-ul atunci putem continua.

Un alt element care apare la charset este collation, acesta se foloseste in comparatii intre string-uri la ordonare.

Pentru a vedea ce “collation” sunt disponibile pe server:

SHOW COLLATION WHERE CHARSET = 'utf8';

sau cu information_schema

SELECT * FROM `COLLATIONS` WHERE CHARACTER_SET_NAME = 'utf8';

Collation este in functie de limba in principiu, pentru a putea compara stringuri cu sau fara diacritice de exemplu, sau se mai poate folosi cel “bin” care va face ordonarea in mod binar, adica “A” este mai mare decat “a” de exemplu.

Daca nu se va specifica collation, atunci se va folosi cel marcat ca default.

UTF-8 si baza de date

La crearea unei baze de date se poate specifica charset-ul default care se va folosi la toate tabelele noi la care nu este specificat charset-ul.

De exemplu:

CREATE DATABASE db_name CHARACTER SET utf8 COLLATE utf8_romanian_ci;

Sau pentru a modifica characterset-ul default la o baza de data deja existenta:

ALTER DATABASE db_name CHARACTER SET utf8 COLLATE utf8_romanian_ci;

UTF-8, tabelele si coloanele

Pentru a modifica tabelele deja existente se foloseste ALTER TABLE.

Un tabel poate avea un charset si un collation default iar fiecare coloana poate avea propriul charset si collation.

Pentru a vedea mai multe detalii despre un tabel se pot folosi:

SHOW CREATE TABLE tab;

Pentru a seta un charset pe un table existent:

ALTER TABLE tab CHARSET = utf8 COLLATE = utf8_romanian_ci;

Pentru a modifica charset-ul pe o coloana de timpul VARCHAR(200) se foloseste:

ALTER TABLE tab MODIFY c1 VARCHAR(200) CHARSET utf8 COLLATE utf8_romanian_ci;

Marimea stringurilor

O “problema” care poate aparea este legata de marimea unui caracter, acesta poate avea marimea intre 1 si 4B. De asta pentru masurarea unui camp care are un string (cum ar fi un varchar) trebuie folosita CHAR_LENGTH(str) si nu LENGTH().

Un mic exemplu:

SET @var = 'aşadar';
SELECT CHAR_LENGTH(@var) AS 'Char', LENGTH(@var) AS 'Length';

// Rezulta: Char = 6 si Length = 7 pentru ca ş ocupa 2B

Written by Claudiu Persoiu

10 August 2009 at 1:40 PM

Posted in MySQL

Tagged with , , ,

Generare manual .CHM pentru Zend Framework folosind HTML Help Workshop

without comments

Daca esti ca mine preferi manualele in format CHM.

Din pacate Zend Framework are manualul doar in .pdf si ceva mai putin evident in format HTML.

Din fericire generarea unui manual in format CHM este foarte simpla (serios, chiar este).

Pasii sunt:

1. Descarca si intaleaza HTML Help Workshop.

2. Descarca manualul in format HTML de la Zend Framework, link-ul este in dreapta jos, nu foarte evident dupa parerea mea.

3. Deschideti HTML Help Workshop.

4. File->Open din directorul unde se afla fisierele manualului fisierul htmlhelp.hhp

5. File->Complile

Gata!

Manualul CHM este doar la cativa pasi de a fi compliat!

Written by Claudiu Persoiu

9 August 2009 at 10:41 PM

PHP observer pattern si SPL

without comments

Observer pattern se refera la un obiect “subiect” care are asociata o lista de obiecte dependente, numite observatori, pe care le apeleaza automat de fiecare data cand se intampla o actiune.

Un mic exemplu de ce se foloseste:

– sa zicem ca avem o clasa pe care se fac niste modificari:

class Actiune {
    private $val;
    function __construrct() {
        // ceva cod in constructor
    }

    function change($val) {
        $this->val = $val;
    }
}

De fiecare data cand se face modifica $val vrem sa se apeleze o metoda a unui obiect “observator”:

class Actiune {
    private $val;
    function __construrct() {
        // ceva cod in constructor
    }

    function change($val, $observator) {
        $this->val = $val;
        $observator->update($this);
    }
}

Teoretic nu suna rau, dar cu cat sunt mai multe metode cu atat exista o dependenta mai mare si de fiecare data cand se adauga un obiect nou de tip observator trebuie modificata clasa, avand toate sansele sa rezulte intr-un haos aproape imposibil de portat.

Acum observator pattern arata cam asa:

diagrama

SPL (Standard PHP Library), care este bine cunoscut pentru iteratorii definiti, vine cu interfetele SplSubject si SplObserver, pentru subiect respectiv observator.

O implementare arata cam asta:

/**
 * clasa care trebuie urmarita
 */
class Actiune implements SplSubject {
    private $observatori = array();
    private $val;

    /**
     * metoda atasare obiect observator
     *
     * @param SplObserver $observator
     */
    function attach(SplObserver $observator) {
        $this->observatori[] = $observator;
    }

    /**
     * metoda deatasare obiect observator
     *
     * @param SplObserver $observator
     */
    function detach(SplObserver $observator) {
        $observatori = array();
        foreach($this->observatori as $observatorul) {
            if($observatorul != $observator) $observatori[] = $observatorul;
        }
        $this->observatori = $observatori;
    }

    /**
     * metoda care notifica obiectele de tip observator
     */
    function notify() {
        foreach($this->observatori as $observator) {
            $observator->update($this);
        }
    }

    /**
     * metoda care face modificarea in clasa
     *
     * @param int $val
     */
    function update($val) {
        echo 'facem update...
';
        $this->val = $val;
        $this->notify();
    }

    /**
     * metoda publica care intoarce statusul obiectului
     *
     * @return int
     */
    function getStatus() {
        return $this->val;
    }
}

/**
 * o clasa observator
 */
class Observator implements SplObserver {
    function update(SplSubject $subiect) {
        echo $subiect->getStatus();
    }
}

// instanta observator
$observator = new Observator();

// instanta subiect
$subiect = new Actiune();

// atasare observator la subiect
$subiect->attach($observator);

// update subiect
$subiect->update(5);

Ce mi se pare mie ciudat este ca nu exista o documentatie pentru aceste interfetele din SPL. Chiar pe site-ul zend exista un articol PHP Patterns: The Observer Pattern care nu foloseste SPL, iar asta in masura in care exista documentatie pentru namespaces chiar inainte sa apara PHP 5.3.

Written by Claudiu Persoiu

4 August 2009 at 6:52 PM

JavaScript Games

without comments

Astazi este lansata oficial sectiunea de jocuri JavaScript! Jocurile au fost facute de curand, dupa modelul unor jocuri clasice.

Am inceput primul joc ca sa-i demonstrez unui prieten ca se pot face si astfel de aplicatii in JavaScript. Si pana la urma asta este una dintre ideile principale a le sectiunii: interactivitate in browser folosind doar HTML, CSS si evident JavaScript!

Astazi le fac publice pentru ca este pacat sa nu ofer si altora ocazia sa piarda vremea jucandu-se :).

Jocurile ar trebuie sa functioneze cross-browser, nu au HTML 5 sau alte lucruri care pot duce la incompatibilitate. Trebuie doar sa evidentieze puterea JavaScript, fara alte unelte sofisticate.

Multe dintre jocuri nu sunt bine finisate, dar sper ca in timp voi mai rezolva din problemele lor, voi mai adauga facilitati noi si evident alte jocuri. Daca aveti sugestii sau probleme, va rog trimiteti un mail la claudiu@claudiupersoiu.ro.

Distractie placuta!

Written by Claudiu Persoiu

2 August 2009 at 7:14 PM

PHP Romanian stemmer class

without comments

Pentru ca aveam nevoie de un stemmer pentru romana la un moment dat, pentru Zend Search Lucene, si se pare ca nu exista asa ceva in PHP, am realizat unul.

Pagina este aici, si comparand clasa PHP rezultata cu un dictionar al algoritmului realizat in snowball, dupa care aceasta clasa a fost facut, pentru ca am incercat sa fac clasa sa functioneze si fara diacritice, eroarea generala a mai crescut cu aproximativ 3%, dar ramanand sub 5% pe intregul dictionar de 22570 cuvinte.

Ca o nota, fisierul clasei trebuie deschis cu un editor UTF-8, altfel diacriticele vor disparea din fisier.

Enjoy it!

Written by Claudiu Persoiu

1 August 2009 at 1:47 PM

Posted in PHP

Tagged with , ,