Rezumatul proiectului

Acest proiect se incadreaza in domeniul clasificarii automate a documentelor text si isi propune imbunatatirea rezultatelor clasificarii prin  realizare unor strategi de combinare a rezultatelor metodelor de clasificare folosite.

Un numar impresionant de documente se gasesc in format electronic, iar utilizatorul are nevoie de componente de clasificare automata a acestora pentru a le putea gestiona. Gestiunea lor a devenit o problema foarte importanta in ultima perioada. Devine esentiala existenta unor programe inteligente de organizare automata a documentelor in categori pentru a facilita analiza si prelucrarea acestor documente. Datorita domeniului foarte vas in care ar trebui sa lucreze acestea, devine dificil de realizat un singur clasificator cu performante foarte bune. Abordarea actuala este de a utiliza mai multi clasificatori de diferite tipuri combinati intr-un metaclasificator sau realizarea unei clasificari hibride care se bazeaza pe predictia clasificatorului cel mai bun pentru o problema particulara folosind caracteristicilor vectorilor de intrare ale documentelor si istoria clasificarilor. Avand mai multi clasificatori de baza, de tipuri diferite (SVM - Support Vector Machine, Bayes, retele neurale, etc), ideea este de a invata un metaclasificator care prezice gradul de corectitudine pentru fiecare dintre clasificatorii de baza. Metaetichetarea unei instante indica increderea in clasificarea facuta de acesta, daca instanta este clasificata corect de catre acel clasificator dintre toti ceilalti clasificatori utilizati. Regula de clasificare a metaclasificatorului este ca fiecare clasificator de baza sa atribuie o clasa la instanta curenta si apoi metaclasificatorul sa decida daca clasificarea este demna de incredere sau nu. Pe langa cresterea acuratetei de clasificare, prin exploatarea sinergismului mai multor clasificatoare, un alt avantaj al metaclasificarii consta in posibilitatea de exploatare a paralelismelor functionale (multiprocesor)