Izrađena je CSV datoteka s podacima za učenje.
Primjer datoteke:
0.020750,0.397349,0.093680,0.095192,0.091558,0.095130,0.070817,0.808820,0.323488,0.585612,0.013106,0.032234,0.211226,JPG 0.036282,0.131566,0.058351,0.001613,0.007259,0.003279,0.168669,0.959480,0.119376,0.125695,0.032234,0.062128,0.093143,JPG 0.013559,0.126013,0.080064,0.274000,0.231599,0.039639,0.128541,0.676648,0.041617,0.012520,0.020784,0.015086,0.925766,JPG
Redci te datoteke su rezultati izvođenja testova na blokovima od 4096 bajta podataka. Prvi blok svake datoteke se preskače (header). Stupci te datoteke su 13 testova (float brojevi) te poseban stupac koji označava kategoriju.
Ta datoteka se učita i njome se istrenira klasifikator K najbližih susjeda. Nakon toga je klasifikator spreman za klasificiranje nepoznatih podataka.
Ocjenu rada klasifikatora možemo dobiti i iz samih podataka korištenih za učenje. Korišten je 10-fold cross validation.
Klasifikator je pokazao da su mu točnosti sljedeće (postotak točno klasificiranih).
JPG: 0.78 MP3: 0.83 TXT: 0.93 RAR: 0.80 PDF: 0.74 PNG: 0.86
Slijede prikazi rada nad pojedinim nepoznatim datotekama. Svaki blok datoteke (4K) je klasificiran, a rezultati su sljedeći:
JPG: 271 TXT: 193 MP3: 872 RAR: 22 PDF: 790 PNG: 80 Točno klasificirano.
JPG: 4 TXT: 5 MP3: 9 RAR: 2 PDF: 20 PNG: 6 Netočno klasificano.
JPG: 4 TXT: 392 MP3: 103 RAR: 1 PDF: 3 Točno klasificirano.
JPG: 111 TXT: 8 MP3: 47 RAR: 80 PDF: 71 PNG: 16 Točno klasificirano.
JPG: 46 MP3: 18 TXT: 5 RAR: 50 PDF: 42 PNG: 8 Točno klasificirano.
JPG: 32 TXT: 37 MP3: 66 RAR: 15 PDF: 78 PNG: 17 Točno klasificirano.