Slijede razlike između dviju inačica stranice
Starije izmjene na obje strane Starija izmjena Novija izmjena | Starija izmjena | ||
studenti:zad_deljkic:zd-zr-start [2015/06/05 11:36] zdeljkic |
studenti:zad_deljkic:zd-zr-start [2023/06/19 16:21] (trenutno) |
||
---|---|---|---|
Redak 2: | Redak 2: | ||
==== Programski alati za automatsko mapiranje tematskih područja ==== | ==== Programski alati za automatsko mapiranje tematskih područja ==== | ||
+ | |||
+ | {{:studenti:zad_deljkic:zavrsni.pdf|Tekst rada}} i {{:studenti:zad_deljkic:prezentacija_zr.odp|prezentacija}}. | ||
+ | |||
//Software tools for automatic mapping of subject areas// | //Software tools for automatic mapping of subject areas// | ||
Redak 19: | Redak 22: | ||
- Napraviti i dokumentirati što veći broj različitih transformacija | - Napraviti i dokumentirati što veći broj različitih transformacija | ||
- Napisati detaljne upute za izradu transformacija - od izrade Python skripte do integriranja u NetGlub sistem | - Napisati detaljne upute za izradu transformacija - od izrade Python skripte do integriranja u NetGlub sistem | ||
- | - puno o izradi transformacija za netglub se može naučiti iz resursa za Maltego ([[https://www.paterva.com/web6/documentation/developer-local.php|primjer]]) - jer na kraju krajeva Netglub je baš kopija Maltega | + | - puno o izradi transformacija za netglub se može naučiti iz resursa za Maltego ([[https://www.paterva.com/web6/documentation/developer-local.php|primjer]]) - jer na kraju krajeva Netglub je baš kopija Maltega |
- <del>Uspješno prevesti i pokrenuti klijent-a na Windows OS-u, napisati upute za to</del> | - <del>Uspješno prevesti i pokrenuti klijent-a na Windows OS-u, napisati upute za to</del> | ||
- <del>Isprobati cijeli sistem preko mreže - master i slave(ovi) na Ubuntu OS-u, klijenti na Ubuntu i Windows OS-u</del> | - <del>Isprobati cijeli sistem preko mreže - master i slave(ovi) na Ubuntu OS-u, klijenti na Ubuntu i Windows OS-u</del> | ||
Redak 73: | Redak 76: | ||
==== Transformacije ==== | ==== Transformacije ==== | ||
+ | U sve transformacije bi trebalo implementirati mehanizam da ne "zaspammaju" stranice koje pretražuju - primjerice ako tražimo članke s nekom temom iz samo 2015 godine, mogli bi pretražiti 1000 stranica Google Scholara i naći samo par rezultata. Ukoliko je korisnik zadao da npr. pronađemo 20 takvih rezultata, transformacija ih ne smije beskonačno tražiti već pretražiti razumnu/"pristojnu" količinu. | ||
**Gotove transformacije:** | **Gotove transformacije:** | ||
Redak 130: | Redak 134: | ||
* Ne znam još koju točno grešku baca, znam samo po source-u koje ne baca (0, 1, 2 sa popisa) | * Ne znam još koju točno grešku baca, znam samo po source-u koje ne baca (0, 1, 2 sa popisa) | ||
* Transformacija PersonToEmailSE ima par greška: | * Transformacija PersonToEmailSE ima par greška: | ||
- | * vraća dobre rezultate za "john smith" ali ne i za "John Smith" -> ubaciti pretvaranje u lowercase prije | + | * vraća dobre rezultate za "john smith" ali ne i za "John Smith" → ubaciti pretvaranje u lowercase prije |
* values = [v.lower() for v in values] nakon values | * values = [v.lower() for v in values] nakon values | ||
- | * kad se dogodi exception ne napravi ništa (pass) i nastavi dalje, to obično znači da je zaspammo google servere i javljaju mu grešku | + | * regex za email u dijeli koji matcha domenu bez top dijela treba biti greedy (pretvorit *? u samo *) |
- | * treba se zaustaviti (break umjesto pass) i napisati neki error (write_error("too many request in a short period of time")) | + | * inače će e-mail primjer@pod.domena.com prepoznati kao primjer@pod.domena |
+ | * kad se dogodi exception ne napravi ništa (pass) i nastavi dalje, expection mogu biti razne greške, u najmanju ruku treba ispisati poruku - ali ne sa write_error jer takvo ispisivanje implicira prekid transformacije | ||
=== Sigurnost === | === Sigurnost === | ||
Redak 164: | Redak 169: | ||
\\ | \\ | ||
+ |