Nema sanse... Pazi probleme :
- Batrić Luka - imaš 50% šansi da pogodiš šta je ime šta prezime, jer oba mogu da budu oba...
- Pola njih nema titulu. Garant. Oni koji imaju mogu imati "prof dr sci med" na primer, sa ili bez tackica.... to je kucao ko je stigao, a i ovo je realna titula.
- Dva prezimena, sa ili bez crtice. Možda i tri, imao sam poznanicu koja je imala tri prezimena.... (devojacko, od prvog, pokojnog muza, sa kojim je imala dete, i od drugog muza).
- Dva imena, spojeno ili odvojeno. Znao sam jednu Ana Mariju na primer....
Na sve to, tu nema sanse da to radi neko iz Indije, ko ne zna jezicke norme jezika koji se obradjuje. Za svaki jezik mora neko ko je native speaker.
Otprilike algoritam:
- Privhatiti da ce biti par procenata greske
- Izbaciti duplikate iz ime/prezime, ako ih nije previse.
- Izabrati sve koje imaju dva stringa, proveriti da li su oba u wordlistama za ime i prezime. Ako jesu, obraditi tako (da, bice greski...)
- Izabrati sva prezimena koja nisu od ovakvih, proveriti da li ima crtica. Ako ima probati da li odvojeni delovi imaju smisla u listi prezimena, ili listi imena.
- Izabrati tri stringa, probati da li ima dva prezimena, ili dva imena.
- Iz preostalih sa tri stringa proveriti da li ima jedna titula, sa spiska titula. Spisak napuniti svim kombinacijama (mala, velika, sa i bez tacke, ing i inž....)
- Izabrati 4 stringa, probati varijante "titula, ime, dva prezimena", jer to nije toliko retko.
- Proveriti multi-string "multi whitespaces" titule u preostalima, i videti da li ostaju samo smisleno ime i prezime, ili ime prezime-prezime ili ime prezime prezime.
- Sve ostalo ostaviti za rucnu obradu, nekome ko je native speaker, ako ume da pogodi... Najbolje onome sto je sistem dizajnirao, poneti gorepomenutu kuglu. :D
Ocekivati greske. :D
Please do not feed the Trolls!
Blasphemy? How can I blaspheme? I'm a god!'