Romāni
Latviešu prozas skaitītājā aplūkojami dati par 19. un 20. gs. latviešu valodā sarakstītajiem romāniem. Romānu korpusa veidošana uzsākta ar senākajiem latviešu romāniem, tāpēc tie visplašāk pārstāvēti Skaitītājā izmantotajā datu kopā. Pašlaik pilnībā apstrādāti visi izdevumi, kas grāmatas formā pirmo reizi izdoti līdz 1920. gadam.
Korpusa veidošana ietver vairākus posmus - grāmatu skenēšanu, segmentēšanu, optisko atpazīšanu, kļūdu labošanu, teksta morfoloģisko marķēšanu, korpusa metadatu veidošanu. Latviešu senākie romāni prasījuši īpaši daudz rūpīga darba - mēs esam izmantojuši mašīnmācīšanās metodes, lai uzlabotu vecās drukas atpazīšanas kvalitāti, kā arī esam pārveidojuši veco druku jaunajā rakstībā, lai būtu iespējams izmantot modernos valodas apstrādes rīkus. Daudzi no senākajiem latviešu romāniem nekad nav tikuši atkārtoti izdoti jaunajā drukā, un ļoti maz cilvēku mūsdienās ir tos lasījuši.