er den primære Document Imaging værktøj. Det er en anordning, der konverterer papir billeder, trykt tekst, håndskrift eller endda et objekt som et ornament i et digitalt billede. En scanner læser rød-grøn-blå farve (RGB) data, og disse data behandles derefter med scanneren algoritme til at foretage justeringer til forskellige eksponeringsforhold.
Billedkvaliteten afhænger farvedybde, opløsning og tæthed, samt kvaliteten af algoritmen. Fortsat forskning har finjusteret den algoritme i det omfang, at billederne nu kan være bedre end originalerne. OCR
eller Optical Character Recognition er en teknologi til konvertering af billeder af tekstdokumenter i maskinlæsbar tekst. Selv om der er opnået en høj grad af nøjagtighed i at anerkende trykt eller maskinskrevet tekst, evnen til at genkende forskellige former for håndskrift er stadig imperfect.
A menneskelig gennemgang er normalt nødvendig for at sikre 100 procent nøjagtighed de konverterede document.Computer systemer gemme det scannede billeder af dokumenter, konverteres til maskinlæsbare tekst i deres repositories. Men hvordan kan nogen af disse særlige dokumenter hurtigt hentet? Hvis antallet af dokumenter er få, dette kan ikke være sådan et problem. Men når dette nummer løber ind tusinder eller millioner, finde et bestemt dokument ganske vist blevet en problem.It er her, at indeksering
kommer ind i billedet.
Indeks data knyttet til de dokumenter tillade søgemaskine stil forespørgsler, der skal udføres for at finde bestemte dokumenter fra blandt massen af lagrede documents.Search-motor indeksering kan være så simpelt som fuldtekst indeksering - hvor hvert ord i et dokument er indekseret --or søgeord eller tag indeksering, hvor kun nogle få tags knyttet til dokumentet indekseres. Disse tags er udvalgt til korrekt at identificere indholdet af document.Tag indeksering antager, at alle relevante tags vil blive knyttet til hvert dokument.
Hvis dette ikke er tilfældet, kan dokumentet ikke findes, selv når det er relevant for mange søgning queries.Even billeder og andre former for ikke-tekstfiler kan mærkes og indexed.Beyond hjælp dokument billeddiagnostiske værktøjer til at producere digitalt indhold - billeder eller tekst - Document Imaging værktøjer findes også at producere