Optical Character Recognition (OCR) är en datainmatningsexpert teknik som använder en specifik typsnitt och ett OCR-scanner för att läsa den teckenuppsättning och skicka det till din dator. American National Standards Institute, eller ANSI, definierar typsnitt som en uppsättning tecken 0-9, A till Z, och några specialtecken, vardera innehållande en definierad storlek och form. OCR-teckensnitt är reproducerbara, och människor och OCR-scanners kan läsa och skilja dem
kategorier
OCR skannrar är antingen textigenkänning eller Data Capture skannrar. Textinmatning skannrar läsa hela dokumentet, eller åtminstone stora delar av den. Uppgifter kan bli matade eller skannern kan ha automatiska data utfodring, läsning, sortering och stapling kapacitet. När du använder en inmatning skanner tar redigering rum antingen under eller efter skanning. Data Capture skannrar fånga och formatera data över skanningen, och ingen människa redigering av data sker. På grund av detta måste Data Capture scanners vara mer exakt.
Typer
Scanner typer kan stationär eller bärbar. Stationär skannrar, såsom flak, arkmatade och trumskannrar använder främst textinmatning för att läsa, bearbeta och lagra data bilder på datorn, där du sedan kan redigera eller på annat sätt formatera tagna texten. Handhållna scanners, som digitala pennor eller streckkodsläsare, antingen använda textigenkänning eller Data Capture att läsa och bearbeta data information och sedan lagra den för senare redigering, eller "lås" data för att förhindra redigering.
Metoder
Kortfattat, tar ett OCR scanner en bild av dokumentet och sedan OCR skannerprogramvaran tittar på OCR-teckensnitt bilden innehåller och sedan läser och omvandlar den till text med hjälp av antingen en Matrix matchande eller feature extraction metod. Matrix Matchande är en form av mönstermatchning där skannern ser på en karaktär och matchar det till en i sitt bibliotek av tecken eller karaktär mallar. Feature extraction är inte beroende av en fördefinierad biblioteket, men i allmänna funktioner såsom öppna ytor, slutna former, och korsande linjer när dechiffrera tecken. Feature extraction går även under namnet Intelligent Character Recognition, eller ICR.
Fördelar
Den mest betydande fördelen med att använda ett OCR-skanner är att eliminera mänskliga datainmatning fel. OCR skannrar läsa data i hastigheter som kan nå över 200 tecken per sekund. Noggrannheten satsen för en OCR scannern är 99,9975 procent, eller ett tecken misstolkat på 40. 000, jämfört med en mänsklig misstolka hastighet av en i 300 tecken. Automatisk kontrollsiffra validering kan föra OCR-precision till mindre än en på 3. 000. 000.
Överväganden
Dålig kvalitet original kommer att resultera i mindre noggrann OCR dokument. Handskrivna dokument, dokument som innehåller formaterad text, äldre handlingar, fotokopior och mest faxade dokument inte fungerar bra med OCR skannrar. Rekommendationer för godtagbara dokument inkluderar tryckt text i ett typsnitt storlek mindre än 72 punkter, laser-och bläckstråleskrivare text, faxa dokument med 200 punkter per tum (dpi) eller högre upplösning och kommersiellt tryckt material såsom böcker, broschyrer och tidningar.