OCR zijn die van optische tekenherkenning of worden in het Spaans ook wel optische tekenherkenning genoemd. OCR is software die tekstherkenning mogelijk maakt, er een afbeelding van produceert om deze om te zetten in een reeks tekens en ze vervolgens opslaat in een bepaald formaat dat kan worden gebruikt in die tekstbewerkingsprogramma's. Met andere woorden, dankzij deze nieuwe technologie kan elk type tekst of document, waaronder pdf-bestanden, gescande documenten of zelfs afbeeldingen van digitale camera's, worden omgezet in gegevens om zo te kunnen worden bewerkt.
Deze software werkt op de volgende manier, eerst analyseert het elk deel van de afbeelding van het document in kwestie; verdeel de pagina in stukjes zoals tabellen, afbeeldingen, tekstblokken onder anderen; dan worden de regels in woorden verdeeld om later karakters te worden; en aangezien de karakters al zijn aangegeven, maakt de software de vergelijking met een groep afbeeldingen van het patroon. Dit gaat verder volgens de reeks hypothesen over wat elk personage is; en op basis van deze hypothesen analyseert het de verschillende varianten van het breken van regels in woorden en woorden in karakters. En het is na een groot aantal analyse en verwerking van de hypothesen, dat het programma eindelijk de reeds herkende en getransformeerde tekst presenteert met een nieuw formaat.
Opgemerkt moet worden dat er tegenwoordig een aantal programma's is die de computermarkt aanbiedt op basis van OCR, zoals OmniPage, Abbyy Fine Reader of READiris. YY die niet alleen een tekst als zodanig kunnen analyseren en herkennen, maar ook het formaat en de stijl kunnen herkennen, maar met bepaalde beperkingen, waardoor de tekst na analyse moet worden bewerkt om de aanpassingen te maken vereisen.