- Favicon
- Обучаем вместе с Tesseract OCR
- 0. Что нам нужно
- 1. Создаём и редактируем box-файл
- tessdoc
- Tesseract documentation
- Tesseract User Manual
- Introduction
- Releases and Changelog
- 4.0 with LSTM
- Traineddata Files
- Training for Tesseract 4
- Source Code
- Binaries
- Traineddata Files
- Распознавание текста с картинки. Python Tesseract ORC + OpenCV
- Что сделаем за урок?
- Установка библиотеки
- Разработка проекта
- tessdoc
- Tesseract documentation
- GUIs and Other Projects using Tesseract OCR
- 1. GUIs
- 2. Online OCR services
- 3. Mobile
- 4. Others (Utilities, Tools, Command-Line Interfaces [CLI], etc)
- A. PDF to Searchable PDF tools
- B. Others:
- IMPACT related
Favicon
Блог по web технологиям. Веб студия г. Воронеж. Создание и поддержка сайтов на заказ.
- Главная
- /
- Разное
- /
- Обучаем вместе с Tesseract OCR
Обучаем вместе с Tesseract OCR
Tesseract — свободная платформа для оптического распознавания текста, исходники которой Google подарил сообществу в 2006 году. Если вы пишете софт для распознавания текста, то вам наверняка приходилось обращаться к услугам этой мощной библиотеки. И если она не справилась с вашим текстом (а скорее всего это именно так), то выход у вас остаётся один — научить её. Процесс этот достаточно сложный и изобилует не очевидными, а порой и прям-таки магическими действиями.
Оригинальный проект находится на гитхабе, а скачать установщик можно здесь, На момент написания статьи версия установщика была 3.05.01. Мне понадобилось немало времени на постижение всей его глубины, поэтому я решил написать что и как, вдруг забуду что-то в будущем, а также чтобы помочь другим пройти этот путь в следующий раз быстрее.
0. Что нам нужно
- Tesseract собственно.
Сборки этой библиотеки есть под windows (можно скачать установщик отсюда) и под linux. Для большинства linux-дистрибутивов установить tesseract можно просто через sudo apt-get install tesseract-ocr.
- Изображение с текстом для тренировки
Желательно чтобы это был реальный текст, который потом придётся распознавать. Важно, чтобы каждый символ шрифта встречался в сканированном фрагменте не менее 5 раз, а желательно — 20 раз. Использовать будем формат tiff, без сжатия, желательно не многостраничный, но можно и многостраничный. Создать многостраничный tiff можно с помощью просмотрщика IrfanView .
Между всеми символами должны быть чётко различимые промежутки. Кладём наше изображение в отдельную директорию и называем в виде . .exp .tif. Изображение может быть не одно и отличаться они должны только номером в наименовании файла. Формат наименований файлов очень важен. На файлы с неверными наименованиями утилиты, которые мы будем использовать будут ругаться ошибками сегментирования и т.п. Для определённости будем считать, что изучаем мы язык ссс и шрифт eee. Таким образом называем файл со сканом тренировочного образца ccc.eee.exp0.tif
1. Создаём и редактируем box-файл
Для того чтобы отметить символы на изображении и задать им соответствие utf-8 символам текста служат box-файлы. Это обычные текстовые файлы, в которых каждому символу соответствует строка с символом и координатами прямоугольника в пикселях. Первоначально файл генерируем утилитой из пакета tesseract:
tesseract ccc.eee.exp0.tif ccc.eee.exp0 batch.nochop makebox
получим файл
в текущей директории. Заглянем в него. Да, чуть не забыл, не забудьте прописать адрес установленной Tesseract-OCR в переменную среды Path в windows, иначе команда tesseract не будет работать в консоли.
Символы в начале строки полностью соответствуют символам в файле? Если это так, то тренировать ничего не нужно, вы можете спать спокойно. В нашем случае скорее всего символы не будут совпадать ни по существу ни по количеству. Т.е. tesseract со словарём по умолчанию не распознал не только символы, но и посчитал некоторые из них за два или больше. Возможно часть символов у нас «слипнется», т.е. попадёт в общую коробку и будет распознано как один. Это всё нужно поправить прежде чем идти дальше.
Работа нудная и кропотливая, но к счастью для этого есть ряд сторонних утилит. Я например пользовался jTessBoxEditor. Открываем им изображение, box-файл с таким же именем он сам подтянет (главное чтобы всё лежало в одной папке).
Переходим на вкладку Box Editor перетаскиваем туда наше изображение, либо жмем Open . Поигравшись немного с вкладками Box Coordinates , где с помощью кнопок Merge , Split , Insert , Delete можно соответственно объединить, разделить, добавить или удалить символы, дабы привести все в соответствии с изображением справа. Во вкладке Box View можно поправить координаты распознаваемого символа.
Прошло полдня… Вы с чувством глубокого удовлетворения закрываете jTessBoxEditor (вы ведь не забыли сохранить результат, верно?) и у вас есть корректный box-файл. Теперь можно переходить к следующему этапу.
tessdoc
Tesseract documentation
Tesseract User Manual
This user manual is for Tesseract versions 4.x.x and 5.0.0.x . For versions 3.05.02 and older, see the documentation for old versions.
Introduction
Tesseract is an open source text recognition (OCR) Engine, available under the Apache 2.0 license..
- The current official release is 4.1.1.
- The master branch on Github can be used by those who want the latest code for LSTM (–oem 1) and legacy (–oem 0) Tesseract. The master branch is using 5.0.0 versioning because code modernization caused API compatibility issues with 4.x release.
Tesseract can be used directly via command line, or (for programmers) by using an API to extract printed text from images. It supports a wide variety of languages. Tesseract doesn’t have a built-in GUI, but there are several available from the 3rdParty page. External tools, wrappers and training projects for Tesseract are listed under AddOns.
Tesseract can be used in your own project, under the terms of the Apache License 2.0. It has a fully featured API, and can be compiled for a variety of targets including Android and the iPhone. See the 3rdParty and AddOns pages for samples of what has been done with it.
If you have a question, first read the documentation, particularly the FAQ to see if your problem is addressed there. If not, search the Issues List, Tesseract user forum, and if you still can’t find what you need, please ask your question in Tesseract user forum Google group.
Tesseract is free software, so if you want to pitch in and help, please do! If you find a bug and fix it yourself, the best thing to do is to attach the patch to your bug report in the Issues List.
Releases and Changelog
4.0 with LSTM
Tesseract 4.0 added a new OCR engine based on LSTM neural networks. It works well on x86/Linux with official Language Model data available for 100+ languages and 35+ scripts. See 4.0x-Changelog for more details.
Traineddata Files
For detailed information about the different types of models, see Data Files.
Model files for version 4.00 are available from tessdata tagged 4.00. It has models from November 2016. The individual language file links are available from the following link.
Model files for version 4.0.0 and later are available from tessdata tagged 4.0.0. It has legacy models from September 2017 that have been updated with Integer versions of tessdata_best LSTM models. This set of traineddata files has support for both the legacy recognizer with —oem 0 and for LSTM models with —oem 1 . These models are available from the following Github repo.
Two more sets of official traineddata, trained at Google, are made available in the following Github repos. These do not have the legacy models and only have LSTM models usable with —oem 1 .
Training for Tesseract 4
Source Code
Tesseract 5.0.0.x source code is available in the ‘master’ branch of the repository. The master branch is using 5.0.0 versioning because C++ code modernization caused API incompatibility with 4.x release.
Binaries
Binaries are available from:
Traineddata Files
Language model traineddata files same as listed above for version 4.0.0 can be used with Tesseract 5.0.0.x . These are available from:
Распознавание текста с картинки. Python Tesseract ORC + OpenCV
Сегодня мы с вами поговорим на тему языка Python и рассмотрим пример создания крутого приложения. Наша программа будет способна считывать текст из любой фотографии.
Что сделаем за урок?
Мы с вами рассмотрим пример работы с библиотекой Tesseract ORC и на её основе построим приложение для распознавания текста с фото.
Что забавно, так это возраст библиотеки. Tesseract — является программой, разрабатывавшейся компанией Hewlett-Packard с середины 1980-х по середину 1990-х годов. Затем программа около 10 лет «пролежала на полке» и в августе 2006 года её купила Google. Google открыл исходный код под лицензией Apache 2.0 для продолжения разработки.
На сегодняшний день библиотека является наиболее крутым решением, если вам требуется считать данные из какого-либо фото.
Установка библиотеки
Первое, что необходимо сделать, то это выполнить установку Tesseract ORC. Установка Tesseract удобна на Маке и Линукс. Если вы на Windows, то придется выполнить на одно движение больше.
Если вы на Маке, то скачайте HomeBrew и далее в терминале пропишите brew install tesseract . Если вы на Линукс, тогда в зависимости от операционной системы вам нужно прописать соответствующую команду в терминале.
И если вы на Windows, то вам нужно скачать приложение на ПК. Вам нужно скачать файл Windows Installer . После скачивания выполните установку данной программы.
С самой программой вам никак не придется взаимодействовать, а лишь скопировать её расположение. Обычно оно устанавливается на диск С в Program files. Найдите вашу программу и скопируйте путь к этой папке.
Разработка проекта
Полная разработка проекта показывается в видео. Вы можете просмотреть его ниже:
tessdoc
Tesseract documentation
GUIs and Other Projects using Tesseract OCR
1. GUIs
Name | Linux | Mac | Windows | License | Description |
---|---|---|---|---|---|
normcap | X | X | X | GPL v3 | OCR powered screen-capture tool to capture information instead of images. |
gImageReader | X | X | GPL v3 | A graphical GTK frontend to tesseract-ocr | |
TesseractStudio.Net | X | Proprietary | A graphical interface to tesseract 4.0 | ||
VietOCR | X | X | X | Apache 2.0 | A GUI frontend for Tesseract OCR engine. Supports optical character recognition for Vietnamese and other languages supported by Tesseract |
NeOCR | X | Freeware | A GUI frontend for Tesseract 4.0 OCR engine. | ||
Free-Ocr-Windows-Desktop | X | GNU AGPL v3 | Free OCR application for the Windows Desktop — Essentially a graphical user interface (GUI) for the Tesseract OCR engine. The application also includes support for reading and scanned PDF files | ||
YAGF | X | GPL v3 | A graphical front-end for cuneiform and tesseract | ||
OCR2Text | X | X | X | MIT | CLI tool for batch-processing PDF to TXT |
OCRFeeder | X | GPL v3 | OCRFeeder is a document layout analysis and optical character recognition system | ||
Lector | X | X | GPL v2 | A graphical ocr solution for GNU/Linux based on Python, Qt4 and Tesseract OCR | |
Tesseract-OCR QT4 gui | X | Apache 2.0 | Tesseract-OCR QT4 gui is a simple GUI for tesseract | ||
Lime OCR | X | GPL v3 | A simple, free OCR software for Windows using tesseract-ocr engine | ||
Ocrivist | X | GPL v3 | Ocrivist is a utility which makes it possible to scan and OCR books and other printed documents to PDF or Djvu format | ||
Tesseract-GUI | X | GPL v2 | Tessract-GUI is not a front-end for tesseract-ocr, it is just a graphical way to use it with simple image manipulation through ImageMagick | ||
QTesseract | X | LGPL v3 | QT GUI for the Tesseract OCR | ||
dpScreenOCR | X | X | zlib | Program to recognize text on screen | |
pmOCR | X | BSD | Batch OCR tool, also file monitor event OCR with tesseract | ||
tesseract4java | X | X | X | GPLv3 | A cross-platform GUI for training and running Tesseract with advanced features like batch recognition and accuracy evaluation |
Linux-Intelligent-OCR-Solution(lios) | X | GPLv3 | A GUI for scanning, running and training Tesseract with total accessibility for visually impaired and advanced features like Scanner Brightness optimizer, Text-Cleaner, etc | ||
SunnyPage OCR | X | Proprietary | A GUI frontend for Tesseract OCR engine with automatic adjustment of image brightness, image processing and PDF support. | ||
PDF OCR X | X | X | Proprietary | PDF OCR is a simple drag-and-drop utility for Mac OS X and Windows, that converts your PDFs and images into text documents or searchable PDF files | |
TaxWorkFlow | X | Proprietary | TaxWorkFlow is an accounting practice management application that includes GUI frontend for Tesseract OCR engine. The app supports AVX and allows to create OCR’ed PDF files of selected resolution and compression from PDF files and 100+ image file formats. | ||
AmhOCR | X | GPLv3 | Tesseract Powered Windows Desktop OCR Application With Multiple Pre/Post Processing GUI |
2. Online OCR services
- OCR.net: Powered by PDF OCR X in back-end. Converts PDFs and Images to Text or searchable PDF.
- WeOCR: is a platform for Web-enabled OCR (Optical Character Reader/Recognition) systems that enables people to use character recognition over networks
- CustomOCR
- Free OCR
- i2OCR
- Indic-OCR OCR Service An online OCR service for Indian languages
3. Mobile
- Android:
- tess-two — A fork of Tesseract Tools for Android tesseract-android-tools that adds some additional functions.
- Tesseract4Android — A fork of tess-two rewritten from scratch to support latest version of Tesseract OCR.
- textfairy Android OCR App with source code at github.com
- Character Recognition Android OCR App with source code at gitorious.org
- tesseract-android-tools: set of Android APIs (archived in Google Code Archive at 2013-01-28)
- Mobile OCR: The goal of Mobile OCR is to create an application for the Android platform that will recognize text from an image taken by the phone’s camera. The application will be fully accessible to low vision and blind users
- Across India: An app which lets users take pictures of sign boards in Indian Languages or English and transliterate it to the language that they can read.
- iOS:
- Tesseract-OCR-iOS — Tesseract OCR iOS is a Framework for iOS7+, compiled also for armv7s and arm64.
- OCR-iOS-Example — a simple example of how to do optical character recognition (OCR) on iOS.
- Tesseract-iPhone-Demo — example based on tesseract 2.04.
- More OS:
- ScanBizCards: Mobile solution for business card scanning. Requirements: iPhone 4/iPhone 3/Android 2.0
- macOS:
- Tesseract macOS — Tesseract OCR framework for macOS, supporting both Objective C and swift. Compiled for both x86 and arm64.
4. Others (Utilities, Tools, Command-Line Interfaces [CLI], etc)
A. PDF to Searchable PDF tools
(ie: any tool which can also handle a non-searchable PDF as an input):
- OCRmyPDF — Adds OCR text layer to scanned PDF files and images, allowing them to be searched. Processes pages in parallel on multi-core CPUs. Keeps exact resolution of original embedded images without recompressing JPEGs, when possible. Includes image several preprocessing options, detailed documentation, and support for many exotic PDFs.
- pdf2pdfocr is a tool to OCR a PDF (or supported images) and add a text layer in the original file making it a searchable PDF. It is a python script that uses tesseract and other open source tools. Linux, macOS and Windows supported.
- pdf2searchablepdf — a tool which allows converting any non-searchable PDF, OR any entire directory of images, to a searchable PDF
B. Others:
- ocr-fileformat — Validate and transform between OCR file formats (hOCR, ALTO, PAGE, FineReader)
- Tess4J — A Java JNA wrapper for Tesseract OCR API.
- Traineddata inspector — to inspect some of the internals of traineddata files
- TopOCR — high Quality OCR for Cameras with tesseract-ocr support (paid product)
- Simple OCR Web Server using python, flask, tesseract-ocr, and leptonica
- Display OCR is OpenCV-Python + python-tesseract real-time image preprocess and OCR of 7 segments font.
- OpenOCR makes it simple to host your own OCR REST API.
- https://github.com/guitarmind/tesseract-web-service is An implementation of RESTful web service for tesseract-OCR using tornado
- RasterEdge .NET Image SDK — OCR Recognition is robust, high-performance recognition application of royalty-free distribution for desktop or server applications.
- DevScope OCR SDK is an Optical Character Recognition toolkit engine based on Tesseract OCR v3 that allows to develop applications using Microsoft .NET framework
- Paperwork — using OCR to grep dead trees the easy way (requires pyocr)
- Aletheia — An Advanced Document Layout and Text Ground-Truthing System for Production Environments
- gscan2pdf a GUI to produce PDFs or DjVus from scanned documents
- Audiveris is an open-source Optical Music Recognition software which processes the image of a music sheet to automatically provide symbolic music information in MusicXML standard.
- Ocrivist is a utility which makes it possible to scan and OCR books and other printed documents to PDF or Djvu format.
- thu-ipv6-login a python script for IPv6 authentication in Tsinghua University with support for OCR of authcode
- Wolfram Mathematica 9.0 use tesseract for recognizing text
- node-dv is a node.js library for processing and understanding scanned documents
- hocr-tools — python tools for manipulating and evaluating the hOCR format for representing multi-lingual OCR results by embedding them into HTML. They include hocr-pdf tool for creating searchable pdf.
- PyPDFOCR — Tesseract-OCR based PDF filing
- ChronoScan is a complete suite for document Scanning & Data Entry
- speedy-ocr utility to simplify scanning and OCR focus to help blind and visually impaired community. It is part of Vinux project.
- Project VIRAL Varico Invoice Recognition with Assisted Learning
- Bindery: A simple GUI for binding post processed scanned pages into digital documents
- Clarify: Clarify helps you OCR ‘image-only’ PDFs. Your input is a PDF that you normally cannot extract text from. The output is text. Clarify is a python module that wraps up tesseract-ocr, xpdf and netpbm. Requirements: python, tesseract-ocr, xpdf, netpbm
- hOcr2Pdf.NET: hOcr2Pdf.NET is a library that programmers can use to create highly compressed, searchable pdf’s for applications. Requirements: .NET 2.0 or higher, Tesseract 3.0, JBig2.exe
- PDFBeads: convert scanned images to a single searchable PDF file based on hOCR files. Requirements: ruby, RMagick, hpricot
- ExactImage/hocr2pdf: creates a Searchable PDF from hOCR input. Requirements: libagg
- HocrConverter: creates PDFs and plain text from hOCR documents. Requirements: python, reportlab
- HocrToPdf.java: java source for very basic hOCR to PDF converter. Compiled version can be found at project modi2hocr. Requirements: java, jericho, iText2
- hOcr2Pdf.NET: is a .NET library to convert .hocr html produced by Tesseract or Cuneiform into searchable pdfs using HtmlAgilityPack and iTextSharp. Requirements: C#.
- Tally-Ho: Tally-Ho is a screen reader intended for sites like google books
- Mayan EDMS: Document management system with tesseract as its base
- Olena: a generic and efficient image processing platform (tesseract is used in its part called scribo)
- ocrodjvu is a wrapper for OCR systems, that allows you to perform OCR on DjVu files
- PaRADIIT (Pattern Redundancy Analysis for Document Image Indexation & Transcription) is a project initiated and sponsored by 2 successive Google DH awards. It aims to turn ancient books, especially from the Renaissance, into accessible digital libraries.
- The ISRI Analytic Tools consist of 17 tools for measuring the performance of and experimenting with OCR output.
- Indic Messenger A Facebook chat bot which can OCR images containing Indian/English text and transliterate it to other Indian scripts.
- LibreOCR A LibreOffice extension which can convert an image to OCT and open in the Writer application.
IMPACT related
- IMPACT project
- IMPACT Centre — a not-for-profit organisation founded to sustain IMPACT outcomes and foster community building
- IMPACT data
- IMPACT tools
- Results of the IMPACT project by PSNC Digital Libraries Team
- Virtual Transcription Laboratory by PSNC
- IMPACT Interoperability Framework — interoperability layer supporting the loose coupling of software components developed during the IMPACT project.
- Inventory-Extraction-Tool Prototype is a prototype with graphical user interface (GUI) that allows for the extraction of a complete list of characters from a document, without reference to a specific language dictionary or a library of fonts.
- Post Correction Tool is interactive post-correction of OCRed documents. Using the information obtained by the Text and Error Profiler the whole correction process is adaptive to the document being processed. In this way, usually huge numbers of systematic errors can be corrected with just a few keystrokes..
- OCR evaluation tool.
- BlackLab is a corpus retrieval engine built on top of Apache Lucene. It allows fast, complex searches with accurate hit highlighting on large, tagged and annotated, bodies of text. It was developed at the Institute of Dutch Lexicology (INL) to provide a fast and feature-rich search interface on our historical and contemporary text corpora.
tessdoc is maintained by tesseract-ocr. This page was generated by GitHub Pages.