OCR CuneiForm для полноценного распознавания сфотографированного или сканированного текста. Программа для распознавания текста с картинки Как пользоваться программой cuneiform 12

Распознавание текста – очень удобная возможность. Вам больше не надо перепечатывать большие объемы из книг и статей. Для учителей, студентов и научных работников такие программные приложения – настоящий подарок. Рассмотрим разные приложения и определим, какая программа для распознавания текста с картинки – лучшая.

Как это работает

Оптическое распознавание текста (OCR - Optical Character Recognition) – это возможность преобразовать текст из графического вида (фото, скан, pdf) в обычный формат. Преобразованный текст можно редактировать.
Любая растровая картинка состоит из точек. Программное обеспечение для распознавания выделяет на картинке буквы и переводит их в текст. Происходит анализ структуры документа. Выделяются текстовые блоки. Затем строятся линии, которые делятся на слова, а далее на символы. Каждый символ сравнивается с шаблонами. После чего строятся гипотезы, что это за символ. Исходя их них, ПО анализирует разные варианты разбиения строк на слова, а слова на символы. Количество таких гипотез огромно. В конец концов программа принимает решение и выдает текст.

Обзор программного обеспечения

Условно все приложения можно разделить на три категории:

  • Платные.
  • Бесплатные.
  • Онлайн сервисы.

Рассмотрим несколько вариантов из каждого раздела.

Платные и бесплатные программы

OCR CuneiForm

Бесплатная программа для распознавания сканированного текста, которую можно скачать здесь.

Приложение было разработано в 1993 году в компании Cognitive Technologies. Одной из главных особенностей ее на тот момент была возможность опознавания смеси русского и английского языков. В 2009 году была добавлена ветка, которая позволяет распознавать смесь других языков. Программный продукт поставлялся со сканерами и МФУ от ведущих производителей: Hewlet-Pachard, Epson, Xerox и т.д. Последняя версия вышла в 2009 году.
После скачивания и установки пробуем распознать текст. Для примера возьмем эту статью.

Интерфейс программы прост, меню на русском.


Нажимаем значок папки и грузим картинку. Нажимаем кнопку распознавания.


Результат не впечатляет. Разноцветный текст не распознан.


Не смотря на заявленное использование разных словарей, английский тоже распознался плохо.


В общем, идеальное фото можно перевести в символы, но чем ниже качество исходной картинки, тем ниже оно и у результата.
Надо заметить, это единственная русифицированная программа распознавания текста при сканировании, которую удалось скачать бесплатно легальным образом. Все остальные в лучшем случае имеют пробный бесплатный период.

RiDoc

Программа для распознавания текста с фото или со сканера с бесплатным периодом в 30 дней. Скачать можно здесь.

Приложение обладает неплохим функционалом и доступным интерфейсом. Для загрузки картинки нажимаем кнопку «Открыть».


Далее кнопку «Распознать».


В итоге получаем готовый результат. Его можно открыть в Word или OpenOffice.


Вот результат.


Тоже не идеально, но намного больше, чем в предыдущем случае.
Также можно наложить водяной знак или склеить несколько картинок.

ReadIris

Платный программный продукт с пробной версией, рассчитанной на 100 страниц или 10 дней. Скачать программу для сканера для распознавания текста с официального сайта можно тут.

Разработчик – бельгийская компания IRIS, созданная в 1986 году. Основная специализация - технологии и продукты для интеллектуального распознавания документов.

Программа преобразует картинку, файл PDF или отсканированный документ в полностью редактируемый текстовый файл. Извлекает текст из ваших документов, сохраняя при этом макет исходного файла. Имеет следующие возможности:

  • конвертировать файлы Word, Excel и PowerPoint в индексированные PDF-файлы;
  • конвертация документов с помощью контекстного меню;
  • индикатор качества для импортируемых документов;
  • автоматическое обнаружение сканеров;
  • модуль коррекции перспективы.

Интерфейс программы русифицирован (указывается при установке) и достаточно прост.


Нажимаем кнопку «Из файла» и выбираем нашу картинку. Программа автоматически разделила ее на два блока.


Для распознавания нажмите кнопку «Открыть» и укажите путь для картинки. Формат указывается строкой выше.


Результат превзошел все ожидания. Даже начертание сохранилось.


Можно отправить документ по почте или в облако. Для этого следует щелкнуть по списку сверху и выбрать. По умолчанию сохраняется в файл.


Стоит эта программа около 6000 руб.

ABBYY FineReader

Самая известная и раскрученная программа. Скачать пробную версию можно здесь.

Платная стоит 6990 р. Российская разработка 1993 года, до сих пор считается одной из лучших в мире. Основные возможности:

  • Распознавание таблиц и графиков, математических формул.
  • Просмотр и навигация pdf.
  • Создание и прямое редактирование pdf.
  • Работа с цифровой подписью.
  • Сравнение документов.
  • Добавление комментариев.

Программа обладает множеством возможностей. Интерфейс русифицирован и доступен.


После нажатия кнопки «Открыть» и выбора картинки, начинается автоматическое его деление на блоки.


Для начала процесса нажмите соответствующую кнопку.


Дальше осталось выбрать, в каком формате сохранять и указать папку, в которую следует сохранить документ.


Откроем результат. Как видите, распознавание прошло идеально.


Еще раз сравним с ReadIris.


Первый вариант (Finereader) выполнен безупречно. Поэтому, пожалуй, пальму первенства отдаем этой программе. По цене они сопоставимы, так что разница в 600-700 рублей особой роли не играет.

Распознавание текста по фото онлайн

IMGonline

Онлайн сервис обработки картинок. На сайте представлены инструменты:

  • Сжатие и изменение размера картинки
  • Обрезка, кадрирование
  • Обработка встроенных метаданных
  • Эффекты
  • Улучшения
  • Определение палитры цветов картинки
  • Получение фона
  • Определение процента похожести и пр.

Удобный сайт, который дает множество возможностей обработки картинки. Интерфейс прост и понятен.


Предлагает две программы. Сравним. Загрузим файл и нажмем кнопку «ОК».


Дальше нажимаем на ссылку.


Результат не радует.


Пробуем вторую программу.


Тоже сомнительно.


Выставим дополнительный язык.


Проверяем результат.

Немного лучше, но до совершенства далеко.

img2txt

Программа для распознавания текста с фото онлайн, сканирования не допускает.

Сайт функционирует с 2014 года. Других сервисов, кроме текущего, разработчики не планируют.


Выберите файл и нажмите «Загрузить». Затем следует нажать «Начать распознавание».

Результат тоже далек от совершенства.

Сonvertio

Достаточно большой платный портал, на котором вы можете воспользоваться следующими возможностями:

  • Конвертация видео, аудио, картинок.
  • Преобразование PDF в Word, Excel, PowerPoint.
  • Разделение PDF.
  • Сжатие PDF, PNG и пр.

Принцип работы абсолютно аналогичен, но настроек больше. Картинки можно перетягивать.


Можно указать несколько языков и тип документа, куда сохраняется результат.


Незарегистрированным пользователям доступны только 10 страниц для распознавания.
После нажатия на каптчу, выберите «Преобразовать».


Нажмите скачать.


Результат превзошел все ожидания.


Оказывается, и у простых сервисов онлайн есть возможность качественного распознавания. Так что Convertio объявляется однозначным победителем в этой номинации. Но, как и любой отличный продукт, он платен.

Итак, мы рассмотрели различные инструменты распознавания текста. Выяснилось, что бесплатные могут помочь, но качество остается не на высоте. Так что, если вам постоянно требуется переводить текст из печатного вида в электронный, придется раскошелиться.

Отличного Вам дня!

Название программы : OCR CuneiForm

Версия : 12

Размер : 33,4 Мб

Язык : несколько языков в т.ч. русский

Тип программы : распознавание текста

Лицензия : свободная с открытым кодом

Описание программы

OCR CuneiForm может распознавать любые полиграфические, машинописные гарнитуры всех начертаний и шрифты, получаемые с принтеров за исключением декоративных и рукописных. В систему встроены специальные алгоритмы для распознавания текста с матричного принтера, плохих ксерокопий факсов и машинописи.

OCR CuneiForm это:

  • высокое качество распознавания;
  • высокая скорость работы;
  • распознавание текстов на русском, английском, смешанном русско-английском, украинском, немецком, французском, испанском, итальянском, шведском и других (всего более 20);
  • работа в режиме автофрагментации для поиска текстовых блоков, таблиц и изображений, а также мощное средство ручной и полуавтоматической фрагментации;
  • распознавание таблиц любой структуры и сложности, в том числе и без отображения линий табличной сетки;
  • автоматическое сохранение иллюстраций (черно-белых и цветных) и таблиц в получаемом на выходе документе;
  • полное сохранение топологии страницы;
  • поддержка пакетного режима сканирования и распознавания;
  • простота использования и интуитивный интерфейс, встроенные помощники по работе с программой;
  • встроенный текстовый редактор для работы с распознанным текстом;
  • совмещенный показ изображений и результатов распознавания.

В системе используется целый ряд уникальных технологий, среди которых адаптивное распознавание, нейронные сети, когнитивный анализ альтернатив распознавания и другие.

Вопросы и ответы по программе

Что такое CuneiForm? CuneiForm - это система оптического распознавания крупнейшего российского разработчика программного обеспечения Cognitive Technologies, которая обеспечивает быстрое и высококачественное преобразование бумажных документов и электронных графических файлов, получаемых, например, со сканера или факса, в редактируемый текст для последующей работы с ним в текстовых редакторах.

Для кого предназначена OCR CuneiForm? Система распознавания текстов CuneiForm предназначена для всех, кому приходится вводить в компьютер факсы, книги, газеты, машинописные страницы, тексты договоров и т.д. Для работы с системой достаточно положить страницу с текстом в сканер, нажать кнопку, и через несколько секунд Вы получите готовый результат в многофункциональном текстовом редакторе.

Какие шрифты распознает OCR CuneiForm, требуется ли обучение? CuneiForm - шрифтонезависимая (OmniFont) система. Алгоритмы, заложенные в CuneiForm, исходят из правил написания букв, из их топологии, и не требуют задания каких-либо эталонов, или обучения.

В системе используется технология интеллектуального самообучения на базе адаптивного распознавания символов.

Распознаются любые печатные шрифты - книги, газеты, журналы, распечатки с лазерных и матричных принтеров, тексты с пишущих машинок и т.п.

Не распознается рукописный текст и декоративные шрифты (готический, стилизованный под рукописный).

В CuneiForm существуют специальные настройки для распознавания текстов с матричного принтера и факсов 200x100 dpi.

Чем OCR CuneiForm отличается от других подобных программ?

  • качеством распознавания;
  • высокой скоростью работы;
  • использованием уникальных технологий, таких как адаптивное распознавание, нейронные сети, когнитивный анализ альтернатив распознавания и других;
  • простой использования и интуитивным интерфейсом;
  • функциональным наполнением, наличием многих дополнительных возможностей.

Поддерживает ли OCR CuneiForm работу с таблицами? Да. Программа автоматически находит в тексте таблицы различной структуры, в том числе без линий разграфки. Встроенный редактор поддерживает редактирование таблиц (можно уменьшать/увеличивать, удалять/создавать колонки и т.д.)

Как OCR CuneiForm отнесется к картинкам в тексте? Как пожелаете. Может просто проигнорировать их присутствие, а может сохранить в выходном документе в черно-белом, сером или цветном виде, в зависимости от вашего желания.

Ссылки для загрузки

  • Скачать установочную версию с depositfiles.

Информация взята с официального сайта программы

Недавно занялся поиском бесплатных приложений для распознавания отсканированного текста, или как их еще называют программы OCR. Желание платить за популярного монстра ABBYY FineReader, совсем не было, но как оказалось, предлагают очень мало вариантов программ такого плана для бесплатного использования. Первый попавшийся вариант оказался , пожалуй, одна из самых популярных программ для Windows, но в своем нынешнем виде не дружит с русским языком. Один из читателей блога, предложил попробовать труды отечественных разработчиков .

Процедура установки стандартная, перечень из нескольких стандартных вопросов, где самое запоминающееся это лицензионное соглашения и выбор папки, куда будут инсталлирована программа. Несколько секунд ожидания и все готово к работе. Ничего лишнего не устанавливается и дополнительно программные компоненты тоже не придется скачивать и устанавливать.

Запустив программу, получаем стандартный для OCR интерфейс, меню из нескольких пунктов, большие кнопки для доступа к основным функциям и основное окно разбито на две части для изображения и готового текста которые распознали.

Самая первая кнопка в панели инструментов, где нарисованная волшебная палочка, это мастер, запустив которые пройдем все этапы, начиная от сканирования и заканчивая готовым текстом пригодным для редактирования, которые заботливо будет предлагать выбрать нужные настройки. Получатся этакий полуавтоматический режим, делам только общие настройки, не вникая в нюансы.

Можно пойти по более сложному пути, пройдясь ручками по каждому пункту отдельно, зато сможете сделать кучу дополнительных правок и тонких настроек, которые позволят получить более качественный конечный результат.

С помощью кнопки, где нарисован сканер, можем отсканировать нужный документ или загрузить готовую картинку. После чего получим панель с инструментами с помощью, которой можем подкорректировать изображение, повернуть его и выбрать область для распознавания.

Кнопочка с циркулем, позволяет сделать разметку страницы, выделяя колонки, изображения и блоки с текстом. Все блоки, которые будут найдены, можно редактировать, передвигая их и изменяя размеры с помощью мыши. Поводите курсором около синих линий и увидите, как он будут менять свою форму, дальше, думаю, сами разберетесь.

Ионкой с очками, распознаем непосредственно текст, в подготовленных областях. После того как текст будет готов, щелкните по любой букве и увидите тот участок рисунка картинки, на котором она была найдена.

Кнопка с самолетиком предназначена для сохранения распознанного текста в файлы или в Word Excel, почему опять этот стандартный набор непонятно, ведь есть еще куча замечательных текстовых редакторов.

В зависимости от того на каком этапе будете находиться панель инструментов будет менять свое содержимое, предлагая нужные на конкретном этапе инструменты.

Теперь перейдем к печальному на Windows 7 отказался работать со сканером, программа его видела, сканер даже начинал гудеть, и на мониторе бежала пунктирная линия свидетельствующая что идет передача данных, а в конце выбрасывала ошибку. Все пляски с бубном и чтения форумов не дало положительных результатов. В том числе редактирование файла «Face.INI», где по рекомендации было исправлено «TWAIN_TransferMode=memory-buffered» на TWAIN_TransferMode=memory-native». В итоге пришлось делать обходной маневр, сканировать текст стандартными средствами Windows, а в CuneiForm подсовывать готовую картинку.

Еще плохо, что не поддерживаются pdf фалы самой программой. Приходится прибегать к обходным маневрам, использовать сторонние программы чтоб из pdf документов делать картинки, а потом задействовать OCR. Но опять из-за низкого разрешения картинок, качество распознавания текста очень низкое, поэтому потом приходится много чего исправлять руками.

Чуть не забыл, первый запуск на Windows Vista и 7 лучше делать от имени администратора, иначе программа впадет в транс на несколько минут, не подавая признаков жизни.

Программа действительно работает со всеми основными языками, их около 20 штуку включая русском, английском, украинском, немецком, французском, испанском, итальянском и смешанном русско-английском.

CuneiForm оставила двоякое впечатление, вроде работает, но не полностью, скорей всего из-за того что работу на программой прекратили в 2007 году, а после открытия исходных кодов команда которая могла дальше развивать проект так и не собралась. Приятно, что понимает русский язык, но придется немного приноровиться, пока научитесь подбирать нормальные параметры для сканирования, чтоб результаты распознавания удовлетворяли. Сейчас нахожусь именно на этом этапе.

В нынешнем виде не могу рекомендовать для использования обычным пользователям. Кто рискнул попробовать CuneiForm, морально подготовитесь, что с первого раза хороших результатов не получится, и решение возникших проблем придется искать самим.

Работает в 32-х и 64-х битных операционных системах. Интерфейс полностью на русском языке, и похоже других вариантов не предлагается.

Страница для бесплатного скачивания CuneiForm http://www.cuneiform.ru/downloads/index.html

Последняя версия на момент написания CuneiForm V12

Размер программы: архив 33,3Мб

Совместимость: Windows Vista и 7, Windows Xp

Дата добавления обзора: 05.07.2009 г.

Информация об OCR CuneiForm:

OCR CuneiForm может распознавать любые полиграфические, машинописные гарнитуры всех начертаний и шрифты, получаемые с принтеров за исключением декоративных и рукописных. В систему встроены специальные алгоритмы для распознавания текста с матричного принтера, плохих ксерокопий факсов и машинописи.

OCR CuneiForm это:

  • высокое качество распознавания;
  • высокая скорость работы;
  • распознавание текстов на русском, английском, смешанном русско-английском, украинском, немецком, французском, испанском, итальянском, шведском и других (всего более 20);
  • работа в режиме автофрагментации для поиска текстовых блоков, таблиц и изображений, а также мощное средство ручной и полуавтоматической фрагментации;
  • распознавание таблиц любой структуры и сложности, в том числе и без отображения линий табличной сетки;
  • автоматическое сохранение иллюстраций (черно-белых и цветных) и таблиц в получаемом на выходе документе;
  • полное сохранение топологии страницы;
  • поддержка пакетного режима сканирования и распознавания;
  • простота использования и интуитивный интерфейс, встроенные помощники по работе с программой;
  • встроенный текстовый редактор для работы с распознанным текстом;
  • совмещенный показ изображений и результатов распознавания.

Основные возможности OCR CuneiForm

1. ИНТЕРФЕЙС

Интерфейс программы содержит выпадающие контекстные меню, панели быстрого доступа, контекстную помощь.

2. СКАНИРОВАНИЕ

  • Автоматический подбор оптимальных параметров сканирования.
  • Возможность импортирования отсканированных или полученных через факс-модем графических файлов во многих форматах.
  • Обработка изображений: печать образа, инвертирование, поворот.

3. ФРАГМЕНТАЦИЯ

  • Автоматический и полуавтоматический режимы поиска блоков текста, таблиц и графики, который обеспечивает большую гибкость при работе с многоколоночными текстами и текстами сложной структуры и с графическими элементами.
  • Режим ручной фрагментации для работы с текстами особо сложной структуры.

4. РАСПОЗНАВАНИЕ

  • CuneiForm распознает любые полиграфические, машинописные гарнитуры всех начертаний и шрифты, получаемые с принтеров за исключением декоративных и рукописных. В систему встроены специальные алгоритмы для распознавания текста с матричного принтера, печатной машинки, плохих ксерокопий и факсов.
  • Самообучающиеся адаптивные алгоритмы распознавания повышают вероятность распознавания низкокачественных документов.

5. ЯЗЫКОВАЯ ПОДДЕРЖКА

Система распознает русский, английский, смешанный русско-английский, украинский, немецкий, французский, испанский, португальский, итальянский, голландский, датский, шведский, финский, сербский, хорватский, польский, казахский, узбекский и другие языки.

6. СЛОВАРНЫЙ КОНТРОЛЬ

  • Словарь общеупотребительной лексики каждого поддерживаемого языка для контекстной проверки и повышения качества результатов распознавания.
  • Возможность создания и пополнения пользовательского словаря, а также возможность экспорта/импорта словаря в/из текстовых файлов.

7. РЕАЛИЗАЦИЯ ПРИНЦИПА "What You Scan Is What You Get" ("Что Вы сканируете, то и получаете").

CuneiForm позволяет получить полную копию вводимого документа, включая:

  • Шрифтовое оформление и форматирование.
  • Расположение текста, иллюстраций и таблиц.
  • Колонки, абзацы, отступы, стили и размеры шрифтов.
  • Черно-белые, 256-градационные серые и цветные 24-битные иллюстрации в выходном RTF-файле.

8. РАБОТА С ТАБЛИЦАМИ

  • Распознавание таблиц различной структуры, в том числе и без линий разграфки.
  • Редактирование таблиц (уменьшение/увеличение, удаление/создание колонок и т.д.)
  • Сохранение результатов в распространенных табличных форматах.

9. РЕДАКТИРОВАНИЕ

В программу встроен многофункциональный редактор, не уступающий по своим возможностям популярным текстовым процессорам.

  • Одновременная подсветка распознанного текста и исходного изображения, снабженная функцией "следующий/предыдущий сомнительно распознанный".
  • Поддержка иллюстраций, таблиц, колонок, колонтитулов, сложного форматирования и различных шрифтов.
  • Возможность редактирования текстовых документов популярных форматов.

10. ИНТЕГРАЦИЯ С ДРУГИМИ ПРИЛОЖЕНИЯМИ

Опции командной строки и поддержка Drag&Drop для вызова из внешних приложений, сканирования, распознавания и сохранения результатов в автоматическом режиме.

Скачать программу OCR CuneiForm (.zip-файл, 33,3 Мб.) Обратите внимание на вес файла!!!

CuneiForm – бесплатная утилита, предназначенная для быстрого преобразования изображения в текстовый формат. Программа находит свое применение во многих сферах: в школах, в университетах, офисной работе, при оцифровке старых архивов, книг и прочих документов.

CuneiForm OpenOCR – лучшая альтернатива Abbyy Finereader

Чем же данный инструмент лучше Finereader для обычного пользователя? Прежде всего, бесплатностью. Стоимость вышеупомянутого софта составляет 5776 рублей, в то время, как за CuneiForm OpenOCR вы не платите ровным счетом ничего. Просто устанавливаем и пользуемся. Кстати, скачать CuneiForm вы сможете прямо на данной странице (внизу мы разместили ссылку на официальную версию программы). Сразу после установки открываем наш распознаватель и читаем небольшую инструкцию к нему:

Итак, как происходит преобразование картинки в текст? В данной программе будет очень просто работать и новичку, и профессионалу, ведь для распознавания нужно сделать всего пару действий. Во-первых, вам необходимо какое-то изображение (любого формата – PNG, BMP, JPEG и т.п.), поэтому открываем нужный объект.

Во-вторых, необходимо нажать на кнопку «Распознать». Далее, в CuneiForm запускается процесс распознавания текста. Это, как правило, происходит очень быстро, только в редких случаях нужно ждать больше 5-10 секунд.

После того, как инструмент распознал текст, открывается ваш стандартный текстовый редактор — Word, WordPad и т.п. Кстати, здесь же можно отредактировать полученный текст, ибо далеко не всегда утилита выдает точный результат, особенно при обработки испорченных, старых страниц.

Также далеко не всегда CuneiForm OpenOCR может выделить области текста, т.е. таблицы, абзацы, заголовки и прочие разделы. В такой ситуации вам необходимо вручную выполнить разметку страницы, для этого создан отдельный, удобный инструмент.

Для большего удобства разработчики добавили функцию сканирования. Ты просто кладешь в МФУ или сканер какой-то документ или книгу, сканируешь нужный участок, а после Кьюниформ автоматически преобразовывает текст в изображение — очень полезный инструмент.

Общих параметров здесь не так много, можно настроить всего 3 – разметка, сканирование и форматирование, но это компенсируется тем, что можно настраивать каждый модуль отдельно, так что пользователь все может настроить под себя. Кстати, сама утилита достаточно простая и совместима с любой ОС:

  • Windows XP;
  • Windows Vista, 7;
  • Windows 8, 8.1 и 10;
  • Mac OS;
  • Linux и другие.

Чтобы скачать CuneiForm бесплатно на русском, посетите официальный сайт разработчиков, там вы получите полную информацию о программе. Если вы уже поняли, как с ней работать, то просто нажмите на зеленую кнопку, и тогда вы получите отличный распознаватель текста, скачав его с официального сайта без вирусов и СМС-подписок.

Вверх