Как работать с программой эбби файн ридер. Как это работает: FineReader

Здравствуйте. Сегодня я расскажу о том, как с помощью программы Abbyy FineReader распознать текст c изображения, которое вы могли получить в результате сканирования. Ваш сканированный текст будет полностью в документе Microsoft Word и этот распознанный текст можно будет редактировать! Распознать текст при помощи Abbyy Finereader может пригодиться тем, кто учится, работает с текстами и переводами. Программа, к сожалению, является платной. Как-то доводилось попробовать одну из бесплатных вариантов аналогичных программ, но весьма хорошо отсканированный текст распознается просто ужасно... А распознать текст в Abbyy FineReader получается весьма качественно! Сейчас я покажу как пользоваться программой Abbyy FineReader для быстрого распознавания текста с изображения.

ABBYY FineReader имеет пробную версию на 30 дней с возможностью распознавания до 100 страниц и сохранением не более 3-х страниц из документа. Т.е. в течение этого времени вы можете увидеть возможности программы и принять взвешенное решение — нужна ли она вам, стоит ли её покупать или нет.

Как установить Abbyy FineReader!

Перед тем как пользоваться Abbyy Finereader её необходимо установить. Рассмотрим процесс установки этой программы...

Для начала выбираем язык программы. Нажимаем «ОК».

Принимаем условия лицензионного соглашения (при желании можно прочесть лицензионный договор, если вам интересно о чём там речь). Нажимаем «Далее».

Далее вы должны выбрать режим установки. При обычном режиме программа не спросит вас и установит то, что в программе задано по умолчанию, а именно — все компоненты: саму программу Abbyy Finereader для распознавания текста, компонент для программ Microsoft Office и компонент для проводника Windows (позволяющий быстро распознавать изображения, не открывая отдельно программу). Советую отметить выборочную установку чтобы настроить так, как вам нужно. Тем более это не займет и 15 минут:) Внизу указана папка куда установится программа. Желательно оставить выбор по умолчанию, чтобы потом не было никаких проблем при использовании программы. Нажимаем «Далее».

Компоненты программы. Это окно как раз появится в случае, если вы выберите тип установки «Выборочная». Компоненты — это что-то вроде вспомогательных приложений к программе. Первый компонент «Интеграция с программами Microsoft Office и Проводником Windows». Этот компонент будет отображен в меню Microsoft Office и если вы щелкните по изображению у себя на компьютере правой кнопкой мыши, то там будет пункт с этой программой. Вот так будет выглядеть ваше меню в Microsoft Office после добавления этого компонента.

А вот что будет если вы щелкните правой кнопкой мыши по изображению:

Т.е. появится меню, в котором вы можете сделать быстрое распознавание текста с отправкой результатов в Word, Excel или PDF.

Второй компонент позволит вам распознать текст с экрана компьютера. Это значит, что вы сможете сделать скриншот и также распознать текст. Если вы не хотите устанавливать один из этих компонентов, или вовсе не хотите устанавливать оба, то нужно нажать на стрелочку вниз и выбрать «Данный компонент будет недоступен». Тогда компонент установлен не будет. Я оставила оба.

Далее 4 пункта. 1-ый означает то, что сведения о том, как вы пользуетесь программой Abbyy Finereader будут переданы разработчику. Данный пункт советую не отмечать, чтобы программа лишний раз не выходила в интернет ради отправки сведений о работе с ней. Тем более, мало ли какие ещё сведения будут отправляться:) 2-ой пункт создает ярлык программы на рабочем столе. 3-ий означает, что программа будет запускаться при включении компьютера, а 4-ый будет проверять обновления программы. Я оставляю только второй и напротив него оставляю галочку. Закрываем все приложения Microsoft Office, потому что так требует установщик и нажимаем «Установить».

Нужно подождать пару минут чтобы программа загрузилась и нажать «Далее».

Все, установка завершена! Нажимаем «Готово».

Как при помощи Abbyy Finereader распознать текст c отсканированного или любого другого изображения?

Рассмотрим, как пользоваться программой. К примеру, у вас есть отсканированный текст. Теперь, чтобы распознать текст в Abbyy FineReader, открываем программу. Нажимаем «Открыть».

Выбираем нужное нам изображение и нажимаем открыть.

Когда вы откроете нужный документ, Abbyy Finereader начнёт распознавать текст. Чем больше документ, тем дольше будет длиться распознавание. Распознавание одной страницы может занять несколько секунд.

После того как текст распознается вам останется только сохранить результат в документ Microsoft Word, чтобы затем вы могли отредактировать в нём что угодно. Для этого нажмите кнопку «Сохранить» на верхней панели инструментов, после чего выберите в какую папку будет сохранён документ Word и под каким названием.

Если у вас подключён к компьютеру сканер, то вы можете запустить сканирование прямо из программы, и после чего отсканированный документ сразу будет распознаваться. Для этого на верхней панели инструментов нажмите кнопку «Сканировать». Далее действия будут зависеть от программы-драйвера для вашего принтера. Вам нужно только следовать указаниям мастера сканирования.

Как видите, все очень просто и быстро. Теперь вы знаете, как пользоваться Abbyy FineReader для распознавания текста с изображений! Надеюсь, что эта информация очень поможет многим:) Удачи!

Итак, на компьютере у нас установлен FineReader. Включаем сканер и оцифровываем какой-нибудь многостраничный документ. Назовем его, условно, "Договор".

Укладываем на стекло сканера первую страницу документа, закрываем крышку. Запускаем программу FineReader. Кликаем кнопку "Сканировать", или клавишами давим сочетание "Ctrl+K". Открывается окно "Сканирование ABBYY FineReader". При оцифровке обычной текстовой страницы набраной шрифтом в 11-12 пунктов оставляем настройки в окне по умолчанию и нажимаем кнопку "Просмотр".

Сканер работает и через несколько секунд видим нашу страницу в окошке просмотра. Здесь мы можем изменить размер скана, если надо. И потом нажимаем кнопку "Сканировать".

FineReader начинает процесс распознавания текста и в течение минуты изображение страницы открывается в окне программы. Правая часть окна делится теперь на три раздела. В левом разделе "Изображение" мы можем редактировать изображение. Подробнее о редактировании изображения можно почитать в уроке: Сканирование книги . В правом разделе "Текст" можно сразу вносить изменения в текст - редактировать содержание страницы еще до его сохранения. Это очень удобно, когда нужно, например, быстро изменить в документе даты, реквизиты, фамилии.

В левой части окна "Страницы" появляется пиктограмма распознанной страницы:

Если редактировать ничего не надо, заменяем первую страницу на стекле сканера второй страницей и повторяем технологию. Один раз настроив размеры скана в окне "Сканирование ABBYY FineReader" в режиме "Просмотр" для первой страницы, теперь сразу кликаем кнопку "Сканировать". Установленные для первой страницы настройки сохраняются, и последующие страницы сканируем без предварительного просмотра. Так сканируем все страницы нашего документа.

Закончили, и теперь, поочередно кликая по пиктограммам открываем страницы, проверяя правильную их последовательность.

После этого, в левой части окна "Страницы" выделяем все пиктограммы кнопкой: "Правка – Выделить все" или клавиатурным сочетанием: "Ctrl+A". Затем, в выпадающем списке рядом с кнопкой "Сохранить" выбираем команду: "Сохранить как документ PDF":


Хлопаем теперь по самой кнопке и сохраняем документ с именем "Договор.pdf" в папку «Договор»:


В итоге получаем многостраничный текстовый документ pdf-формата - электронную версию нашего документа с условным названием "Договор".

Так, FineReader’ом оцифровываем текстовые документы.

Изменив режим сканирования на "цветной" в окне "Сканирование ABBYY FineReader" также легко оцифруем цветные картинки и фотографии.

А, задав в контекстном меню, например, команду: "Сохранить как документ Microsoft Word 2007" преобразуем наш проект в единый многостраничный редактируемый вордовский документ.

Вобщем, программа легко усвояемая, интуитивно понятная и везде всплывающие подсказки.

История Abbyy FineReader насчитывает уже более 20 лет. Юбилейный 2013 г. компания отметила выпуском полновесного (по сравнению с Express Edition от 2009 г.) Abbyy FineReader Pro для Mac, а через пару месяцев, в феврале 2014 г., свой «подарок» получили и пользователи Windows - Abbyy FineReader 12 Professional и Corporate. Напомню, что предыдущая версия появилась еще в 2011 г. , а два с половиной года срок немалый - давайте разбираться, насколько существенны изменения.

Общая информация

Системные требования для новой версии совершенно не изменились. Платформой может служить Windows или Windows Server начиная от XP и 2003 соответственно. Аппаратные запросы по нынешним временам и подавно скромны: процессор любой разрядности с частотой от 1 ГГц, оперативной памяти не менее 1 ГБ плюс по 512 МБ на каждое вычислительное ядро и т. п. Несколько увеличилась только потребность в дисковом пространстве - теперь для установки требуется не 700, а 850 МБ (плюс, по-прежнему, еще 700 МБ для рабочих файлов).

Естественно, речь идет о минимальных требованиях; полностью возможности Abbyy FineReader 12 Professional раскроются только на сравнительно современных системах. В частности, напомню, что программа умеет эффективно распараллеливать обработку отдельных страниц, задействует при этом все процессорные ядра и загружает любой процессор почти на 100%. А вот к оперативной памяти она действительно не жадная, и даже остается 32-разрядной.

Не претерпела изменений и процедура установки: минимум вопросов и опций. В комплекте с Abbyy FineReader 12 Professional по-прежнему идет Abbyy Screenshot Reader, который становится работоспособным только после регистрации пользователя.

После этого также откроется доступ к техподдержке.

Даже на основе этой скромной информации можно предположить, что перед нами результат эволюции. Соответственно, в дальнейшем я сосредоточусь на описании изменений по сравнению с предыдущей версией, которые условно можно разделить на две основные группы: работа с программой (интерфейс, вспомогательные инструменты, удобство использования) и OCR (качество и производительность собственно распознавания).

Работа с программой

Abbyy FineReader 12 Professional демонстрирует некоторые доработки в части пользовательского интерфейса. Это сразу же заметно на окне Задачи, которое по умолчанию открывается при запуске программы. Оно, очевидно, имитирует концепцию плиток Windows 8.x и адаптировано для управления пальцами, тем более, что в программе также поддерживаются и основные жесты вроде прокрутки и масштабирования. На деле же, изменения коснулись только «фасада», да и то отчасти - рядом с плитками соседствуют обычные элементы управления и в процессе настройки любого сценария придется иметь дело со стандартными диалоговыми окнами. Работать с ними пальцами довольно проблематично, особенно на экранах 8-10″, которые становятся популярными у Windows-планшетов.

Представить же, что пользователь такого планшета, оснащенного камерой, может захотеть быстро «на ходу» ввести какой-то печатный документ, действительно несложно. Между тем вся история Windows, начиная с первой редакции Tablet PC, подтверждает бессмысленность адаптации к сенсорному управлению стандартного настольного интерфейса. По-видимому, для этих целей гораздо правильнее создавать специальную оболочку, соответствующую всем канонам Metro, но использующую тот же «движок». Примером подобного решения служит Internet Explorer из Windows 8.x. К тому же, у Abbyy даже имеется некий задел в виде Abbyy FineReader Touch для Windows 8, который использует облачный сервис компании.

Если же отвлечься от сенсорного ввода, то найдутся еще изменения данного класса - от вполне ожидаемого обновления окон открытия/сохранения документов, которые, среди прочего, обеспечивают простой доступ к облачным хранилищам (при наличии в системе соответствующего агента и его папки), до нескольких более важных и полезных.

Обработка страниц в Abbyy FineReader 12 Professional теперь выполняется в фоновом режиме. Это подразумевает отсутствие прежнего модального окна со статусом операций (теперь данную роль играет строка статуса внизу экрана) и, соответственно, наличие доступа к интерфейсу. Таким образом пользователь имеет возможность работать с программой параллельно процессу распознавания (если он, конечно достаточно длительный), к примеру, копировать фрагменты полученного текста или даже корректировать разметку страниц - последние при этом будут поставлены в очередь и обработаны заново.

В отличие от прежней версии, также не происходит перелистывания страниц по мере распознавания или при начальной загрузке документа, если автоматическое распознавание отключено. В Abbyy FineReader 12 Professional документ загружается и разбивается на страницы практически мгновенно, а их эскизы строятся только по мере ручного пролистывания в левой панели. Кроме всего прочего, тем самым экономятся вычислительные ресурсы, причем, довольно ощутимо на больших многостраничных документах.

Остальные изменения данного класса не столь интересны, хотя и могут пригодиться в каких-то сценариях, поэтому о них кратко.

Если нужно не обработать документ целиком, а лишь процитировать отдельные места, то можно отключить все автоматические операции и выбирать необходимые фрагменты любых типов, сразу же копируя их в буфер обмена - при этом анализ и распознавание будут выполняться на лету.

Для получения результата с более простой структурой, чем у оригинала, можно отключать воссоздание колонтитулов, сносок и других элементов макета. Это может пригодиться, к примеру, при подготовке электронных книг.

Продолжая об электронных книгах - в Abbyy FineReader 12 Professional поддерживаются форматы EPUB 2.0.1 и 3.0.

Расширены параметры преобразования в XLSX, к примеру, появилась возможность очищать форматирование или сохранять картинки.

При сохранении результирующих документов в PDF с текстовым слоем теперь можно воспользоваться новой технологией Abbyy Precise Scan, которая заключается в сглаживании символов на оригинальных изображениях страниц. Доступна она, кстати, только в цветном режиме.

Эффект от ее работы достаточно заметен, хотя и не всегда, скажем так, «академичен». Впрочем, читабельность сглаженных символов в любом случае должна быть выше, а в данном примере оригинал действительно очень низкого качества.


OCR

Теперь давайте разберемся, какие улучшения произошли в механизмах собственно распознавания.

Разработчики сообщают об очередном этапе совершенствования технологии ADRT, которая, напомню , анализирует и воссоздает логическую структуру документа. Декларируется, что она стала работать гораздо точнее, особенно с таблицами, списками, диаграммами. Продемонстрировать это адекватными примерами не так просто, но не невозможно. Вот, к примеру, результаты распознавания (с настройками по умолчанию) одной и той же страницы в Abbyy FineReader 11 Professional (вверху) и Abbyy FineReader 12 Professional (внизу).


Старая версия выделила и обработала только основной текстовый блок, возможно, из-за низкого качества оригинала сочтя остальные элементы «мусором». Новая, напротив, корректно опознала список и попыталась его воссоздать. Результат, правда, не идеален: то что распознаны не все маркеры можно, опять же, отнести на качество изображения, но программа, по-видимому, все же не поняла, что перед ней содержание, иначе не интерпретировала бы цифры как буквы. Тем не менее, прогресс налицо и на более качественных оригиналах подобных претензий, возможно, не было бы.

А вот как обрабатывается «неявная» таблица без разделительных линий - Abbyy FineReader 11 Professional (вверху) и Abbyy FineReader 12 Professional (внизу).


Хорошо видно, что старая версия, в отличие от новой, вообще не увидела здесь табличной структуры и ограничилась набором несвязанных между собой текстовых блоков. Не поленитесь щелкнуть на изображениях и сравнить результаты распознавания - у Abbyy FineReader 12 Professional он близок к идеалу.

К сожалению, так происходит не всегда и уже на соседних страницах Abbyy FineReader 12 Professional показал результаты, аналогичные Abbyy FineReader 11 Professional. Хотя именно ADRT должна была бы отследить одинаковые «шапки» и понять, что перед ней своеобразная перетекающая таблица.

Но все равно хорошо заметно, что обновленные алгоритмы обращают внимание на большее количество деталей чем ранее. В процессе тестирования Abbyy FineReader 12 Professional наблюдалась, к примеру, даже попытка интерпретировать как таблицу картинку с упорядоченным размещением на нем текстовой информации. Гораздо чаще также новая версия пытается воссоздавать различные диаграммы и схемы на основе фонового рисунка, а не из отдельных графических и текстовых блоков.

Есть еще несколько новинок, призванных повысить в Abbyy FineReader 12 Professional качество распознавания. Как известно, одной из предпосылок для этого является качество оригинала, особенно если он получен с помощью не сканера, а фотокамеры. Именно поэтому в свое время в FineReader появились средства предварительной обработки оригиналов. В новой версии их список расширен, добавились обрезка по краям страниц, осветление и выравнивание яркости фона, удаление цветных элементов. Последнее может пригодиться, к примеру, для обработки документов с печатями и штампами. Кроме того, теперь пользователь может подключать различные методы индивидуально.

Улучшена также языковая поддержка. Во-первых, появился русский алфавит с ударениями, во-вторых, декларируется повышение качества распознавания китайского, японского и корейского (до 20%), арабского (до 60%), иврита (до 10%) - достигнуто это, по-видимому, за счет совершенствования и дополнительной тренировки классификаторов .

Ну и наконец, один из наиболее животрепещущих вопросов для многих читателей: выросла ли скорость работы программы? Аргументированно ответить на этот вопрос, тем более с цифрами, не так-то просто - слишком много языков, каждый из которых имеет свои нюансы; слишком велико разнообразие оригиналов; слишком много неизвестных нам факторов влияния на работу алгоритмов. Поэтому даже сами разработчики достаточно сдержанно говорят о росте производительности Abbyy FineReader 12 Professional на 10-15%.

Подобные цифры обычно получаются по результатам обработки достаточно больших массивов документов и, соответственно, представляют собой нечто вроде «средней температуры по больнице». Поэтому полезно подробнее изучить какие-нибудь показательные частные случаи, к примеру, подобные двум следующим:

  • отсканированные в цвете с разрешением 300 dpi 10 страниц полноцветного буклета формата A4. Качество хорошее, языки русский и английский, макет сложный;
  • PDF с графическими изображениями 138 страниц книги, содержащей небольшое количество цветных и черно-белых иллюстраций, несколько таблиц. Качество низкое (начиная, по-видимому, со «слепой» печати в бумажной книге), языки украинский и русский, макет простой.

Оба документа распознавались в цветном режиме, а второй также и в черно-белом, что имело целью имитировать процесс подготовки электронной книги. Все настройки по умолчанию оставлялись без изменений, за исключением набора языков и, соответственно, режимов работы. В качестве тестового полигона использовался ПК с процессором i5-3450 и 8 ГБ памяти. Результаты представлены в следующей таблице:

Как видно, для PDF ускорение даже превышает обещанные 15% - возможно, это как раз один из особых случаев, хорошо подходящих для последних оптимизаций в алгоритмах распознавания. При этом надо иметь в виду, что программы, вообще говоря, проделали разный объем работы. Взгляните хотя бы на иллюстрации выше к обработке таблиц - трудно сказать, какой из версий пришлось сложнее.

Что касается количества ошибок, то оно у обеих версий практически совпадало, хотя было заметно, что иногда сомнения вызывают разные фрагменты и символы - это, по-видимому, является свидетельством тренировки алгоритмов. В любом случае, большинство неуверенно распознанных символов абсолютно корректно идентифицировалось с помощью словарей, а «грубые» ошибки (некорректная интерпретация специальных и декоративных символов, текста на графике и пр.) совпадали. Так что разницу и вовсе можно считать исчезающей.

Другой вопрос, насколько подобное повышение производительности вообще имеет значение? По-видимому, выигрыш в полминуты на 138 страницах, которые все равно нужно проверять и, возможно, корректировать, немногого стоит. Если работы, подобные тестовым заданиям, предполагается выполнять от случая к случаю, то о производительности можно точно не переживать. Другое дело, если речь идет об автономной обработке больших объемов документов, которая доступна в Abbyy FineReader 12 Corporate. В таком случае экономия 15% времени уже вполне ощутима.

Резюме

Несмотря на то, что новый Abbyy FineReader 12 Professional не обещал ничего революционного, по крайней мере несколько изменений в нем заслуживают всяческой похвалы. Прежде всего, это усовершенствования технологии ADRT в части распознавания таблиц, диаграмм и вообще логической структуры страниц, что в некоторых случаях позволяет получать кардинально лучшие результаты, а также фоновый режим обработки, который открывает новые возможности для интерактивной работы с большими документами.

Других изменений также немало, хотя они и менее значимы. Движение в сторону поддержки сенсорного управления сегодня безусловно оправдано, однако путь выбран порочный - обеспечить в одном интерфейсе одинаково удобную работу мышью и пальцами вряд ли возможно. Впрочем, пока Windows-планшеты только пытаются пробиться на рынок, и у разработчиков из Abbyy еще есть время.

Цены на Abbyy FineReader 12 Professional:

  • коробочная версия: 4990 руб.;
  • версия для скачивания: 4490 руб.;
  • обновление: 2690 руб.

Как обычно, ответ на вопрос «стоит ли менять старую версию на новую?» зависит от ситуации. В любом случае стоит учитывать, что жизненный цикл у FineReader достаточно продолжительный, и если какое-то из описанных улучшений играет для вас сколько-нибудь существенную роль, то за 2-3 года затраты на обновление наверняка окупятся - если не материально, то морально. Решить же для себя этот вопрос окончательно поможет .

Один из популярнейших функционалов по работе со сканированием и обработкой файлов различного типа - Файн Ридер. Функционал программного продукта был разработан российской компанией ABBYY, он позволяет не только распознавать, но и обрабатывать документы (переводить, менять форматы и другое). Многие пользователи могут только установить, а как пользоваться ABBYY FineReader, сразу разобраться не могут. На многие вопросы вы сможете найти ответы в этой статье.

Программа позволяет сканировать и распознавать текст — и не только

Чтобы подробно разобраться, что это за программа ABBYY FineReader 12, необходимо подробно рассмотреть все её возможности. Первой и самой простой функцией является сканирование документа. Существует два варианта сканирования: с распознаванием и без него. В случае обычного сканирования печатного листа вы получите изображение, которое сканировали в указанной папке на вашем компьютерном устройстве.

ВНИМАНИЕ. Лист нужно класть на сканирующую часть принтера ровно, по указанным на принтере контурам. Не допускайте заламывания исходника, это может привести к плохому качеству итогового скана.

Вы должны самостоятельно решить, для чего нужен FineReader именно вам, так как утилита имеет значительный функционал, например, вы можете самостоятельно выбрать в каком цвете хотите получить изображение, есть возможность перевести все фото в чёрно-белый . В чёрно-белом цвете распознавание происходит быстрее, качество обработки возрастает.

Если же вас интересует функция распознавания текста ABBYY FineReader, перед сканированием вам нужно нажать специальную кнопку. В этом случае есть несколько вариантов получения информации. Стандартно на ваш экран выведется распознанный кусок листа, который вы сможете скопировать или отредактировать вручную.

Если вы выберите другие функции, то сможете сразу получить файл Word-документом или Excel-таблицей . Выбирать функции очень просто, меню интуитивно понятно, легко настраивается благодаря тому, что все нужные вам кнопки перед глазами.

ВАЖНО. Перед тем как распознать текст ABBYY FineReader, вам необходимо точно подобрать язык обработки. Несмотря на то, что утилита работает полностью автоматически, бывает, что низкое качество исходника не позволяет понять, что за язык был в исходнике. Это сильно снижает качество итоговых результатов работы приложения.

Несколько режимов работы

Чтобы полностью разобраться, как пользоваться ABBYY FineReader 12, необходимо попробовать два режима работы «Тщательный» и «Быстрое распознавание». Второй режим подходит для высококачественных изображений , а первый - для низкокачественных файлов. Режим «Тщательный» в 3–5 раз дольше обрабатывает файлы.

На иллюстрации показан результат работы программы — распознавание текста с изображения

Какие ещё есть функции?

Распознавание текста в программе ABBYY FineReader не единственная полезная функция. Для большего удобства пользователей имеется