Как распознать сканированный текст

Как распознать сканированный текстДанная необходимость возникает при переводе в цифровой формат больших текстовых документов. Небольшие обычно набираются вручную, это не составляет труда, а вот при переводе в «цифру» целой книги или даже библиотеки займет огромное количество времени, что не всегда имеется. Именно в таких ситуациях и приходит на помощь сканер, но сам по себе он только переводи полученное изображение на экран монитора. Что сделать из него полноценный текстовый документ следует использовать дополнительные программы распознаватели.

Выбор программы

Среди них есть явно выделяющиеся лидеры, например, FineReader от ABBYY. Но, дело в том, что он платный и позволить его могут только крупные предприятия, а для домашнего использования он не подойдет. Конечно, как и везде данному софту есть и бесплатная альтернатива, которая отличается по возможностям. Этой альтернативой является CuneiForm. Именно бесплатность данного софта обеспечила потерю некоторых возможностей, по сравнению с предыдущей программой. В первую очередь это несовместимость работы с некоторыми устройствами сканирования, в частности с МФУ сканерами.

Таким образом к использованию будет доступна только стандартная программа сканирования, предоставленная операционной системой. Также «КуниФорм» имеет ограничения в разрешении сканируемого изображения и не сможет работать с документами больше ста килобайт. Но есть и плюсы, ведь качество распознавания намного выше, чем у платного аналога, так что для хорошего результата будет достаточно выставить разрешение в двести dpi. Программа может работать и с большим, но в таком случае есть вероятность ее зависания, поэтому лучше не рисковать.

Языков распознавания у платного аналога, конечно, больше. К тому же в нем есть функция их комбинированного распознавания, но зато в «КуниФорм» есть режим смешанного англо-русского распознавания, чего, чаще всего, достаточно. После сравнительно анализа можно удостовериться в хороших показателях работоспособности бесплатной программы и спокойно начать ее инсталляцию.

Установка программы

Весь процесс очень прост, достаточно лишь запустить установочный файл и программа все сделает сама. «КуниФорм» может устанавливаться на платформы начиная с «Виноус 98» и заканчивая современными версиями. После завершения процесса, в меню «пуск» и на рабочем столе появятся значки запуска программы.

Обзор интерфейса

По сравнению со своим аналогом программа очень проста и интуитивно понятна многим пользователям. Все основные настройки находятся на панели инструментов. Первая кнопка активирует режим работы мастера, но использовать ее можно только при поддержке сканером данной программы. В противном случае кнопка будет не активна.

Следующая кнопка активирует процесс сканирования, но работает она так же только при поддержке сканером программы. Начиная со второй кнопки можно обратить внимание на дополнительные стрелочки по бокам кнопок управления. Они активируют дополнительные возможности настроек.

Работа

Если программа поддерживается сканером, то использую ее получаем изображение. В противном случае загружаем в программу готовый скан с компьютера. «КуниФорм» способна поддерживать множество форматов файлов, включая TIF, JPG, GIF, BMP без проблем. Возможные неполадки могут возникнуть при работе с PNG, но и то не всегда.

После загрузки изображение следует разметить для дальнейшего корректного распознавания. Таким образом программа разделяет текст, таблицы и изображения на разные области, помоченные разными цветами. После этого запускается сканирование, результат которого будет выдан в отдельном окне встроенного редактора. Он немного похож на привычный Microsoft Word. Здесь выделены голубым цветом слова, которые программа не смогла до конца распознать, а розовым возможные ошибки в тексте. После редактирования ошибок текст можно сохранить с помощью последней кнопки, при этом выбрав формат конечного файла. Можно так же напрямую экспортировать документ в другую программу с помощью тех самых боковых стрелочек.

Так же дополнительное меню содержит кнопку «Автомат», которая активирует все выбранные функции в автоматический режим. То есть пользователю вообще не придется ничего делать кроме загрузки документа в программу, все остальное будет происходить автоматически. Стандартные настройки программы полностью удовлетворяют функциональную работу приложения, но по необходимости их можно настроить самостоятельно с помощью меню «Файл» и пункта «общие настройки». Здесь изменяются параметры распознавания языка, форматирования и сканирования документов.

Дополнительная утилита

В состав программы входит еще один компонент, вынесенный отдельно от остальных. Его можно найти в меню «пуск» в папке с основной программой. Она называется «пакетное распознавание». Необходима данная программа для быстрого распознавания больших объемов текста, например, если требуется перевести в цифровой формат целую книгу.

Ведь работая отдельно над каждой страницей, уйдет много времени. Дополнительная программка позволяет всего лишь указать нужные файлы и довольствоваться результатом готовой работы. Для этого необходимо сначала создать новый пакет документов. Затем все делается по подсказкам, лишь на последнем этапе пользователю придется выбирать действие с созданным пакетом. Его можно сохранить в исходном виде, а можно сразу запустить процесс распознавания.

Время работы последнего зависит от количества файлов и от степени видимости текста. После распознавания пользователю откроется список обработанных документов. В левой части основного окна будут находиться две вкладки и обработанными и исходными данными. Все возникшие проблемы при обработке отправляются в отдельную папку ошибок. После всего распределения и исправления важно сохранить внесенные изменения.

Заключение

Данная программа имеет хороший потенциал, но слишком медленно распознает документы, что говорит о ее усердных стараниях. В некоторых случаях можно использовать более ускоренный, но менее качественный способ распознавания с помощью программы «Клептомания».

Добавить комментарий

Ваш e-mail не будет опубликован. Обязательные поля помечены *