Наташа - главная Фестиваль Верх-Обский Здоровье без лекарств Продам секрет красоты RussianLand


г. Барнаул
  natasha.webuspex.ru



Рейтинг@Mail.ru
 
 
Как распознать текст в Djvu (Djv) файле.

Рекомендация: для просмотра картинок в натуральную величину  выбрать на ней правой кнопкой мыши "открыть изображение" или ("сохранить как..." для IE).

Пришло время взяться за написание новой статьи. У меня возник интересный вопрос:
- как распознать текст в DJVu файле, если он сохранен как картинка, без текстового слоя, и не поддается распознаванию обычными методами?

 

Цифровая книга "Идеальный план продвижения через социальные сети"

Сложность была в том, что
- имеющиеся в моем распоряжении 7 и 8 версии "ABBYY Fine Reader", в отличие от PDF файлов, Djv не понимают ( 7 версия нам ещё пригодится в будущем ). Формат Djvu приобрел большую популярность в Интернет ввиду заявленной его компактности, но мне, он не нравится из-за низкого качества сохраненного текста. Читать в нем довольно тяжело. Гораздо интереснее выглядит, на мой взгляд, формат MDI  виртуального принтера MS Office (как из него копировать текст смотри ниже). Тексты в нем читаются легко, качество хорошее. Но вернемся к Djv.

Чтобы иметь возможность править его в текстовом редакторе, надо исходный djv файл преобразовать в текст. Для этого сначала его необходимо конвертировать в формат, который понимают распознаватели текста, например, в картинки tiff. Необходимым условием правильного распознавания должно быть хорошее качество исходного файла.

Поступаем следующим образом: открываем исходный файл в программе, работающей с djv файлами. Я для этого использовала DjV Editor. Для текстового файла не забудьте переключиться в черно- белый режим (на рисунке не включен). Что получилось, вы видите ниже.

DjV Editor

Открываем меню "печать" и выбираем виртуальный принтер из MS Office. Он, обычно, устанавлен по умолчанию. В окне "печать" (верхнее по рисунку) выбираем номера страниц, необходимые для преобразования, и нажимаем кнопку "свойства". На вкладке "дополнительно" (нижнее окно) устанавливаем формат tiff с разрешением 300 dpi. Нажимаем кнопку OK и ещё раз ОК. Виртуальный принтер сохраняет выбранные страницы в довольно компактный многостраничный tiff - файл (одна страничка занимает 35 Кбайт), который теперь поймут нужные нам программы.

- Можно сделать экспорт из самого DjV Editor, но он это делает только по одной странице.

С конвертированием закончено. Теперь можно открыть этот файл для распознавания и затем сохранить его как текст. Такой программой может быть встроенный в MS Ofice "Document Imaging" или "ABBYY Fine Reader". Как это сделать, видно из рисунка.

MS Ofice Document Imaging

Нажимаем на полученном нашем файле правой кнопкой мыши и из контекстного меню выбираем "открыть с помощью"...MS Ofice Document Imaging или ABBYY Fine Reader  в зависимости от поставленной нами цели. Я открыла документ в MS Office. Получилась следующая картина:

MS Ofice Document Imaging

Удобство этой программы заключается в том, что можно выделить необходимый фрагмент текста
и правой кнопкой выбрать "копировать как текст". Программа распознает выделенную область и
копирует в буфер обмена. При распознавании текста она выглядит так:

MS Ofice Document Imaging

Теперь у нас есть текст, который можно вставить в текстовый редактор. Открываем MS World и вставляем в него из буфера наш текст, который редактируем, добавляем ещё куски и т. д. и получаем следующую муру:

MS word

Качество распознавания текста вполне приемлемо, хотя ошибок много. С картинками могут быть проблемы. Поэтому для сложных страниц лучше использовать Fine Reader.
- Аналогично задачу по экспорту djvu можно выполнить с помощью программы STDU Viewer. Только у неё отсутствует tiff формат, поэтому многостраничный файл у вас не получится.


Изучила DjV Editor и распознала его файлы Наталья Суворова


Отвлечёмся немного после напряженной работы


Girl и советская эстрада

Какие ассоциации приходят на ум, когда слушаешь советскую
эстраду 70-х годов. О чём напоминают эти песни?

А когда её встречал я где - нибудь случайно...

У кого нет программы для работы с DJVu можете взять здесь
Встраиваем просмотр djvu в html страницу
Видеокурс "Раздвижные панели для WordPress"
Цифровая книга "Идеальный план продвижения через социальные сети"

Курсовая работа. Лабораторная работа по ТОЭ. Распознать и преобразовать Djvu в текст. Скачать DjVu Solo 3.1