Блог » Новости » Google научился читать сканированные документы

Google научился читать сканированные документы

Google индексирует PDF-формат30 октября на официальном блоге компании Google появилось сообщение о том, что поисковик научился индексировать файлы, которые представляют из себя отсканированный документ.

"До сих пор отсканированные документы можно было редко встретить в нашем поиске, потому что мы не могли быть уверены в их содержании. Мы могли судить о докуменет лишь по описанию, которое прилагается к отсканированному документу" – говориться на блоге Google. "Сейчас же ситуация меняется. Теперь мы способны осуществлять оптичесое распознание символов в любом документе, который хранится в формате Adobe PDF".

Google и раньше вносил в индексную базу PDF документы, но из-за отсутствия механизма Оптического распознавания символов в отсканированном документе, сниппеты создавались на основе текста, находящегося на странице, где хранится документ. Это могло могло ввести в заблуждение пользователей при поиске необходимой информации.

Теперь же сниппет создается на основе текста содержащегося в PDF-файле. 


Новость в оригинале на блоге Google

 

Не останавливайтесь, читайте еще:

ITNews
Автор-обозреватель компьютерной и мобильной техники. Вебмастер, программист. Веду проект ITNewsOnly с 2008 года.

Оставь отзыв о статье "Google научился читать сканированные документы"

Зарегистрируйтесь, чтобы добавить комментарий.

© 2008 ITnewsOnly, новости IT. Материалы сайта охраняются законом об авторских и смежных правах.
Использовать материалы без письменного разрешения запрещено. Условия использования сайта.
Protected by Copyscape Online Infringement Checker