30 октября на официальном блоге компании Google появилось сообщение о том, что поисковик научился индексировать файлы, которые представляют из себя отсканированный документ.
"До сих пор отсканированные документы можно было редко встретить в нашем поиске, потому что мы не могли быть уверены в их содержании. Мы могли судить о докуменет лишь по описанию, которое прилагается к отсканированному документу" – говориться на блоге Google. "Сейчас же ситуация меняется. Теперь мы способны осуществлять оптичесое распознание символов в любом документе, который хранится в формате Adobe PDF".
Google и раньше вносил в индексную базу PDF документы, но из-за отсутствия механизма Оптического распознавания символов в отсканированном документе, сниппеты создавались на основе текста, находящегося на странице, где хранится документ. Это могло могло ввести в заблуждение пользователей при поиске необходимой информации.
Теперь же сниппет создается на основе текста содержащегося в PDF-файле.
Новость в оригинале на блоге Google