Несмотря что алгоритмы поиска не перестают совершенствоваться, и становятся все более хитрыми и изощренными, они не способны эффективно справиться со все нарастающим хаосом информации в Интернете. Вопрос, который волнует сейчас многих, звучит так: по какому пути будет проходить дальнейшая эволюция поиска?
В настоящее время на всевозможных информационных конференциях, форумах и блогах, очень часто звучит мнение, что на пути развития Интернета настал переломный момент, и следующей ступенькой будет переход к эпохе семантической паутины. Это будет означать постепенный отказ от поиска, ориентированного на документы, и переход к поиску, ориентированному на содержание. Результаты различных исследований в данной теме, ежегодно обнародуются на специализированных конференциях, к примеру, International Semantic Technology Conference (SemTech).
Текущий способ систематизации данных в Интернете является не пригодным для эффективного распознавания поисковыми машинами.
В настоящий момент Интернет вмещает в себя бескрайний массив разнообразной информации. При этом необходимо учитывать, что человек способен обработать данные, содержащиеся на странице интернет ресурса, по смыслу, в отличие от машины, которая не способна произвести подобный смысловой анализ. И как результат, очень часто возникают сложности с поиском необходимой информации. К примеру, современные поисковые системы, такие как Google, выдают результаты поиска по конкретному запросу, которые обрабатываются на основе статистических методов. Может ли такой способ считаться эффективным? Позволяет ли он быстро и безотказно находить нужную информацию в интернет пространстве? Ответ, как правило, нет!
В качестве примера можно привести следующее: при введении в поисковую систему запроса «pidgin» (голубь), результаты будут относиться как к птице, так и одноименному интернет-мессенжеру. Разрешением такой задачи могло бы стать создания поиска, ориентированного не на значение слова, а на семантику.
Данные в Интернете имеют различную структуру, в результате этого прямое сравнение практически не возможно. К примеру, по запросу «семантическая паутина» можно получить множество страниц, содержащих разнообразную информацию, которая очень часто является противоречивой. В результате пользователь вместо того чтобы получить явный и однозначный результат, получает длинный список страниц, контент которых может иметь довольно косвенное отношение к искомому объекту.
Решение лежит в систематизации и в формировании связей между данными.
Понятие «семантическая паутина» означает систематизацию информации таким образом, что бы она могла быть логически обработана поисковыми системами. Но каждая веб страница, вместе с чистыми данными содержит информацию в виде метатекста. И для того чтобы реализовать идею семантической паутины, консорциум W3С установил ряд стандартов. Первую роль играют такие языки, как XML, OWL, RDF и SPARQL. Которые позволяют сохранять семантически обработанную информацию в форме таксономий и онтологий.
Глоссарий:
Онтология – детальная формализация области знаний при помощи концептуальной системы
Таксономия – (в переводе с греческого – «упорядочивание») – классификация и систематизация сложноорганизованных областей знаний, имеющих иерархическое страение.
Методы создания Интернета на основе семантической паутины.
Каким же образом можно осуществить переход к Интернету, ориентированному на содержание? Одним из путей является размещение в Интернете уже систематизированной информации. Нужно сказать, что существует много дисциплин, данные в которых уже имеют структурированный вид. Но как же быть с множеством сведений, которые уже содержаться в Интернете? Ученые программисты осуществляют попытки разрешить эту задачу при помощи технологий из сферы искусственного интеллекта и компьютерной лингвистики.
Так технология «Natural Language Processing» проводит анализ текстов, имитируя действия читающего человека. В ходе такого анализа текст синтаксически разбивается на предложения. Использования дополнительной структуры («субъект-предикат-объект») дает возможность раскрыть семантическое содержание текста. Так, поисковый запрос, обработанный таким образом, может устанавливать связи между объектами, местоположением, лицами и событиями, и в результате этого значительно снижается количество неточностей и ошибок в результате поиска.
Другой способ имеет название «Microformats» (микроформаты). Основная идея лежит в том, чтобы расширить страницы (X)HTML элементами и специальными стандартами, адаптировав их таким образом для понимания поисковыми машинами.
Следующая модель имеет название RDF (Resource Description Framework), которая была разработана консорциумом W3C, модель описывает формат метаданных в семантической паутине, и так же требует внедрения дополнительной информации в веб страницу.
Взгляд в будущее: уверенное развитие семантической паутины.
Развитие семантического Интернета будет способствовать эффективному поиску информации, и смысловому связыванию данных. Новые концепции анализа Интернет страниц при помощи RDF, свидетельствуют что процесс перестроения на интернет нового типа возможен, и более того, уже начался. Первым этапом является перенос знаний из открытых баз данных, таких как «Wikipedia» .
Функционирование семантического Интернета неразрывно связано с наличием большого количества информации. Переход от поиска понятий, к возможности получить смысловой ответ, должен быть осуществлен в ближайшие годы.
ОФФпост:
Приходит Вовочка из школы и говорит своим родителям:
- Не знаю, чем вы так понравились нашей учительнице, но она опять хочет вас видеть… ![]()


Нравится как я пишу? Давайте вместе формировать интересные материалы на моем блоге. Вы можете сделать ретвит данной статьи или подписаться на мою ленту в системе микроблогов Твиттер. Читайте меня в Твиттере и будьте вкурсе последних моих действий.

