22 Июн, 2010
Категории: Мысли вслух
Автор: Вовка

Следующая ступень эволюции Интернета — Семантическая паутина

Несмотря что алгоритмы поиска не перестают совершенствоваться, и становятся все более хитрыми и изощренными, они не способны эффективно справиться со все нарастающим хаосом информации в Интернете. Вопрос, который волнует сейчас многих, звучит так: по какому пути будет проходить дальнейшая эволюция поиска?

В настоящее время на всевозможных информационных конференциях, форумах и блогах, очень часто звучит мнение, что на пути развития Интернета настал переломный момент, и следующей ступенькой будет переход к эпохе семантической паутины. Это будет означать постепенный отказ от поиска, ориентированного на документы, и переход к поиску, ориентированному на содержание. Результаты различных исследований в данной теме, ежегодно обнародуются на специализированных конференциях, к примеру, International Semantic Technology Conference (SemTech).

Текущий способ систематизации данных в Интернете является не пригодным для эффективного распознавания поисковыми машинами.

В настоящий момент Интернет вмещает в себя бескрайний массив разнообразной информации. При этом необходимо учитывать, что человек способен обработать данные, содержащиеся на странице интернет ресурса, по смыслу, в отличие от машины, которая не способна произвести подобный смысловой анализ. И как результат, очень часто возникают сложности с поиском необходимой информации. К примеру, современные поисковые системы, такие как Google, выдают результаты поиска по конкретному запросу, которые обрабатываются на основе статистических методов. Может ли такой способ считаться эффективным? Позволяет ли он быстро и безотказно находить нужную информацию в интернет пространстве? Ответ, как правило, нет!

В качестве примера можно привести следующее: при введении в поисковую систему запроса «pidgin» (голубь), результаты будут относиться как к птице, так и одноименному интернет-мессенжеру. Разрешением такой задачи могло бы стать создания поиска, ориентированного не на значение слова, а на семантику.

Данные в Интернете имеют различную структуру, в результате этого прямое сравнение практически не возможно. К примеру, по запросу «семантическая паутина» можно получить множество страниц, содержащих разнообразную информацию, которая очень часто является противоречивой. В результате пользователь вместо того чтобы получить явный и однозначный результат, получает длинный список страниц, контент которых может иметь довольно косвенное отношение к искомому объекту.

Решение лежит в систематизации и в формировании связей между данными.

Понятие «семантическая паутина» означает систематизацию информации таким образом, что бы она могла быть логически обработана поисковыми системами. Но каждая веб страница, вместе с чистыми данными содержит информацию в виде метатекста. И для того чтобы реализовать идею семантической паутины, консорциум W3С установил ряд стандартов. Первую роль играют такие языки, как XML, OWL, RDF и SPARQL. Которые позволяют сохранять семантически обработанную информацию в форме таксономий и онтологий.

Глоссарий:

Онтология - детальная формализация области знаний при помощи концептуальной системы

Таксономия - (в переводе с греческого - «упорядочивание») - классификация и систематизация сложноорганизованных областей знаний, имеющих иерархическое страение.

Методы создания Интернета на основе семантической паутины.

Каким же образом можно осуществить переход к Интернету, ориентированному на содержание? Одним из путей является размещение в Интернете уже систематизированной информации. Нужно сказать, что существует много дисциплин, данные в которых уже имеют структурированный вид. Но как же быть с множеством сведений, которые уже содержаться в Интернете? Ученые программисты осуществляют попытки разрешить эту задачу при помощи технологий из сферы искусственного интеллекта и компьютерной лингвистики.

Так технология «Natural Language Processing» проводит анализ текстов, имитируя действия читающего человека. В ходе такого анализа текст синтаксически разбивается на предложения. Использования дополнительной структуры («субъект-предикат-объект») дает возможность раскрыть семантическое содержание текста. Так, поисковый запрос, обработанный таким образом, может устанавливать связи между объектами, местоположением, лицами и событиями, и в результате этого значительно снижается количество неточностей и ошибок в результате поиска.

Другой способ имеет название «Microformats» (микроформаты). Основная идея лежит в том, чтобы расширить страницы (X)HTML элементами и специальными стандартами, адаптировав их таким образом для понимания поисковыми машинами.

Следующая модель имеет название RDF (Resource Description Framework), которая была разработана консорциумом W3C, модель описывает формат метаданных в семантической паутине, и так же требует внедрения дополнительной информации в веб страницу.

Взгляд в будущее: уверенное развитие семантической паутины.

Развитие семантического Интернета будет способствовать эффективному поиску информации, и смысловому связыванию данных. Новые концепции анализа Интернет страниц при помощи RDF, свидетельствуют что процесс перестроения на интернет нового типа возможен, и более того, уже начался. Первым этапом является перенос знаний из открытых баз данных, таких как «Wikipedia» .

Функционирование семантического Интернета неразрывно связано с наличием большого количества информации. Переход от поиска понятий, к возможности получить смысловой ответ, должен быть осуществлен в ближайшие годы.

Информация: в сети уже огромное количество пособий заработка. Продвижение сайтов, seo, привод трафика и многое другое может принести вам доход. Как заработать на партнерских программах вы знаете? А ведь их в сети не мало...

ОФФпост:

Приходит Вовочка из школы и говорит своим родителям:
- Не знаю, чем вы так понравились нашей учительнице, но она опять хочет вас видеть... 😀

Похожие записи в блоге:

   

Нравится как я пишу? Давайте вместе формировать интересные материалы на моем блоге. Вы можете сделать ретвит данной статьи или подписаться на мою ленту в системе микроблогов Твиттер.
Читайте меня в Твиттере и будьте в курсе последних моих действий.

Комментирование Facebook:


Блоггеру

  • Gogettop - уникальный сервис продвижения вечными ссылками с максимальной эффективностью и рассрочкой платежа на 12 месяцев. Эффективность естественных вечных ссылок очень высокая. Продвижение становится еще доступнее.

Опрос

Влияет ли месторасположение сервера на поисковую выдачу?

Просмотреть результаты

Загрузка ... Загрузка ...

Вовкин блог на Facebook