22 Июн, 2010
Категории: Мысли вслух
Автор: Вовка

Следующая ступень эволюции Интернета — Семантическая паутина

Несмотря что алгоритмы поиска не перестают совершенствоваться, и становятся все более хитрыми и изощренными, они не способны эффективно справиться со все нарастающим хаосом информации в Интернете. Вопрос, который волнует сейчас многих, звучит так: по какому пути будет проходить дальнейшая эволюция поиска?

В настоящее время на всевозможных информационных конференциях, форумах и блогах, очень часто звучит мнение, что на пути развития Интернета настал переломный момент, и следующей ступенькой будет переход к эпохе семантической паутины. Это будет означать постепенный отказ от поиска, ориентированного на документы, и переход к поиску, ориентированному на содержание. Результаты различных исследований в данной теме, ежегодно обнародуются на специализированных конференциях, к примеру, International Semantic Technology Conference (SemTech).

Текущий способ систематизации данных в Интернете является не пригодным для эффективного распознавания поисковыми машинами.

В настоящий момент Интернет вмещает в себя бескрайний массив разнообразной информации. При этом необходимо учитывать, что человек способен обработать данные, содержащиеся на странице интернет ресурса, по смыслу, в отличие от машины, которая не способна произвести подобный смысловой анализ. И как результат, очень часто возникают сложности с поиском необходимой информации. К примеру, современные поисковые системы, такие как Google, выдают результаты поиска по конкретному запросу, которые обрабатываются на основе статистических методов. Может ли такой способ считаться эффективным? Позволяет ли он быстро и безотказно находить нужную информацию в интернет пространстве? Ответ, как правило, нет!

В качестве примера можно привести следующее: при введении в поисковую систему запроса «pidgin» (голубь), результаты будут относиться как к птице, так и одноименному интернет-мессенжеру. Разрешением такой задачи могло бы стать создания поиска, ориентированного не на значение слова, а на семантику.

Данные в Интернете имеют различную структуру, в результате этого прямое сравнение практически не возможно. К примеру, по запросу «семантическая паутина» можно получить множество страниц, содержащих разнообразную информацию, которая очень часто является противоречивой. В результате пользователь вместо того чтобы получить явный и однозначный результат, получает длинный список страниц, контент которых может иметь довольно косвенное отношение к искомому объекту.

Решение лежит в систематизации и в формировании связей между данными.

Понятие «семантическая паутина» означает систематизацию информации таким образом, что бы она могла быть логически обработана поисковыми системами. Но каждая веб страница, вместе с чистыми данными содержит информацию в виде метатекста. И для того чтобы реализовать идею семантической паутины, консорциум W3С установил ряд стандартов. Первую роль играют такие языки, как XML, OWL, RDF и SPARQL. Которые позволяют сохранять семантически обработанную информацию в форме таксономий и онтологий.

Глоссарий:

Онтология - детальная формализация области знаний при помощи концептуальной системы

Таксономия - (в переводе с греческого - «упорядочивание») - классификация и систематизация сложноорганизованных областей знаний, имеющих иерархическое страение.

Методы создания Интернета на основе семантической паутины.

Каким же образом можно осуществить переход к Интернету, ориентированному на содержание? Одним из путей является размещение в Интернете уже систематизированной информации. Нужно сказать, что существует много дисциплин, данные в которых уже имеют структурированный вид. Но как же быть с множеством сведений, которые уже содержаться в Интернете? Ученые программисты осуществляют попытки разрешить эту задачу при помощи технологий из сферы искусственного интеллекта и компьютерной лингвистики.

Так технология «Natural Language Processing» проводит анализ текстов, имитируя действия читающего человека. В ходе такого анализа текст синтаксически разбивается на предложения. Использования дополнительной структуры («субъект-предикат-объект») дает возможность раскрыть семантическое содержание текста. Так, поисковый запрос, обработанный таким образом, может устанавливать связи между объектами, местоположением, лицами и событиями, и в результате этого значительно снижается количество неточностей и ошибок в результате поиска.

Другой способ имеет название «Microformats» (микроформаты). Основная идея лежит в том, чтобы расширить страницы (X)HTML элементами и специальными стандартами, адаптировав их таким образом для понимания поисковыми машинами.

Следующая модель имеет название RDF (Resource Description Framework), которая была разработана консорциумом W3C, модель описывает формат метаданных в семантической паутине, и так же требует внедрения дополнительной информации в веб страницу.

Взгляд в будущее: уверенное развитие семантической паутины.

Развитие семантического Интернета будет способствовать эффективному поиску информации, и смысловому связыванию данных. Новые концепции анализа Интернет страниц при помощи RDF, свидетельствуют что процесс перестроения на интернет нового типа возможен, и более того, уже начался. Первым этапом является перенос знаний из открытых баз данных, таких как «Wikipedia» .

Функционирование семантического Интернета неразрывно связано с наличием большого количества информации. Переход от поиска понятий, к возможности получить смысловой ответ, должен быть осуществлен в ближайшие годы.

Информация: в сети уже огромное количество пособий заработка. Продвижение сайтов, seo, привод трафика и многое другое может принести вам доход. Как заработать на партнерских программах вы знаете? А ведь их в сети не мало...

ОФФпост:

Приходит Вовочка из школы и говорит своим родителям:
- Не знаю, чем вы так понравились нашей учительнице, но она опять хочет вас видеть... 😀

Похожие записи в блоге:

   

Нравится как я пишу? Давайте вместе формировать интересные материалы на моем блоге. Вы можете сделать ретвит данной статьи или подписаться на мою ленту в системе микроблогов Твиттер.
Читайте меня в Твиттере и будьте в курсе последних моих действий.

Комментирование Facebook:


Блоггеру

  • Gogettop - уникальный сервис продвижения вечными ссылками с максимальной эффективностью и рассрочкой платежа на 12 месяцев. Эффективность естественных вечных ссылок очень высокая. Продвижение становится еще доступнее.

Опрос

Как вы относитесь к администрированию в Твиттере?

Просмотреть результаты

Загрузка ... Загрузка ...

Вовкин блог на Facebook