Введение в качество поисковой системы GoogleСуществует отдельная команда, которая так и называется «Качество поиска», и которая занимается отслеживанием процесса присвоения рейтингов в поисковой системе Google. Задача этой команды предельно ясна: несколько сотен миллионов раз в течение всего лишь одного дня люди задают вопросы поисковой системе Google, и в течение доли секунды поисковая система должна решить, какую страницу из миллиарда самых различных страниц в сети Интернет нужно показать по каждому отдельному запросу, а также в каком порядке ответы поисковой системы должны быть представлены пользователю на страницах результатов поиска. В последнее время круг обязанностей этой команды был расширен. В данной статье мы еще вернемся к этому вопросу. Несмотря на то, что поисковая система это то, что очень часто используется большим количеством людей, рейтинги в поисковой системе Google остаются достаточно неизученным вопросом. Это полностью наша вина и мы предпримем все усилия, чтобы исправить создавшееся положение вещей. Тому есть две причины: конкуренция и мошеннические действия по отношению к поисковой системе. Если говорить честно, то мы прилагаем все усилия, чтобы сохранить в секрете то, чем мы занимаемся. Опять-таки, на это существуют два разумных довода: конкуренция и мошенничество. Термин «конкуренция» говорит сам за себя. Ни одна компания не захочет делиться своими секретными рецептами со своими конкурентами. Что же касается мошенничества, если сделать формулы присвоения рейтингов в поисковой системе общедоступными, появится слишком много желающих «поиграть» с системой. Секретность, которая достигается путем привнесения неясности в процесс, не самая лучшая техника. Поэтому, мы не можем полностью полагаться на такую технику, даже, несмотря на то, что она достаточно эффективно предотвращает возможные попытки несанкционированного использования поисковой системы. Информация, касающаяся алгоритмов рейтингов, по сути, является драгоценными камнями в короне поисковой системы Google. Мы гордимся своими достижениями в этой области и прилагаем все усилия, чтобы сохранить данную информацию в тайне. Тем не менее, по некоторым подсчетам, более тысячи программистов/ученых уже потратили годы на то, чтобы продвинуться в данном направлении, и уровень прогресса не снижается. Тем не менее, полная секретность – не самая идеальная тактика, и, поэтому, данной сообщение в блоге является частью возобновленных усилий приоткрыть немного больше информации по сравнению с той, которую мы раскрывали в прошлом. Мы попытаемся периодически рассказывать нашим читателям о новинках, объяснять то, что мы уже сделали в прошлом, а также вовлекать наших читателей в обсуждение тех вопросов, которые их больше всего интересуют. Позвольте нам начать с общего представления задач нашей группы. В дальнейшем последуют и другие сообщения в блоге, которые будут посвящены другим вопросам данной темы. Полагаю, что мне нужно сначала представиться. Меня зовут Уди Манбер, и я являюсь вице-президентом отдела инжиниринга компании «Google», а также руковожу командой, которая называется «Качество поиска». Я работаю в компании «Google» уже более двух лет, а мой общий стаж работы с поисковыми технологиями насчитывает более 20 лет. Так сказать, сердцем группы является команда, которая прилагает все усилия на изучение самой сути процесса присвоения рейтингов в поисковой системе. Проблема рейтингов намного более сложная, чем это можно было бы себе представить. Одной из причин этого, можно было бы назвать двусмысленность языка, а также то, что при написании документации специалисты не следуют какому-либо набору правил. На самом деле, не существует стандартов, которые бы определяли способы предоставления информации, поэтому, нам приходится учиться понимать все страницы во Всемирной сети, какие бы ни писались, по каким бы то ни было причинам. И это только часть проблемы. Нам также приходится понимать все запросы, которые делают пользователи в поисковой системе. В большинстве случаев эти запросы представлены менее чем тремя словами, которые необходимо применить ко всем существующим в сети документам согласно тому, как мы их понимаем. Все это действительно создает определенные сложности, не говоря уже о том, что каждый пользователь имеет свои требования и предпочтения. Все это нам приходится выполнять за какие-нибудь миллисекунды. Наиболее известной частью алгоритма рейтинга считается PageRank, алгоритм, разработанный свое время Лари Пейджем и Сергеем Брином, теми, кто создал поисковую систему Google. PageRank и по сегодняшний день используется, но теперь он стал частью огромной системы. Среди других составляющих можно было назвать языковые модели (способность системы работать с различными фразами, синонимами, диакритическими знаками, орфографическими ошибками и т.д.); модели запросов (суть процесса заключается не просто в самом языке, а в том, как люди пользуются им в современном мире); временные модели (некоторые запросы лучше всего получают ответ от 30-минутной страницы, при том, как другие быстрее получают ответы от страниц, которые уже прошли тест времени); персонализированные модели (пользователи имеют собственные желания, отличные от требований и деланий других пользователей). Еще одна команда, работающая в нашей группе, отвечает за анализ успешности нашей работы. Это делается самыми различными способами, но цель остается неизменной: сделать все, чтобы пользователям было максимально просто работать с поисковой системой. Это не просто главная задача, это единственная задача. Существуют автоматизированные способы проводить такой анализ ежеминутно (чтобы быть уверенными в том, что все идет как нужно), а также периодически анализировать качество работы в целом и, что более важно, оценивать специфические улучшения алгоритма. Когда у одного из инженеров появляется новая идея, или он разрабатывает новый алгоритм, мы тщательно исследуем и тестируем все такие нововведения. Также в состав грумы входит команда специалистов, занимающихся сбором статистических данных и их анализом. Задачей этой команды является изучение данных и определение эффективности той или иной новой идеи. Все команды еженедельно участвуют в общем собрании (иногда команды собираются раз в две недели), чтобы еще раз обсудить целесообразность новой идеи и придти к общему решению по поводу ее внедрения. В 2007 году нам удалось начать использовать более 450 инновационных решений, что в среднем составляет порядка 9 решений в неделю. Некоторые из таких новых решений можно назвать простыми и очевидными. Например, нам удалось решить проблему с тем, как обрабатываются запросы на иврите, содержащие акронимы (в иврите акроним обозначается значком («), который ставиться после последнего знака, таким образом, IBM представлен как IB»M). И, напротив, другие инновационные решения являются достаточно сложными. Например, мы внесли значительные изменения в алгоритм PageRank в январе 2007 года. Чаще всего мы пытаемся улучшить ситуацию с релевантностью запросов в поисковой системе, но, в то же время, мы работаем и над проектами, единственной задачей которых является попытка сделать алгоритмы как можно проще. Простота – это всегда то, к чему стоит стремиться. Международный поиск – это то, что являлось нашим основным предметом интереса в последние два года. Под международным поиском нужно понимать все существующие языки, а не только те, которые считаются языками международного общения. Например, в прошлом году мы сделали существенные изменения в поиске на азербайджанском языке, языке, на котором говорит более 8 миллионов людей. В течение прошедших двух месяцев мы запустили проверку орографии на эстонском, каталонском, сербском, украинском, тагальском, боснийском, словенском языках, а также на языке фарси. Нам удалось организовать своеобразное сообщество людей со всего мира, которые помогают вводить такие новшества и отвечают на наши вопросы. Также у нас есть много волонтеров, которые пользуются поисковой системой Google на разных языках и помогают нам улучшать систему поиска. Есть еще одна команда, которая занимается исследованием новых функциональных возможностей и новых пользовательских интерфейсов. Для хорошей машины критично иметь мощный двигатель, но даже его будет недостаточно, чтобы назвать машину хорошей. Машина должна быть комфортной и простой в управлении. Пользовательский интерфейс поисковой системы Google достаточно прост. Очень немногие люди обращаются за помощью к нашему руководству пользователя, и все прекрасно обходятся без дополнительной помощи (тем не менее, руководство пользователя все же стоит прочитать, так как мы постоянно улучшаем текст руководства и обновляем его). Когда мы добавляем новые функциональные возможности, мы делаем все, чтобы они были просты в использовании и следовали привычному образу мышления пользователей. Среди наиболее заметных изменений, которые были сделаны в течение прошлого года, можно было бы выделить Универсальный поиск. Кроме этого, стоит упомянуть Google Notebook, Custom Search Engines, а также, конечно же, ряд улучшений, добавленных в iGoogle. Команда, занимающаяся исследованием изменений в пользовательском интерфейсе, получает постоянную помощь и поддержку со стороны команды, задачей которой является изучение простоты использования функций поисковой системы. Эта команда проводит исследования работы пользователей с поисковой системой и оценивает эффективность нововведений. Члены команды путешествуют по всему миру. Иногда случается так, что им приходится даже приходить домой к пользователям, чтобы изучить то, как работают пользователи с поисковой системой в привычной для них обстановке. (Не стоит волноваться, они не приходят домой к людям без предварительного согласования визита или без приглашения!) Существует также целая команда, которая концентрирует свои усилия на борьбе со спамом в сети Интернет и другими видами мошенничества. Эта команда занимается самыми различными вопросами, начиная со скрытого текста и заканчивая страницами, которые не соответствуют заявленной теме и наполнены несвязными ключевыми словами. Кроме этого, команде приходится иметь дело со многими другими схемами мошенничества, которые используют люди в попытке получить более высокие рейтинги в результатах нашей поисковой системы. Специалисты, работающие в данной команде, отслеживают новые тенденции в техниках спама и ищут способы противостоять новым уловкам. Кроме этого, как и все остальные команды, они работают на международном уровне. Команда по отслеживанию спама тесно работает с командой веб-мастеров, которая называется Google Webmaster Central, что позволяет непосредственно делиться идеями, а также учитывать пожелания владельцев сайтов. Существуют и много других команд, которые занимаются своими специфическими задачами. В общем, организационная структура нашей команды достаточно неформальная. Люди постоянно находятся в движении, а также регулярно появляются новые задачи и проекты. Следует отметь одну особенность поиска – требования пользователей постоянно растут. Запросы, которые люди будут делать завтра, станут гораздо сложнее, чем те, которые поисковые системы получают на сегодняшний день. Точно так же, как и правило Мора, согласно которому скорость компьютеров увеличивается в два раза каждые 18 месяцев, существует и некое негласное правило, по которому уровень сложности запросов в поисковой системе повышается вдвое в течение небольшого промежутка времени. Невозможно определить, как часто такие изменения происходят, но мы ощущаем их. Мы понимаем, что не можем почивать на своих лаврах, а напротив, нам нужно постоянно работать, чтобы не отставать от стремительных изменений, происходящих в мире поиска. Как я уже говорил ранее, мы будет продолжать рассказывать нашим читателям о нововведениях в области качества поиска в последующие месяцы, поэтому, не забывайте читать новые статьи в блоге. Написал - admin
Уважаемый посетитель, Вы зашли на сайт как незарегистрированный пользователь. Мы рекомендуем Вам зарегистрироваться либо войти на сайт под своим именем.
|
• Личный кабинет
• Календарь
• Аналитика
• PR-технологии
• Интервью
• Статьи
• Архив
• TL
|
Опросы
Интересно мнение каждого
Ваши интересы в интернет бизнесе
Последнее
Смотри в прямом эфире
![]()
Конкурсы с сети
А на что способен Ты?
10 октября был дан старт конкурсу "BestMasterиZация" с призовым фондом более 60000 wmr. Название конкурса невменяемое, но что же поделать, в этом есть своя изюминка.
Навигация
Карта сайта
|