Питер Норвиг (SFI) о теорвере в переводе и не только…


Автор:

Picture 13Вчерашняя лекция Марка Ньюмана так меня порадовала, что сегодня захотелось еще чего-нибудь от Santa Fe Institute. Предлагаю вашему вниманию основные пункты лекции Питера Норвига, директора по исследованиям Google.

Питер Норвиг известен в сети не столько своей позицией в Google, сколько тем, как он дискредитировал PowerPoint в 2000 году. Что же он такого натворил? Он представил, как бы выглядела презентация Абраама Линкольна, если бы у него был PowerPoint. Получилось очень даже смешно и количество просмотров презентации с 50000 в 2000 году выросло до 1.7 млн в 2007. И это не предел!

А теперь основные пункты его выступления:

  • Google при поиске картинок выстраивает граф картинок (опять сетевой анализ?) по степени похожести каждой друг с другом и в результатах поиска выдает те картинки, которые принадлежат самому большому сегменту (кстати, такой же подход используется при обучении нейронных сетей без учителя – но об этом слушайте вскоре на Empatika Open);

Picture 1Picture 2Picture 3

  • Проблема сегментации текста (выделения слов из текста, написанного без пробелов) решается Google-ом следующим образом: вероятность сегментации = вероятность (первого слова) X вероятность (оставшегося текста). Вероятность первого слова оценивается по частоте использования такого слова в базе данных Google (насчитывает около 1.7 миллиарда страниц). То есть, для каждого возможного первого слова считается вероятность сегментации и потом выбирается такая сегментация, у которой самая высокая вероятность. Для примера смотрите слайд ниже: из этого примера мы видим, что у сегментации при первом слове “now” самая высокая вероятность, поэтому Google именно так делит текст.

Picture 10

Г-н Норвиг отметил, что эта проблема очень актуальнаядля азиатских языков, где слова не разделяются знаками пробелами. Но она также актуальна и для сегментации доменных имен, ведь в их названии запрещены пробелы. Вот забавнейший пример проблем сегментации доменных имен – знающие английский поймут мой дикий хохот, когда я увидел этот слайд.

Picture 6

  • При исправлении текста используется схожая с сегментацией идея: слова корректируются не на основе словаря, а на основе вероятностей: вероятность исправления (“медвэд” на “медведь”) = вероятность (что “медвэд” это слово) X вероятность (что “мэдвед” это очепятка для “медведь”).
    • “вероятность (что “медвэд” это слово)” определяется по частоте появления такого слова в базе данных Google
    • вероятность (что “мэдвед” это очепятка для “медведь”)” пропорциональна количеству изменений (добавить/убрать букву, изменить одну букву на другую), которое нужно сделать в слове “мэдвед”, чтобы получилось “медведь”.
  • Google Sets помогает воссоздать множество слов на основе нескольких примеров. Например, если вам нужно знать, что по смыслу близко к Питеру Друкеру (Peter Drucker) и Тому Питерсу (Tom Peters), то Google Sets выдаст такие результаты (не все результаты по делу – если честно):

Picture 14

  • Сервис Google Translate работает по схемам, схожим с сегментацией и исправлением: на основе вероятностей и обширной базы данных примеров.

Вообще, основной идеей выступления Норвига было следующее: миллиарды примеров позволяют машине самообучаться и пропадает необходимость придумывания сложных алгоритмов и привлечения человеческого разума (переводчиков и лингвистов).

Я вижу лишь небольшое “НО” в этом подходе: обучение на основе примеров может вызвать архетип “Деньги к деньгам”. Выбираться будут лишь те слова, которыми пользуется большинство. Если большинство примеров будет некачественным, то и результат потеряет в качестве. Поэтому такое обучение должно стать лишь одним из методов, с учетом особенностей его применения.

А Ваше мнение?

Оформить и получить займ на карту мгновенно круглосуточно в Москве на любые нужды в день обращения. Взять мгновенный кредит онлайн на карту в банке без отказа через интернет круглосуточно.


Отзывы

Оставьте отзыв первым!

Оставить отзыв

WordPress Themes