Фонд Wikimedia Foundation, стоящий за созданием известной
онлайн-энциклопедии, объявил о запуске своего первого крупного
проекта с 2006 года под названием Wikidata. Новый проект предусматривает
создание базы данных для гибридного использования
машинами и людьми, причем вносить знания в нее будут и пользователи,
как в случае с Википедией, и машины. О поддержке проекта уже заявили ряд крупных
компаний и частных инвесторов.
Строго говоря, попытки превратить огромную библиотеку знаний
Википедии в структурированный источник данных уже предпринимались. Например,
проект DBpedia пытался создать такую систему, но она была односторонней
клиенты-машины не могли вносить в нее свои правки. Новый проект Wikidata, в
свою очередь, не просто делает данные доступными для людей и машин – он
позволяет вносить правки от лица и живых людей, и бездушных вычислительных
систем.
Цель проекта Wikidata по разработке семантической базы
данных, доступной для чтения машинам, должна помочь не только всему Интернету
в целом, но и самой Википедии. Структурировать планируется все языковые версии
Википедии, содержащие знания по одним и тем же понятиям. На текущий момент максимальный
охват сведений предлагается на английском, немецком, французском и голландском
языках, а вот другие языки, включая русский, значительно отстают.
Структурирование данных в Wikidata позволит автоматически
отвечать на запросы типа «десять крупнейших городов мира, где мэром является
женщина». На данный момент ответы на такие вопросы можно находить в так
называемых Списках Википедии, которые составляются вручную. Проект Wikidata
поможет формировать их автоматически.
Стартовую работу по созданию БД Wikidata ведет германское
отделение фонда Wikimedia Deutschland. В дальнейшем планируется передача
полномочий по управлению и обслуживанию международной штаб-квартире Wikimedia.
Полностью международный этап проекта должен стартовать в марте 2013 года. Весь
проект разбит на три фазы, первая из которых включает в себя создание страниц Wikidata
для каждой записи Википедии на всех 280 с лишним языках. Все цифровые данные,
таким образом, будут храниться в едином источнике – в БД Wikidata. Также в
первой фазе планируется централизовать ссылки между разными языковыми версиями
Википедии – эта фаза должна завершиться к августу 2012 года.
Во второй фазе редакторы смогут добавлять и использовать
данные Wikidata (срок завершения – декабрь 2012 г.). Наконец, третья фаза предоставит автоматическое создание списков и графиков на основании
данных Wikidata, так что статьи Википедии будут наполняться, в том числе,
результатами обработки БД Wikidata.
Уже сейчас разработка проекта Wikidata получает серьезную
поддержку – финансирование в размере 1,3 млн. евро наполовину обеспечивает
Институт искусственного интеллекта Аллена, который создан Полом Алленом (Paul
Allen), сооснователем компании Microsoft, в 2010 г. Еще четверть от начального финансирования предоставил фонд Гордона и Бетти Мур (Gordon and
Betty Moore Foundation) и еще четверть – компания Google. Кстати, именно
последняя, судя по всему, планирует активно использовать результаты
проекта Wikidata в своих поисковых технологиях, ведь, по сути, задача одна
структурировать массу разрозненных данных и выдавать ответы на
неструктурированные запросы с помощью специальных семантических алгоритмов.
По материалам сайта TechCrunch.
|