Где брать статистические данные, часть вторая
В прошлый раз мы рассказали о двух главных источниках статистики по России — сайте Росстата и базе ЕМИСС. В этом письме поговорим про другие ресурсы, где можно найти структурированные данные, которые пригодятся для статей: сайты органов власти, коммерческих компаний и банки данных международной статистики.
Министерства и ведомства
Уже несколько лет российские органы власти — как федеральные, так и региональные — в обязательном порядке публикуют на своих сайтах статистическую информацию, которая касается их деятельности. Конечно, не все жестко соблюдают закон. Например, часто на официальном сайте какого-нибудь министерства или региональной администрации можно обнаружить лишь данные двухгодичной давности. Либо информация будет спрятана где-то в недрах сайта и найти ее практически невозможно.

Тем не менее значительная часть ведомств выкладывают статистику в интернет, причем относительно оперативно. Перечислять все такие сайты нет смысла — их десятки, если не сотни. Поговорим о том, как такую информацию искать и скачивать.

Называться раздел со статистикой может везде по-разному. Где-то просто «Статистика» или «Статистическая отчетность» как, например, у Росприроднадзора или Российской книжной палаты. Еще часто соответствующий раздел носит название «Открытые данные» — как у Минздрава. В свою очередь, Федеральная налоговая служба собирает всю подобную информацию в разных реестрах — таких как Реестр субъектов малого и среднего предпринимательства.
Что здесь можно найти? Собственно профильную статистику. Например, Минспорта публикует информацию о количестве спортивных сооружений и людей, которые занимаются спортом. Минздрав — данные о заболеваемости, количестве больниц и больничных коек. Книжная палата — данные о напечатанных за год книгах и периодике, перечень самых публикуемых авторов.

Кроме того, на официальных сайтах публикуют ежегодные отчеты о деятельности, информацию о количестве вакансий в ведомстве, число выданных ведомством лицензий и многое другое.

Большой каталог государственных сайтов с открытыми данными можно найти на сайте дата-журналиста Андрея Дорожного.
Единого требования к формату файлов с данными нет: кто-то прикрепляет таблицы, но вставленные в вордовский документ, кто-то таблицы «Экселя», а кто-то пдф-файлы, которые потом приходится конвертировать в таблицы сторонними сервисами — вот один из таких.

Кроме этого, часто используется и универсальный формат хранения табличных данных — файлы csv. Последние версии «Экселя» без проблем открывают такие типы файлов. Если у вас старый пакет «Офиса», таблицу придется экспортировать. Это несложно — в интернете полно инструкций, вот одна из них. В «Гугл-таблицы» файлы переносятся простым экспортом.
Росприроднадзор, например, публикует данные о загрязнении воздуха и воды. Источник: Росприроднадзор
Центробанк ежемесячно обновляет статистику по кредитам, вкладам и т. п. Источник: сайт Центробанка
Маркетинговые исследования
Крупные исследовательские компании и отраслевые ассоциации изучают разные рынки и часть таких исследований выкладывают в открытый доступ. Например, компания DSM делает ежемесячные отчеты о состоянии российского фармацевтического рынка; Knight Frank — изучает рынки недвижимости; Ассоциация европейского бизнеса — отслеживает ситуацию с продажами легковых автомобилей.

Часто бывает, что в открытом доступе такие исследования не публикуют, однако компании не против предоставить их медиа при условии, что будет упомянут источник данных. Например, когда автор этой рассылки делал для «Тинькофф Журнала» публикацию о бездомных животных, то компания — производитель кормов Mars Petcare поделилась результатами собственного международного опроса, посвященного этой теме.
Инфографика из материала в «Тинькофф Журнале», сделанная на основе данных Mars Petcare. Источник: Тинькофф Журнал
Владельцы неструктурированных данных
Собственно, попросить выгрузить статистику у того, у кого она есть, — нормальная практика для журналистов и коммерческих авторов. Часто компании обладают большим количеством неструктурированных данных, но по запросу готовы их предоставить в структурированном виде. Проще всего найти контакты пиарщиков компании и предложить поделиться данными в обмен на ссылку на источник. Компания получит упоминание, автор — статистику.

Например, этот материал в «Тинькофф Журнале» сделан совместно с сервисом посуточного бронирования жилья «Островок». Компания предоставила информацию о том, как изменились за год цены на квартиры на черноморских курортах и сроки, на которые туристы бронируют жилье. Получился хороший текст.
Без данных от «Островка» этого материала просто бы не было. Источник: Тинькофф Журнал
Материал для Т—Ж про то, как менялся размер среднего чека чаевых, сделан совместно с сервисом безналичных чаевых Cloud Tips. Источник: Тинькофф Журнал
Международные организации
Чтобы сравнивать жизнь людей в разных странах, международные организации запрашивают статистику у этих государств и делают на ее основе исследования. Сама статистика тоже хранится в открытом виде. Например, помимо общемировой статистики по странам у Всемирной организации здравоохранения есть целый раздел с медицинской статистикой по России, которую отечественный Минздрав нигде не публикует.

Разделы со статистикой по странам есть на сайте Всемирного банка, Организации экономического сотрудничества и развития, ООН. Кроме того, рекомендуем базу данных CEIC — это макроэкономические показатели по 195 странам.

Есть и международные агрегаторы данных. На сайте Our world in data есть тематические статьи, например по энергетике: данные можно скачать или найти ссылки на первоисточники. Международную статистическую информацию по отраслевым рынкам в разных странах собирает проект Statista. Однако пользователю по умолчанию здесь показывают минимум данных и инфографику. Полная статистика доступна только за деньги.
Как мы уже говорили в одном из предыдущих писем, тех, кто публикует данные и статистику, очень много. Поэтому собрать все ресурсы в какой-то каталог, наверное, невозможно. Мы рассказали только об основных источниках такой информации, список, конечно, не исчерпывающий.

Бывают агрегаторы данных, которые собирают информацию из разных источников, чистят их и публикуют в удобном для дальнейшей работы виде. В России к таким относятся, например, проект «Если быть точным». Например, здесь можно найти исчерпывающий отчет про ВИЧ, причем во вкладке «Данные» собраны практически все доступные параметры на эту тему. Еще можем порекомендовать ресурс data-in.ru, где собраны большие наборы данных на самые разные темы и регулярно появляются новые.

Вообще, данные публикуют самые разные организации. Так, Высшая школа экономики публикует статистические сборники, посвященные образованию, науке и цифровому обществу. Национальный цифровой архив пытается сохранить старый контент сайтов СМИ, предыдущие версии сайтов органов власти, историю голосований депутатов Госдумы и многое другое. Этот список можно продолжать бесконечно.
Коротко о главном:
  1. Кроме сайтов Росстата и ЕМИСС, статистику можно найти на сайтах федеральных и региональных органов власти. Однако будьте готовы к тому, что информация здесь может быть устаревшая или неполная.
  2. Большой каталог государственных сайтов с открытыми данными можно найти на сайте дата-журналиста Андрея Дорожного.
  3. Статистику по отраслевым рынкам можно найти на сайтах крупных исследовательских компаний и профильных ассоциаций.
  4. Нужные данные всегда можно попросить у того, у кого они есть. Это нормально.
  5. Международные организации также выкладывают статистику по разным странам в открытый доступ. Свои базы есть, например, у ООН, ВОЗ, Всемирного банка, ОЭСР.
Приятный бонус в конце
Полный каталог статистических данных собрать нельзя, но есть люди, которые попытались. АНО «Инфокультура» вот уже несколько лет развивает проект «Хаб открытых данных». В хранилище уже больше 8 тысяч наборов данных! Пользуйтесь на здоровье.