DD DocData Wiki wiki / 3fa85f64-5717-4562-b3fc-2c963f66afa6

Данные о населении

Табличный датасет переписи населения с региональной разбивкой. Документация сгенерирована автоматически по файлу population_data.csv.

Формат
CSV · UTF-8
Записей
50 000
Поля
12
Модель
gpt-4o
SHA-256
abc123…e4f5
Сгенерировано
2026-06-23

Общие сведения

Датасет содержит агрегированные показатели численности населения по субъектам РФ за период 2010–2020 годов. Каждая строка — один субъект за один год переписи; метрики включают численность, урбанизацию, возрастную структуру и миграционный баланс. Источник — открытые данные Росстата.

Файл
population_data.csv
Размер
4,2 МБ
Таблиц
1
Тематика
Демография
Временной охват
2010–2020
Территория
Россия
Язык данных
RU
Теги
демография, перепись

Документация сгенерирована по блокам general, schema, quality, statistics, examples, geo_coverage на языке RU (модель openai/gpt-4o).

Схема данных

Поле Тип Описание Пример NULL
region_code VARCHAR Код региона по ОКАТО (справочник субъектов РФ) 77 нет
region_name VARCHAR Наименование субъекта Российской Федерации г. Москва нет
year VARCHAR Год проведения переписи или учёта 2020 нет
population INTEGER Численность постоянного населения на дату переписи 12655050 нет
urban_pct DOUBLE Доля городского населения, % от общей численности 74.2 да
median_age DOUBLE Медианный возраст населения, лет 39.8 да
birth_rate DOUBLE Коэффициент рождаемости на 1000 человек 11.3 да
death_rate DOUBLE Коэффициент смертности на 1000 человек 13.1 да
migration_net INTEGER Сальдо миграции за отчётный год (прибыло − выбыло) -12400 да
updated_at DATE Дата актуализации записи в источнике 2020-10-15 нет
source VARCHAR Организация-источник данных Росстат нет
notes VARCHAR Примечание к записи (корректировки, исключения) да

Показано 12 из 12 полей

Оценка качества

Medium · обосновано статистикой

Общая оценка основана на доле пропусков, согласованности типов и обнаруженных дубликатах. Критических аномалий в числовых полях не выявлено; основные риски — пропуски в демографических показателях и текстовый тип года.

  • NULL Колонка median_age — 4,2% пропусков (2 100 из 50 000)
  • NULL Колонка urban_pct — 1,8% пропусков (900 записей)
  • NULL Колонка notes — 62% пустых (ожидаемо для необязательного поля)
  • тип Поле year хранится как VARCHAR; для сортировки и join рекомендуется INTEGER
  • дубли 23 дубликата по составному ключу region_code + year
  • выброс В population 3 значения > 99-го перцентиля (крупные агломерации — ожидаемо)

Статистика

Показатели вычислены парсером (DuckDB) без участия LLM. Для категориальных полей — топ значений; для числовых — min, max, mean, median, std.

population

min · max · mean · std1 240 · 12 600 000 · 287 450 · 1,1M
median · пропусков156 200 · 0%
1.2K12.6M

region_code

уникальных · пропусков85 · 0%

Справочник (DICT_THRESHOLD): да

Топ-3: 77 · 78 · 23 — по 6 строк (2010–2020, шаг 2 года)

year

уникальных · пропусков6 · 0%

2010 (8 333) · 2012 (8 333) · 2014 (8 333) · 2016 (8 334) · 2018 (8 334) · 2020 (8 333)

median_age

min · max · median · std28,1 · 47,3 · 39,8 · 4,2
пропусков4,2%
2847

urban_pct

min · max · mean31,4 · 100,0 · 68,7
пропусков1,8%
31%100%

source

уникальных · пропусков1 · 0%

Росстат — 50 000 (100%)

Примеры использования

-- DuckDB: агрегация численности по годам
SELECT year,
       SUM(population) AS total_pop,
       ROUND(AVG(median_age), 1) AS avg_age,
       COUNT(*) AS regions
FROM read_csv_auto('population_data.csv')
GROUP BY year
ORDER BY year;

Географическое покрытие

Территориальная привязка определена по колонкам region_code и region_name. Охват — все 85 субъектов РФ; коды соответствуют классификатору ОКАТО.

Страна
RU · Россия
ISO 3166-1
RU
Субъектов
85
Период
2010–2020
Код ОКАТО Регион Записей
77г. Москва6
78г. Санкт-Петербург6
23Краснодарский край6
50Московская область6
66Свердловская область6
ещё 80 субъектов480

Интерактивная карта и Bounding Box — не в v1 (см. ТЗ §7.8).