Данные о населении
Табличный датасет переписи населения с региональной разбивкой. Документация сгенерирована автоматически по файлу population_data.csv.
Общие сведения
Датасет содержит агрегированные показатели численности населения по субъектам РФ за период 2010–2020 годов. Каждая строка — один субъект за один год переписи; метрики включают численность, урбанизацию, возрастную структуру и миграционный баланс. Источник — открытые данные Росстата.
Документация сгенерирована по блокам general, schema, quality, statistics, examples, geo_coverage на языке RU (модель openai/gpt-4o).
Схема данных
| Поле | Тип | Описание | Пример | NULL |
|---|---|---|---|---|
| region_code | VARCHAR | Код региона по ОКАТО (справочник субъектов РФ) | 77 | нет |
| region_name | VARCHAR | Наименование субъекта Российской Федерации | г. Москва | нет |
| year | VARCHAR | Год проведения переписи или учёта | 2020 | нет |
| population | INTEGER | Численность постоянного населения на дату переписи | 12655050 | нет |
| urban_pct | DOUBLE | Доля городского населения, % от общей численности | 74.2 | да |
| median_age | DOUBLE | Медианный возраст населения, лет | 39.8 | да |
| birth_rate | DOUBLE | Коэффициент рождаемости на 1000 человек | 11.3 | да |
| death_rate | DOUBLE | Коэффициент смертности на 1000 человек | 13.1 | да |
| migration_net | INTEGER | Сальдо миграции за отчётный год (прибыло − выбыло) | -12400 | да |
| updated_at | DATE | Дата актуализации записи в источнике | 2020-10-15 | нет |
| source | VARCHAR | Организация-источник данных | Росстат | нет |
| notes | VARCHAR | Примечание к записи (корректировки, исключения) | — | да |
Показано 12 из 12 полей
Оценка качества
Medium · обосновано статистикойОбщая оценка основана на доле пропусков, согласованности типов и обнаруженных дубликатах. Критических аномалий в числовых полях не выявлено; основные риски — пропуски в демографических показателях и текстовый тип года.
- NULL Колонка
median_age— 4,2% пропусков (2 100 из 50 000) - NULL Колонка
urban_pct— 1,8% пропусков (900 записей) - NULL Колонка
notes— 62% пустых (ожидаемо для необязательного поля) - тип Поле
yearхранится как VARCHAR; для сортировки и join рекомендуется INTEGER - дубли 23 дубликата по составному ключу
region_code + year - выброс В
population3 значения > 99-го перцентиля (крупные агломерации — ожидаемо)
Статистика
Показатели вычислены парсером (DuckDB) без участия LLM. Для категориальных полей — топ значений; для числовых — min, max, mean, median, std.
population
region_code
Справочник (DICT_THRESHOLD): да
Топ-3: 77 · 78 · 23 — по 6 строк (2010–2020, шаг 2 года)
year
2010 (8 333) · 2012 (8 333) · 2014 (8 333) · 2016 (8 334) · 2018 (8 334) · 2020 (8 333)
median_age
urban_pct
source
Росстат — 50 000 (100%)
Примеры использования
-- DuckDB: агрегация численности по годам SELECT year, SUM(population) AS total_pop, ROUND(AVG(median_age), 1) AS avg_age, COUNT(*) AS regions FROM read_csv_auto('population_data.csv') GROUP BY year ORDER BY year;
Географическое покрытие
Территориальная привязка определена по колонкам region_code и region_name. Охват — все 85 субъектов РФ; коды соответствуют классификатору ОКАТО.
| Код ОКАТО | Регион | Записей |
|---|---|---|
| 77 | г. Москва | 6 |
| 78 | г. Санкт-Петербург | 6 |
| 23 | Краснодарский край | 6 |
| 50 | Московская область | 6 |
| 66 | Свердловская область | 6 |
| … | ещё 80 субъектов | 480 |
Интерактивная карта и Bounding Box — не в v1 (см. ТЗ §7.8).