The words you are searching are inside this book. To get more targeted content, please make full-text search by clicking here.

Рассмотрены основные методы и алгоритмы анализа данных для веб-разработки и маркетинга, в том числе методы декомпозиции, визуализации, функционально-стоимостного анализа, эконометрический метод и другие. Приведены алгоритмы семантического анализа текстов, ранжирования смысловых приоритетов и отбора ключевых фраз, алгоритмы оценки потребительской лояльности, в том числе алгоритм оценки тональности текстов, алгоритм анализа качества веб-интерфейсов Mobile First и другие. Рассмотрены задачи прогнозирования коммерческого спроса, анализа потребительского доверия к бренду, сокращения рекламных расходов, а также комплексного анализа данных деятельности компании. Описан общедоступный инструментарий, такой как Яндекс.Подбор слов, Яндекс.Метрика, ExportBase, Яндекс.Поиск, ГлавРед, EditPlus, Антиплагиат, Гугл.Таблицы, MS Excel и Google Mobile Test.

Discover the best professional documents and content resources in AnyFlip Document Base.
Search
Published by BHV.RU Publishing House, 2024-02-14 13:44:01

Методы и алгоритмы анализа данных для веб-разработки и маркетинга

Рассмотрены основные методы и алгоритмы анализа данных для веб-разработки и маркетинга, в том числе методы декомпозиции, визуализации, функционально-стоимостного анализа, эконометрический метод и другие. Приведены алгоритмы семантического анализа текстов, ранжирования смысловых приоритетов и отбора ключевых фраз, алгоритмы оценки потребительской лояльности, в том числе алгоритм оценки тональности текстов, алгоритм анализа качества веб-интерфейсов Mobile First и другие. Рассмотрены задачи прогнозирования коммерческого спроса, анализа потребительского доверия к бренду, сокращения рекламных расходов, а также комплексного анализа данных деятельности компании. Описан общедоступный инструментарий, такой как Яндекс.Подбор слов, Яндекс.Метрика, ExportBase, Яндекс.Поиск, ГлавРед, EditPlus, Антиплагиат, Гугл.Таблицы, MS Excel и Google Mobile Test.

Keywords: Яндекс.Метрика, ExportBase, Яндекс.Поиск, ГлавРед, EditPlus, Антиплагиат, Гугл.Таблицы

Егор Поляков Санкт-Петербург «БХВ-Петербург» 2024


УДК 681.3.06 ББК 32.973.26-018.2 П54 Поляков Е. Ю. П54 Методы и алгоритмы анализа данных для веб-разработки и маркетинга. — СПб.: БХВ-Петербург, 2024. — 352 с.: ил. ISBN 978-5-9775-1834-5 Рассмотрены основные методы и алгоритмы анализа данных для веб-разработки и маркетинга, в том числе методы декомпозиции, визуализации, функционально-стоимостного анализа, эконометрический метод и др. Приведены алгоритмы семантического анализа текстов, ранжирования смысловых приоритетов и отбора ключевых фраз, алгоритмы оценки потребительской лояльности, в том числе алгоритм оценки тональности текстов, алгоритм анализа качества веб-интерфейсов Mobile First и др. Рассмотрены задачи прогнозирования коммерческого спроса, анализа потребительского доверия к бренду, сокращения рекламных расходов, а также комплексного анализа данных деятельности компании. Описан общедоступный инструментарий, такой как Яндекс.Подбор слов, Яндекс.Метрика, ExportBase, Яндекс.Поиск, ГлавРед, EditPlus, Антиплагиат, Гугл.Таблицы, MS Excel и Google Mobile Test. Электронный архив на сайте издательства содержит цветные рисунки, примеры HTML-документов, скриптов и дополнительные pdf-файлы. Для начинающих аналитиков данных УДК 681.3.06 ББК 32.973.26-018.2 Группа подготовки издания: Руководитель проекта Евгений Рыбаков Зав. редакцией Людмила Гауль Редактор Григорий Добин Компьютерная верстка Ольги Сергиенко Дизайн обложки Зои Канторович "БХВ-Петербург", 191036, Санкт-Петербург, Гончарная ул., 20 ISBN 978-5-9775-1834-5 © ООО «БХВ», 2024 © Оформление. ООО "БХВ-Петербург", 2024


Оглавление Предисловие ................................................................................................................... 11 Глава 1. Введение в анализ данных ........................................................................... 14 Термины и определения ................................................................................................................ 14 Взаимосвязь сущностей исследования ........................................................................................ 17 Постановка и условия задачи ................................................................................................ 19 Сбор данных без потерь ........................................................................................................ 20 Гипотеза: построение, подтверждение или опровержение ................................................ 20 О выборе методов и алгоритмов для решения задачи ........................................................ 21 Определение алгоритма ........................................................................................................ 22 Проведение эксперимента ..................................................................................................... 24 Анализ экспериментальных данных..................................................................................... 25 Рекомендации по результатам анализа ................................................................................ 25 Об апробации результатов исследования ............................................................................ 26 О логике продуктового мышления ....................................................................................... 26 Подход к факторному анализу в исследовании .......................................................................... 28 Апробация как часть технологической фазы исследования ...................................................... 29 Сбор, хранение и воспроизведение данных ................................................................................ 29 Рекомендация вести календарь исследования ..................................................................... 30 Транспорт данных экспортом из редактора таблиц в веб-приложение ............................ 31 Таблица статистики из облака с выводом на график .......................................................... 31 Формирование личного профиля из компетенций специалиста ................................................ 40 Организация процесса работы аналитика .................................................................................... 42 Сроки и значимость аналитического исследования ................................................................... 45 Комплексный подход к аналитическому исследованию ............................................................ 46 Глава 2. Декомпозиция для исследования сложной системы .............................. 47 Факторинг в программировании .................................................................................................. 49 Фильтры поиска недвижимости для упрощения факторного отбора ................................ 49 Задача о разборчивой невесте ............................................................................................... 51 Постановка задачи ........................................................................................................ 51 Условия задачи.............................................................................................................. 51 Стратегия «бери или уходи» ................................................................................................. 52 Объектно-ориентированный подход к методу декомпозиции ................................................... 52


4 Оглавление Стандартизация кода по методологии БЭМ ................................................................................ 54 Философия БЭМ .................................................................................................................... 55 Что в целом улучшает метод декомпозиции и БЭМ в работе веб-разработчиков? ......... 59 Рефакторинг программного кода ................................................................................................. 61 Чем отличается стандартизация кода от рефакторинга? .................................................... 63 Может ли начинающий веб-разработчик сделать рефакторинг исходного кода коммерческого продукта? ..................................................................................................... 63 Декомпозиция рефакторинга ................................................................................................ 63 Первичная обработка данных для анализа .................................................................................. 65 Выводы о методе декомпозиции .................................................................................................. 67 Глава 3. Визуализация больших данных .................................................................. 69 Зачем нужно изучать визуализацию данных и овладевать навыками работы с ней? .............. 69 Базовые требования к визуализации данных ............................................................................... 69 Визуализация эмпирических данных по результатам экспериментов ...................................... 71 Визуализация динамики процессов .............................................................................................. 76 Ошибки и несоответствия между графиком математического моделирования и эмпирической моделью на основе эксперимента ............................................................ 77 Задачи аналитика ................................................................................................................... 78 Пример плавного вывода графика на веб-странице с использованием сплайнов Катмулла–Рома ...................................................................................................................... 78 Постановка задачи ........................................................................................................ 79 Решение ......................................................................................................................... 79 Визуализация по принципу «от простого к сложному» ............................................................. 84 Визуальные акценты на ключевых аспектах защиты исследовательской работы ........... 84 Система знаков для обмена информацией ........................................................................... 86 Стандартизация визуальных и текстовых данных ...................................................................... 87 Стандартизация по корпоративным стандартам ................................................................. 88 Дизайн-система Material Design (Google Inc.) ..................................................................... 90 Графический метод визуализации данных .................................................................................. 91 Графический метод — один из наиболее точных для прогнозирования .......................... 93 Переход от плоской визуализации к объемной ................................................................... 93 Принятие обоснованных решений на основе визуализации данных ......................................... 95 Логические методы принятия решений ....................................................................................... 97 Выводы о визуализации аналитических данных ......................................................................... 99 Выводы о принятии решений на основе визуализации данных .............................................. 100 Глава 4. Прогнозирование коммерческого спроса на товары и услуги ........... 101 Гипотетическая оценка спроса на основе публичной статистики ........................................... 101 Актуальность коммерческих потребительских запросов ......................................................... 103 Формула актуальности поискового запроса ...................................................................... 104 Как выйти на экспоненту доходности в компании? ................................................................. 107 Эффект сарафанного радио ................................................................................................. 110 Характеристика Mobile-Friendly по веб-сайту «HTML Academy» ................................... 110 Конверсия целевой аудитории в покупатели продукции ......................................................... 112 Что такое воронка продаж? ........................................................................................................ 115 Возможно ли автоматизировать воронку продаж? ........................................................... 116 Голосовой помощник .................................................................................................................. 117 Запись, обработка и воспроизведение голосовых команд посетителя ............................ 118 Выводы из примера реализации голосового помощника Voice Assistant ....................... 118


Оглавление 5 Как увеличить конверсию в электронной торговле? ................................................................ 119 A/B-тестирование предложений товаров и услуг .............................................................. 122 Цена или выгода? ................................................................................................................. 124 Как эффективнее сделать представление товаров в витрине целевой страницы для конверсии во входящие заявки(лиды)? .............................................................. 126 Шаг № 1: определение необходимой выборки целевой аудитории для A/B-теста ...................................................................................................... 127 Шаг № 2: отправка данных в Яндекс.Метрику ................................................ 128 Шаг № 3: настройка целей и интеграция с кол-трекингом ............................. 129 Результаты: распределение конверсий по визитам с параметрами теста .............. 130 Выводы о прогнозировании спроса ........................................................................................... 131 Глава 5. Семантический метод анализа больших текстов ................................. 133 Графические форматы для семантического анализа текстов .................................................. 133 Алгоритм ранжирования смысловых приоритетов в тексте .................................................... 135 Пример № 1: смысловые приоритеты в тексте ................................................................. 135 Выводы из примера .................................................................................................... 139 Анализ тональности текста ................................................................................................. 139 Пример № 2: эмоциональная тональность текста .................................................... 140 Вывод из примеров .............................................................................................................. 141 Алгоритм анализа семантического ядра для поисковой оптимизации ................................... 142 Организация хранения и заполнения семантического ядра ............................................. 142 Шаг № 1: сбор необходимой технической информации ......................................... 144 Шаг № 2: построение структуры сайта ..................................................................... 144 Шаг № 3: подготовка ключевых фраз для целевых страниц................................... 145 Шаг № 4: заполнение важных тегов всех целевых страниц .................................... 146 Способ 1 .............................................................................................................. 146 Способ 2 .............................................................................................................. 147 Шаг № 5: постановка на переобход обновленных страниц веб-сайта ................... 150 Алгоритм отбора ключевых фраз для эффективной работы веб-ресурса ............................... 151 Последовательность исполнения алгоритма отбора ключевых фраз .............................. 152 Базовые требования к подготовке оптимизированных текстов для сайта ...................... 155 Выводы об эффективности алгоритма отбора ключевых фраз по актуальности ........... 159 Эффективность алгоритма для поисковой оптимизации ........................................ 159 Актуальность ключевых фраз для повышения эффективности сайта .................... 159 Рекомендации по подготовке уникального контента перед публикацией веб-ресурса ......... 160 Выводы о семантическом анализе текстов ................................................................................ 161 Глава 6. Анализ потребительского доверия к бренду .......................................... 163 Лояльность потребителей к бренду ............................................................................................ 163 Классификация по характеристикам .......................................................................................... 164 Алгоритмы и метрики потребительской лояльности ............................................................... 165 Алгоритм анализа тональности текстов пользователей ................................................... 165 Потребительские и специализированные отраслевые рейтинги...................................... 166 Метрики повторных продаж и количества возвратов ...................................................... 168 Метрика «индекс потребительской лояльности» (NPS) ................................................... 168 Индекс потребительской лояльности ......................................................................................... 168 Промежуточные выводы ..................................................................................................... 170


6 Оглавление Об алгоритме опроса для оценки NPS ....................................................................................... 170 Что дает исследуемой компании измерение метрики NPS? ............................................ 171 Опрос клиентов для анализа лояльности к бренду ........................................................... 172 Шаг № 1: составление списка вопросов ................................................................... 173 Удовлетворенность клиентов компании .......................................................... 173 Доверие к бренду производителя продукции ................................................... 173 Репутация бренда ............................................................................................... 173 Качество продукции и ее ценность ................................................................... 173 Атрибуты бренда ................................................................................................ 174 Шаг № 2: заполнение веб-формы опроса для публикации...................................... 174 Шаг № 3: выборка целевой аудитории для рассылки опроса ................................. 175 Шаг № 4: выбор канала доставки опроса для рассылки .......................................... 176 Шаг № 5: доставка опроса выборке ЦА по расписанию ......................................... 176 Алгоритм вычисления индекса лояльности NPS .............................................................. 176 Отчет о вычислении индекса NPS ...................................................................................... 177 Выводы: что дает аналитику и компании анализ метрики NPS? ............................................. 179 Глава 7. Методика TD ABC. Функционально-стоимостный анализ себестоимости транзакций в системах массового обслуживания...................... 181 Оценка базовой модели ABC ...................................................................................................... 183 Пример № 1: расчет ставки стоимости мощности по TD ABC ....................................... 183 Пример № 2: оценка затрат за единицу времени .............................................................. 184 Практическая ценность методики учета затрат TD ABC ......................................................... 188 Общее представление о потоковых системах массового обслуживания для обработки заявок ............................................................................................................................................ 189 Обслуживание потока заявок в СМО ................................................................................. 190 Рекомендуемая литература по системам массового обслуживания ................................ 192 Бизнес-модели СМО для секторов B2C и B2B ................................................................. 192 Социально-экономическое значение СМО ........................................................................ 193 Социально-экономическая характеристика дистанционных услуг ......................................... 196 Количественные характеристики дистанционных услуг .................................................. 197 Эффект масштаба ................................................................................................................. 201 Пример № 3: развитие дистанционных каналов обслуживания клиентов в Альфа-Банке ...................................................................................................................... 202 Тезисные выводы ................................................................................................................. 203 Основания инвестиционной привлекательности внедрения СМО на предприятии ...... 203 Интерпретация благоприятных условий для роста прибыли ДБО .................................. 204 О развитии экономики российских компаний в сфере service on demand .............................. 205 Обзор сферы дистанционных услуг ................................................................................... 205 Управление рисками негативного влияния на сервисы дистанционных услуг в РФ ........ 207 Рекомендации для повышения эффективности СМО ....................................................... 208 Выводы о пользе изучения методик TD ABС и СМО .............................................................. 210 Глава 8. Факторный анализ для оптимального выбора ..................................... 213 Условия применения факторного анализа ................................................................................. 213 Применение факторного анализа в исследованиях .................................................................. 214 Решение сложных задач с помощью факторного анализа ....................................................... 215 Объектно-ориентированный подход к многофакторному анализу ......................................... 215 Пример № 1: матрица принятия решения .......................................................................... 216 Задача ........................................................................................................................... 216


Оглавление 7 Требования .................................................................................................................. 216 К рассмотрению .......................................................................................................... 216 Решение ....................................................................................................................... 216 Вывод о матрице принятия решений ........................................................................ 217 Пример № 2: сравнительный многофакторный анализ .................................................... 218 Задача ........................................................................................................................... 218 Условия ........................................................................................................................ 218 Решение ....................................................................................................................... 218 Выводы о многофакторном сравнительном анализе ............................................... 220 Рекомендуемая литература по изучению факторного анализа ............................... 220 Статистический анализ рынка промышленных комплектующих в РФ .................................. 221 Каталог комплектующих для производства и сбыта ........................................................ 221 Исходная статистика и эмпирические данные для анализа рынка сбыта ....................... 222 Сбор данных о предприятиях России ................................................................................ 222 Расчет рыночной стоимости выпускаемых комплектующих........................................... 225 Оценка привлекательности комплектующих по регионам РФ ........................................ 227 Муфты соединительные ............................................................................................. 231 Шкивы клиновые ........................................................................................................ 232 Алгоритм развития продаж комплектующих в регионах России .................................... 232 Шаг № 1: обработка исходных данных..................................................................... 233 Шаг № 2: онлайн-заказ с расчетом цены по формуле ............................................. 234 Шаг № 3: аналитика .................................................................................................... 235 Шаг № 4: стратегия «Морской бой» ......................................................................... 236 Оценка точности выводов по факторному анализу рынка сбыта комплектующих в РФ ......... 237 Первое приближение: метод проб и ошибок. Наивные выводы аналитика-новичка ........ 237 Метод мультифакторного анализа для достижения требуемой точности результатов .................................................................................................................. 238 Второе приближение: изменение бизнес-модели для монетизации доступными средствами ...................................................................................................... 239 Глава 9. Задача сокращения рекламных расходов .............................................. 242 Постановка задачи в общем виде ............................................................................................... 242 Рекламные каналы для анализа конверсии и цены ........................................................... 243 Результаты ............................................................................................................................ 244 A/B-тестирование гипотез об эффективности рекламных каналов ......................................... 245 Задача сокращения рекламных расходов в частном виде ................................................ 245 При прочих равных условиях .................................................................................... 246 Визуальный отбор каналов рекламы для таргетинга ........................................................ 250 Предварительные выводы .......................................................................................... 251 Эконометрический отбор по распределению результатов анализа ................................. 251 Рекомендации по внедрению ..................................................................................... 251 Юнит-экономика как необходимый инструментарий веб-аналитика ..................................... 253 Как использовать результаты, полученные по задаче минимизации рекламных расходов? .................................................................................................................. 254 Выводы о минимизации рекламных расходов .......................................................................... 254 Глава 10. Эконометрический метод оценки эффективности ИТ-проектов ....... 256 О стартапах на начальном этапе развития ................................................................................. 256 Инвестиционная привлекательность дистанционных услуг в РФ ........................................... 257


8 Оглавление Условия достижения эффективности услуг по запросу ........................................................... 258 Пример применения инструментария юнит-экономики ................................................... 260 Задача ........................................................................................................................... 260 Исходные данные........................................................................................................ 260 Условия задачи............................................................................................................ 260 Решение ....................................................................................................................... 261 Техническая характеристика ИТ-проекта .......................................................................... 262 Экономическая характеристика ИТ-проекта ..................................................................... 264 Характеристика лояльности посетителей ИТ-проекта ..................................................... 265 Визуально-аналитическая оценка эффективности ИТ-проекта ............................................... 265 Качественная оценка метрик ИТ-проекта .......................................................................... 266 Графики функций ................................................................................................................. 268 Выводы об эконометрическом методе оценки эффективности ............................................... 269 Глава 11. Семантический анализ данных пользователей веб-сервиса ............ 271 О точке приложения семантического анализа .......................................................................... 271 Постановка цели и задач семантического анализа ................................................................... 273 Шаг № 1: формирование набора потенциальных микросервисов для внедрения в качестве гипотез ................................................................................................................ 274 Шаг № 2: внедрение инструментов для анализа ............................................................... 275 Словарь интересов ...................................................................................................... 275 Средний чек каждого пользователя .......................................................................... 279 Пример № 1: вычисление среднего чека .......................................................... 281 Оценка рентабельности услуги .................................................................................. 281 Пример № 2: вычисление рентабельности услуги ........................................... 281 Шаг № 3: отбор и ранжирование потенциальных услуг из гипотез ................................ 283 Использование показателя среднего чека для исследования .................................. 283 Аналитическая функция R' для ранжирования услуг............................................... 284 Пример № 3: вычисление популярности услуги по тексту пользователя...... 285 Логическая схема семантического анализа для монетизации................................. 287 Шаг № 4: формирование результатов исследования ........................................................ 288 Отчет по результатам аналитического исследования ..................................... 288 Визуализация результатов исследования ......................................................... 288 Сегментация данных по группам коммерческих интересов ................................... 290 Раздел «Монетизация сервисов» веб-интерфейса пользователя ............................. 291 Раздел «Аналитика продаж» веб-интерфейса ........................................................... 294 Шаг № 5: прогнозирование рентабельности микросервисов ........................................... 295 Компетентная оценка рентабельности микросервисов ............................................................ 296 Выводы о семантическом анализе данных ................................................................................ 297 Глава 12. Алгоритм анализа веб-интерфейсов Mobile First ............................... 299 Ключевые факторы алгоритма Mobile First ............................................................................... 300 Допустимые размеры шрифтов .......................................................................................... 301 Отзывчивость в миллисекундах.......................................................................................... 302 Анализ целевой страницы алгоритмом Mobile First ......................................................... 303 Рекомендации по оптимизации целевой страницы для повышения позиций в ранжировании поиска Google .................................................................................................. 305 Выводы об алгоритме Mobile First ............................................................................................. 307


Оглавление 9 Глава 13. Комплексный анализ исходных данных компании ........................... 308 Исходные данные для анализа .................................................................................................... 308 Анализ входящих заявок на услуги агентства недвижимости ................................................. 310 Исключение из правила анализа данных ........................................................................... 312 Промежуточные выводы ..................................................................................................... 313 Сравнение целевой аудитории ............................................................................................ 314 Выводы, сделанные на основе анализа данных компании ............................................... 315 Почему следует исключить контекстную рекламу из состава инструментов продвижения нового направления услуг? ................................................................. 316 Как этого достичь в сложившихся обстоятельствах? .............................................. 317 Почему шагов именно 4, а не условно 5 или 7? ....................................................... 318 Рекомендации для руководства агентства недвижимости ............................................... 318 Фильтрация исходных данных ................................................................................................... 323 Очистка входной статистики путем декомпозиции и фильтрации .................................. 323 Решение по фильтрации данных ........................................................................................ 324 Метрика «Роботность» ........................................................................................................ 325 Метрика «Отказы» ............................................................................................................... 326 Что по существу мы получили? .......................................................................................... 328 Высокая конкуренция требует интересных решений ....................................................... 331 Алгоритм подготовки и публикации уникальных описаний для поисковой оптимизации контента ........................................................................................................................................ 332 Задача SEO-специалиста ..................................................................................................... 332 Решение ....................................................................................................................... 332 Соотношение уникальности в карточках объектов........................................................... 335 Как определить будущие хиты продаж по названиям товаров или объектов недвижимости?..................................................................................................................... 336 Процентное соотношение уникального текста в карточке товара .................................. 337 Проблема контроля и фильтрации входящих заявок из-за множества точек входа .................................................................................................................. 337 Как исправить ситуацию с проблемой минимального коммерческого спроса на недвижимость и трудностью расчета конверсии?............................................... 338 Результаты анализа данных ........................................................................................................ 339 Аналитические выводы и рекомендации для повышения эффективности компании ....... 340 Вывод № 1: необходима автоматизация воронки продаж ...................................... 340 Рекомендация № 1: внедрить в веб-сайт и в виртуальную АТС компании голосового помощника для диалога с клиентом ............................................. 341 Вывод № 2: необходимо увеличение адресной базы в каталоге недвижимости ...... 344 Рекомендация № 2: ранжировать карточки объектов в каталоге недвижимости от максимума к минимуму по эмоциональному критерию оценок пользователей и по актуальности запросов ......................................... 344 Вывод № 3: необходима интеграция БД объектов с каталогом в сообществе ВКонтакте ............................................................................................ 344 Рекомендация № 3: настроить выгрузку обновленной БД объектов в сообществе агентства недвижимости в соцсети ВКонтакте ........................ 345 Выводы о комплексном подходе к анализу данных ................................................................. 346 Заключение ................................................................................................................... 347 Приложение. Описание файлового архива ............................................................ 349 Предметный указатель .............................................................................................. 350


Предисловие Многие задаются вопросом: как использовать статистику о поведении пользователей для принятия решений при разработке и сопровождении коммерческих продуктов? Не важно, что в рассмотрении — сайт или мобильное приложение, алгоритмы взаимодействия с пользователем схожи. Эта книга поможет начинающим аналитикам найти ответы на вопросы и научит решать задачи, связанные со сбором, хранением, визуализацией и анализом данных в целях оптимального выбора решений повседневных задач и выработки полезных конструктивных рекомендаций. В процессе коммерческих и социально значимых исследований начинающие вебаналитики могут столкнуться с достаточно трудными для них задачами. В книге показано, как разложить их решение на последовательность несложных задач. Новичкам в веб-аналитике предлагается простой и понятный путь от теории к практике для освоения методов и алгоритмов анализа данных, начиная с самых доступных и заканчивая комплексными научными и маркетинговыми исследованиями. Книга будет полезна ИТ-специалистам начального уровня в сфере коммерческой веб-разработки и маркетинга потребительских товаров и услуг. Автор рекомендует читателям использовать материал книги в процессе изучения и практического применения в анализе перспективных направлений развития товарной линейки и услуг на основе полученных персональных и общедоступных данных пользователей. Открытая читателем книга представляет собой последовательное изложение методов и алгоритмов анализа данных от простого к сложному на доступных для новичков примерах. Основы теории базовых методов и алгоритмов описаны в ней с применением основных инструментов веб-разработки и маркетинга, приведены решения актуальных задач с помощью методов и алгоритмов, необходимых каждому начинающему веб-аналитику, и не только.


12 Предисловие Представленные в книге знания и навыки аналитики будут полезны в работе и в повседневной жизни. Аналитические решения рассматриваемых прикладных задач способны сфокусировать внимание читателя и дать стартовый импульс в развитии аналитического склада рационального мышления. Материал книги актуален для построения, обработки и подтверждения гипотез в решениях инженерных, маркетинговых и управленческих задач. В книге также рассматриваются результаты исследований рынков сбыта промышленных комплектующих, банковских услуг и сферы недвижимости в России, проводимые в исследованиях бизнес-моделей предоставления услуг по запросу (service on demand) с использованием Интернета. В книге приводятся практические решения комплексных аналитических задач с помощью общедоступного инструментария: Яндекс.Подбор слов (статистика потребительских поисковых запросов); Яндекс.Метрика (статистика и аналитика по сайту компании); ExportBase (доступные базы данных о российских компаниях); Яндекс.Поиск (результаты ранжирования по тематике сайта); EditPlus или аналог (редактор кода для исполнения решений с графиками); ГлавРед (исправление текста); Антиплагиат (уникальность); Гугл.Таблицы или MS Excel (редактор таблиц для обработки данных); Google Mobile Test (анализ веб-сайта на мобилопригодность и индекс Mobilefirst); и другие. Читатели книги имеют отличную возможность изучить и применить на практике: прикладные методы и алгоритмы анализа данных: • анализ и прогноз спроса на товары и услуги на основе статистики; • A/B-тестирование гипотез — сравнение и аналитический выбор по заданным мотивационным факторам покупки: цена и выгода; • семантический анализ персональных данных пользователей для отбора коммерческих интересов. Алгоритм анализа тональности текстов; • решение задачи минимизации рекламных расходов с помощью визуального сопоставления рекламных каналов и аналитического отбора по условиям; • оценка лояльности потребителей к бренду с применением опросов по метрике NPS. методы принятия решения и повышения эффективности компании: • методика TD ABC для расчета затрат по операциям в условиях ограниченных ресурсов компании;


Предисловие 13 • имитационное моделирование процессов обработки заявок в расчетно-кассовом и дистанционном банковском обслуживании клиентов для оценки себестоимости транзакций и влияния риска отказов на прибыль компании; • качественная оценка состояния компании (стартапа) для принятия решений по стратегическому управлению и инвестированию; • факторный анализ для оптимального выбора на основе заданных признаков сравнения; • комплексный анализ данных компании методом декомпозиции, фильтрации и анализа статистики поисковых запросов из Яндекс.Метрики и поведения пользователей на сайте компании. Все термины и формулировки подробно объясняются в ходе изложения методов и сопутствующих алгоритмов. Читателю было бы весьма полезно вести личные заметки и конспекты, а также пробовать самостоятельно проводить эксперименты с данными на основе полученных знаний для их закрепления их в памяти. Желаю вам приятного и полезного изучения материала книги!


ГЛАВА 1 Введение в анализ данных Веб-аналитику необходимо обладать широким кругозором и набором инструментальных навыков для эффективной работы со статистикой. Инструментарий сбора статистики с классификацией по признакам включает графические методы анализа, позволяющие найти качественные тренды на потребительском рынке B2C продукции. Таргетинг целевой аудитории на основании эмпирических зависимостей используется для аргументации в ходе формирования аналитических рекомендаций по стратегии развития компании. Взаимосвязь статистики и тенденций сезонных потребительских привычек, выявляемая в ходе анализа данных, дает рациональную возможность выстроить новые бизнес-модели для перспективного развития предприятия, автоматизируя бизнеспроцессы во взаимодействии с клиентами. Комплекс изложенных в книге методов объединяет основы статистического анализа, инструментальные подходы к работе с потоком данных и базовые аспекты юнит-экономики для прогноза рентабельности услуг по перспективным бизнесмоделям. Термины и определения Изучение книги стоит начать с освоения терминов, сопутствующих методам и алгоритмам анализа данных. Это поможет лучше воспринимать материал книги, содержащий профессиональный лексикон аналитика данных. В терминологии есть популярные термины из сопряженных сфер: веб-разработки, маркетинга, статистики, эконометрики и юнит-экономики. A/B-тест (в маркетинге) — это логический и эмпирический метод сопоставления двух и более (A/B/C) предложений товаров и услуг с соразмерной ценой при прочих равных условиях. В заданных условиях эксперимента (теста) задается одинаковый портрет целевой аудитории (пол, возраст, уровень финансового достатка, геоположение, интересы и т. д.) Результат вычисляется сопоставлением количества заявок о покупке на предложения.


Введение в анализ данных 15 Mobile friendly (в веб-разработке) — термин, описывающий удобство использования страниц веб-ресурса (корпоративного сайта, каталога продукции, веб-сервиса или интернет-магазина) на мобильных устройствах на базе ОС Android, iOS и др. Landing page (в веб-разработке) — целевая веб-страница с товарным предложением для A/B-тестирования гипотез о целесообразности внедрения новых товаров и услуг в широкий оборот для увеличения продаж компании в сегментах B2C и B2B. Актуальность потребительского спроса (в маркетинге) — относительная величина, характеризующая изменения состояния спроса во времени (в текущий момент относительно предыдущего периода). Используется для отбора товаров и услуг, сопутствующих ключевых слов для рекламного блока, страницы, сайта и т. д. Большие данные (в анализе данных, от англ. big data) — совокупность структурированных и неструктурированных массивов данных большого объема. Для анализа больших данных используется программный автоматизированный инструментарий на основе методов и алгоритмов статистического анализа, прогнозирования и принятия решений. Веб-интерфейс (от англ. web interface) — совокупность средств, при помощи которых пользователь взаимодействует с веб-сайтом или любым другим приложением через браузер. Веб-интерфейсы получили широкое распространение в связи с ростом популярности Всемирной паутины и соответственно повсеместного распространения веб-браузеров. Гипотетическая оценка спроса (от греч. hyhothesis — основание, также равнозначно: гипотетический спрос) — условное (предположительное в логике) суждение о спросе является гипотетическим, если действительность второго положения обусловлена действительностью первого положения: если есть А, т. е. В. Дизайн-система (в веб-разработке и маркетинге) — набор правил и рекомендаций оформления элементов интерфейса, сформулированный на основе заданной философии и стилистических особенностей. Используется в качестве нативного языка взаимодействия между пользователей и интерфейсом для диалога с информационной системой (или, проще, с цифровым продуктом). Инвестиция (от нем. — investition, от лат. investio — одеваю) — долгосрочное вложение капитала в промышленность, сельское хозяйство, транспорт и другие отрасли хозяйства как внутри страны, так и за границей с целью получения прибыли. Интенсивность отказов (в системах массового обслуживания, от англ. failure rate) — величина, характеризующая риск (вероятность) отказов пользователей от взаимодействия с системой. Вычисляется в процентах на основе отношения отказов в текущий период от общего количества пользователей. Контекстная реклама — тип рекламы в Интернете, при котором рекламное объявление показывается в соответствии с содержанием (контекстом) интернет-страницы (от лат. contextus — соединение, связь). Комплексный эконометрический анализ данных (в экономике и веб-аналитике) — последовательный анализ статистики и данных экспериментов с помощью


16 Глава 1 доступного набора методов и алгоритмов для детального изучения многомерной модели, выявления гипотез и их проверки несколькими методами и алгоритмами. Обычно используется для установления зависимости между факторами влияния на исследуемую модель — в экономике для решения проблемы, например снижения инфляции на государственном уровне или повышения эффективности компании в частном случае. Поисковая система — программно-аппаратный комплекс с веб-интерфейсом, предоставляющий возможность поиска информации в Интернете. Под поисковой системой обычно подразумевается веб-сайт, на котором размещён интерфейс с формой глобального поиска и фильтрами для ранжирования его результатов. Популярность (от лат. populares, от populus — народ) — высокая степень востребованности чего-либо или кого-либо в определенной области. На возникновение популярности в некоторых случаях влияет мода и наоборот. Так же как и мода, популярность привязана к определенному и, как правило, небольшому отрезку времени. Популярность зачастую смешивают с известностью, хотя это не одно и то же. Портрет целевой аудитории — совокупная половозрастная и социальная оценка целевой аудитории для задания таргетинга в рекламе. Чаще всего используется в интернет-рекламе (контекстная реклама, нативная реклама). Прецедент (от лат. praesidens — предшествующий) — случай или событие, имевшее место в прошлом и служащее примером или основанием для последующих действий в настоящем. Судебный прецедент — решение суда или иного правового органа по конкретному делу, имеющее силу источника права. Конверсия (в маркетинге и анализе данных, от англ. conversion rate) — величина эффективности, отражающая количество продаж (или заявок на покупку) товаров и услуг по отношению к общему количеству просмотров (или другой емкости) целевой аудитории. Используется для оценки эффективности заданной бизнес-модели или рекламной кампании. Мобилопригодность (в веб-разработке, от англ. mobile friendly) — количественная метрика, определяемая по набору признаков удобства чтения, визуализации и интерактивности при использовании веб-сайтов пользователям с помощью мобильных устройств. Стагнация (от лат. stagnatio — неподвижность, от stagnum — стоячая вода) — состояние экономики, характеризующееся застоем производства и торговли на протяжении длительного периода. Стагнация сопровождается увеличением численности безработных, снижением заработной платы и уровня жизни населения. Сбор данных без потерь (в исследовании) — подготовка статистических данных за прошедшие периоды, по которым есть полные данные без пропусков по каждому месяцу и т. д. Это условие необходимо соблюдать для проведения исследования на основании полных исходных данных и достижения статистически значимого результата.


Введение в анализ данных 17 Семантический (смысловой) анализ текста — алгоритмический метод анализа взаимосвязи лексических сущностей в контексте темы изучаемого текста. Семантическое ядро (сокр. СЯ, «семантика» в маркетинге) — осмысленный набор ключевых запросов, отвечающих теме заданного текста. Система массового обслуживания (сокр. СМО, в теории очередей, от англ. queueing system) — система, обслуживающая поступающие в очередь требования. Обслуживание требований в СМО выполняется соответствующими приборами. Транзакция (в СМО и финансовой сфере, от лат. — соглашение) — выполнение типовой операции обращения денежных средств на банковских счетах финансовой организации. Термин применим к операциям платежей, переводов в качестве оплаты за предоставленные товары и/или услуги. Экспоненциальный рост (в экономике) — характеристика роста величины (спроса, дохода или прибыли), описываемая функцией y = exp(x), что, в свою очередь, характеризует высокий уровень роста величины показателя после переломного момента в условиях, влияющих на динамику величины этого показателя во времени. Таргетинг (в рекламе, от англ. targeting) — настройка рекламного сообщения на заданную целевую аудиторию (ЦА) по половозрастной и социальной характеристике (иначе, портрету ЦА). Эмпирическая оценка (в анализе данных, от греч. empeiria — опыт) — вынесение суждения об исследуемом явлении или событии на основе систематически собранных эмпирических, т. е. экспериментальных, данных. Целевая аудитория (в рекламе, от англ. target audience) — совокупность групп потребителей определенной продукции, объединенных по полу, возрасту, интересам, уровню финансового достатка, геоположению и другим признакам. Взаимосвязь сущностей исследования Анализ данных представляет собой процесс исследования, фильтрации, преобразования и моделирования данных с целью извлечения полезной информации и принятия решений. Работа начинающего аналитика в компании требует особого внимания к проведению анализа доступной статистики и коммерческих данных о продажах с целью выработки качественных рекомендаций. Скорее всего, оценивать результаты его работы будут опытные специалисты (эксперты), возможно, с иным мнением о развитии компании и директорский состав (один или несколько директоров) на основании собственной интуиции и опыта организации бизнес-процессов путем сопоставления с прецедентами из прошлого. Именно поэтому критически важно проводить анализ данных в соответствии со всеми актуальными требованиями и логически обоснованно в последовательности проведения исследования. Классические и прогрессивные методы, алгоритмы и сопутствующий инструментарий являются профессиональным оружием аналитика для решения комплексных задач. Зачастую защита (на общем совещании) собст-


18 Глава 1 венной аналитической работы с выработанной стратегией развития компании сродни защите курсовой или даже диссертационной работы (в зависимости от сложности поставленной задачи и в целом относительно уровня развития компании). Аналитику важно выстраивать цепочку исследования с базовыми сущностями НИР, доказательно подтверждая или опровергая выдвинутые гипотезы о возможном пути развития. Это способствует налаживанию конструктивной работы с другими специалистами в компании, дает возможность показать руководству собственную ценность как аналитика и обоснованно отстаивать собственные рекомендации для принятия сбалансированных решений в диалоге с руководством компании. Стоит начать с описания взаимосвязи базовых сущностей исследования: постановка и условия задачи; сбор данных без потерь; гипотеза: построение, подтверждение или опровержение; метод; алгоритм; проведение эксперимента; анализ экспериментальных данных; выводы и рекомендации; апробация результатов. Задачи исследования данных, как правило, имеют прикладное значение в контексте решения насущных проблем и отвечают на вопросы подтверждения или опровержения выстроенных гипотез. Процесс исследования состоит из следующих этапов: 1. Выявление проблемы. 2. Сбор и структурирование исходных данных. 3. Выдвижение первоначальной гипотезы. 4. Проведение теоретических исследований. 5. Проведение эксперимента для проверки полученных взаимосвязей в ходе теоретических исследований. 6. Формулирование выводов и рекомендаций. Для наглядности схема исследования показана на рис. 1.1. ПРИМЕЧАНИЕ Для удобства изучения материала книги все приведенные в ней иллюстрации (в том числе в цветном исполнении — где требуется) собраны в папку images сопровождающего книгу файлового архива (см. приложение). Веб-аналитик должен уметь выстроить структуру исследования, показать взаимосвязь сущностей для проведения и защиты наукоемких прикладных исследований. Именно наукоемких, т. к. любые выводы аналитика должны быть доказательными


Введение в анализ данных 19 с использованием общепринятых методик и алгоритмов, иначе они будут выглядеть несостоятельными для специалистов — коллег и руководства компании. Сбор исходных данных осуществляется из общедоступных, научных и коммерческих источников с целью получения необходимых метрик. Допустимая погрешность вычислений и другие параметры формируются из условий задачи. Исследование и анализ проводятся доступными для начинающих методами и алгоритмами. При этом численные и качественные параметры данных должны обеспечить такую возможность Численные показатели по умолчанию задаются в Международной системе СИ. Рис. 1.1. Схема проведения исследования по анализу данных с целью нахождения решения выявленной проблемы Постановка и условия задачи Как правило, постановка задачи формулируется в письменной форме на основе выявленных проблем на совещании руководящего звена. В частных случаях аналитик в собственных целях формулирует задачи самостоятельно. Целью является решение выявленных проблем. Задачи формулируются в соответствии с заданными условиями, комплексно отражающими реальность и правила проведения исследования для достижения статистически значимого результата.


20 Глава 1 Оценка результата также формулируется по заданным шкалам относительно выбранных метрик: количество уникальных посетителей сайта в день (месяц, квартал или год); время сессии (сколько минут или секунд) посетитель проводит на странице; уровень отказов (сколько процентов посетителей уходят с целевого веб-сайта сразу, не изучая его контент); конверсия количества посетителей сайта в реальные заявки. Статистически по рынку на основе обзора открытых аналитических отчетов компаний за прошедший период (например, год) возможно оценить допустимый уровень конверсии и выставить шкалу оценивания, например: от 0 до 3% — низкая конверсия (имеет пессимистический оттенок в качественной оценке); от 3 до 5% — умеренная конверсия (по умолчанию требует мер к повышению уровня по заданной шкале); от 5 до 10% — оптимистическая конверсия (растущая или попросту хорошая); более 10% — отличная конверсия (характеризует высокую эффективность источника конверсии). В диалогах специалистов условно хорошими могут характеризоваться результаты в трактовке «лучше, чем раньше», но для аналитика это «грязная» формулировка, поскольку следует корректно формулировать оценку относительно заданной шкалы исследования. Сбор данных без потерь Для достижения значимых результатов изначально необходим сбор данных без потерь, т. е. по всем значимым периодам без пропусков, — чтобы доказательство было ясным, последовательным и имело особую ценность для защиты. Удовлетворить требованиям принимающей стороны — важный критерий оценки результатов исследования. Он характеризует качество и ценность рекомендаций по результатам НИР. Также полезно унифицировать процесс сбора, хранения и транспортировки данных в ходе длительного исследования, чтобы исключить какие-либо полные или частичные потери исходных файлов статистики. Читатели смогут далее ознакомиться с примером организации веб-аналитиком процесса сбора данных без потерь. Гипотеза: построение, подтверждение или опровержение В решении исследовательской задачи аналитик выстраивает емкое и четкое предположение об объекте изучения в форме утверждения, требующего доказательства. В науке таким утверждением является гипотеза.


ГЛАВА 2 Декомпозиция для исследования сложной системы Начнем с определения. Декомпозиция — это метод разложения сложного на простые части для последующего анализа. По сути, декомпозиция — это не только метод решения задачи и достижения цели, но и способ мышления. Начинающему аналитику этот метод пригодится для разбора сложного объекта изучения, характеризуемого набором формальных признаков, которые можно описать качественными и количественными характеристиками (метриками). Рассмотрим элементарный пример использования метода декомпозиции в исследовании. В качестве объекта — мяч. Охарактеризуем его по признакам. Формальная характеристика мяча: по форме: круглый или вытянутый эллипсоид; по размеру: маленький, средний или большой; по назначению: для детских игр (малого диаметра), средний для футбола, большой для баскетбола; по составу: кожаный, резиновый или полимерный и т. д. Далее классифицируем признаки на качественные и количественные, чтобы наша характеристика приняла системообразующий вид: качественные признаки: форма, назначение, состав; количественные признаки: размер, состав. Обратите внимание: формальный признак «состав» имеет как качественную характеристику — по слоям и материалам, так и количественную — по процентному соотношению материалов на общую площадь мяча. Таким образом, по формальным признакам мы можем сравнить два неодинаковых мяча и дать удовлетворительную характеристику каждому без особого труда. Это легко, т. к. объект исследования знаком с детства, а если взять за объект для изучения сложное явление? В таком случае для формального описания объекта исследования уже потребуется сбор данных из доступных источников.


48 Глава 2 Тем не менее вам далее следует действовать аналогично примеру с мячом и согласно заданным требованиям к точности исследования. Декомпозиция относится к структурному анализу данных и позволяет заменить путь решения одной значительной задачи решением серии меньших по сложности (под-)задач, взаимосвязанных между собой в едином целом. Формально это показано на схеме декомпозиции цели и задач (рис. 2.1) — чтобы начинающим аналитикам было проще выполнить разложение сложной цели на последовательность взаимосвязанных задач на пути к исполнению глобальной цели. Рис. 2.1. Схема декомпозиции целей и задач В исследовании декомпозиция помогает ученому рассматривать сколь угодно сложную систему (в качестве объекта) как состоящую из отдельных взаимосвязанных подсистем, которые, в свою очередь, можно для исследования расчленить (декомпозировать) на элементарные части. Декомпозиция сложных систем помогает аналитику: 1. Сформулировать закономерности функционирования систем. 2. Определить общие и специальные взаимосвязи в управлении подсистемами. 3. Сформировать классификацию подсистем в управлении каждой из подсистем. 4. Координировать общую систему управления сложной системой в целом более эффективно. Так ученые проводят исследования ранее неизученных объектов и явлений — на основе декомпозиции путем разложения на простые и ранее исследованные части. Метод декомпозиции поможет начинающему аналитику начать изучение новой темы и сложной, на первый взгляд, системы как объекта исследования. Для разрядки атмосферы вспомним фразу: «Ешь слона по частям» (метафора из книги Глеба Архангельского1 ). Смысл ее в том, что большого слона перед съедени- 1 Основатель российской школы тайм-менеджмента, автор книг-бестселлеров по управлению временем. Глеб Алексеевич Архангельский родился 2 февраля 1979 года в Санкт-Петербурге.


Декомпозиция для исследования сложной системы 49 ем надо разделить на небольшие удобные для поедания куски. То есть к глобальной цели ведет путь решения из серии шагов. Это показано на примере декомпозиции слона для последовательной трапезы (рис. 2.2). В общем-то эта мысль не оригинальна — она присутствует во многих литературных источниках по управлению временем — однако сама идея остается правильной. Рис. 2.2. Условная декомпозиция сложной задачи на примере слона Факторинг в программировании В прикладном назначении в программировании задача поиска объекта, схожего с эталонной моделью, решается с помощью декомпозиции (иначе, факторинга) путем последовательного разложения объекта-эталона на набор измеряемых факторов, после чего следует сравнение по циклам проверок с объектами из общего массива для сопоставления. Применительно к сфере недвижимости так выполняется структуризация каталога объектов (комнат, квартир, студий, коттеджей) в базе данных (БД) и последующий потребительский поиск формально подходящего объекта среди множества N. В реальной жизни это может быть задача поиска подходящего жилья по набору факторов (цене, площади, району местоположения, сопутствующей инфраструктуре и т. д.) Фильтры поиска недвижимости для упрощения факторного отбора Чем больше и точнее заданы факторы отбора, тем меньше вариантов в результатах поиска (рис. 2.3). В этом примере стоит задать количество комнат (например, 1), минимальную и максимальную площадь квартиры, максимальную ее стоимость, и в результате мы получим единственный вариант по заданным факторам. C помощью декомпозиции и факторинга потребителю становится проще найти подходящий вариант (или варианты) из множества N, удовлетворяющий его запросу.


50 Глава 2 Рис. 2.3. Каталог с поиском недвижимости по заданным факторам: району города и области, ближайшему метро, количеству комнат, типу объекта, площади и стоимости объект(ов) недвижимости Искомый объект недвижимости для покупки характеризуется набором формальных признаков, доступных для отбора из множества предложений на рынке недвижимости: город, район и ближайшее метро; тип объекта недвижимости; количество комнат; площадь объекта; этажность; стоимость; прочие сопутствующие опции комфорта (паркинг, парк, торговые комплексы и прочие удобства поблизости). Логично понять, что чем лучше структурирована база данных объектов недвижимости, тем лучше функционирует поиск по заданному множеству из N предложений. Математически соотношение для успешной покупки формулируется следующим образом: Σ (factors) → max, N → min, m → max, ( ) . m P A N = (1)


Декомпозиция для исследования сложной системы 51 где: N — общее количество объектов недвижимости в базе данных; m — количество выбранных объектов для просмотра из списка отфильтрованных результатов поиска. С каждым добавленным фильтром (фактором отбора) выбор сужается (точнее, уменьшается количество результатов поиска для отбора). Чем больше уточняющих факторов задано, тем выше точность выбора (вероятность успеха). Классическое определение вероятности (из теории вероятности) представлено в формуле (1). По существу, оно отражает вероятность наступления события A в серии из N испытаний. Так интерпретируется вероятность достичь успеха среди множества вариантов выбора. В контексте поиска недвижимости для покупки событием A является выбор объекта, наиболее соответствующего заданным признакам отбора. Задача о разборчивой невесте В качестве частного случая использования метода декомпозиции (факторинга) и факторного анализа можно рассмотреть задачу о разборчивой невесте. Из истории известно: задача о разборчивой невесте — это классическая алгоритмическая задача оптимизации выбора, сформулированная математиком Мартином Гарднером (США, 1960 г.). Постановка задачи Невестой в поиске мужа, естественно, может быть выбран лишь один кандидат из множества N претендентов. Общение между невестой и претендентами происходит в случайном порядке, но не более одного раза с каждым из них. Все претенденты формируют конечный набор, при этом любые два из них сравнимы и известны лучше или хуже любого из предыдущих. Невеста сравнивает претендентов последовательно при каждом свидании: либо отказывает, либо принимает его предложение. Условия задачи Если предложение принято — назначается свадьба, и процесс поиска завершен. Если невеста отказывает жениху, то вернуться к нему позже она не сможет. Цель разборчивой невесты — выбрать лучшего и единственного мужа из всех претендентов. Ключевой вопрос: согласиться или отказать? Оптимальная стратегия отбора имеет интересную особенность: если число кандидатов достаточно велико, оптимальная стратегия будет заключаться в том, чтобы отклонить всех первых N/e (где e — основание натурального логарифма) претендентов и затем выбрать первого, кто будет лучше всех предыдущих. При увеличе-


52 Глава 2 нии N вероятность выбора наилучшего претендента стремится к N/e, т. е. примерно к 37 процентам. Стратегия «бери или уходи» При рассмотрении вариантов решения задачи о разборчивой невесте можно выбрать лучший из N вариантов по принципу «бери или уходи». Алгоритм такого решения заключается в следующем: отклоните первые приблизительно 2,71 N вариантов. выберите вариант лучше тех, что вы увидели и изучили ранее. Таков математический подход к выбору лучшего жениха. Идиома «take it or leave it» получила широкое распространение в XX веке, в том числе среди американских профсоюзов для предотвращения переговоров в случаях, когда необходима жесткая логика для принятия решения: либо оппонент принимает представленное предложение, хотя и не совсем подходящее для него, либо уходит ни с чем. В романе Чака Паланика «Уцелевший», изданном в 1999 г., приводится такой вариант этой идиомы: «Вот он я. Лучше не будет. Бери или уходи». Объектно-ориентированный подход к методу декомпозиции Логическое мышление веб-разработчика во многом включает механизмы декомпозиции. Для лучшего их понимания рассмотрим процесс верстки макетов вебдизайна интерфейса информационной системы (ИС) на стеке HTML + CSS + JS. Исходные макеты формируются в следующую файловую структуру в разработке корпоративного сайта или клиентского веб-сервиса (рис. 2.4). Работа с шаблонами страниц имеет под собой композиционную основу, причем каждая целевая веб-страница в разработке структурно делится на конечный набор блоков: шапка страницы (header) — обычно единообразна для всех страниц веб-сайта; меню навигации (navigation, сокращенно nav); меню каталога (submenu или catalog_menu на усмотрение разработчика); контент внутренней страницы (inner_page); подвал (footer); счетчики статистики (counters). Формат файлов хранения шаблонов зависит от выбранного фреймворка и/или CMS системы (Content Management System) — например, активно применяются форматы PHP (*.php) или TPL (*.tpl). Кодировка по умолчанию — UTF-8, если на сервере не задана иная. Внутри каждого шаблона все элементы дизайна структурно делятся


ГЛАВА 3 Визуализация больших данных Зачем нужно изучать визуализацию данных и овладевать навыками работы с ней? Ответ на этот вопрос по существу комплексный и требует пояснений: график динамической величины, изменяемой во времени, помогает аналитику визуально оценить функцию: найти экстремумы (минимумы и максимумы), определить отрезки, на которых заданы пики, — чтобы выявить внешние и внутренние условия, влияющие на отклонения от заданной функции; качественная визуализация данных позволяет сократить время на обсуждение в команде аналитиков, упростить защиту в представлении результатов; в исследовании масштабирование и систематизация данных по заданным признакам применяются для выявления закономерностей — например, в потребительском спросе в сезонности при сопоставлении сравнимых периодов i и (i – 1). Базовые требования к визуализации данных Для проведения аналитического исследования с визуализацией данных необходимо изначально сформулировать требования к ее воспроизведению. Как правило, в научно-исследовательских работах (НИР) придерживаются следующих требований (краткая характеристика базовых требований к визуализации эмпирических данных представлена в табл.3.1 в расширенном варианте): 1. Достоверность. 2. Доступность. 3. Однородность. 4. Однозначность. 5. Масштабируемость. 6. Мультиязычность. 7. Простота интеграции.


70 Глава 3 Таблица. 3.1. Характеристика требований визуализации данных в научном исследовании Наименования требований Характеристика визуализации данных Достоверность Все данные должны быть сформированы на основе доступной статистики, эмпирические данные получены из достоверного источника, а данные математического моделирования рассчитаны по представленным формулам Доступность Все наименования должны быть доступны читателю, и их величины должны быть корректно оформлены по методическим указаниям к научно-исследовательским работам Однородность Все значения по осям X и Y должны быть в одном измерении (например, в системе СИ: кг, мин, тыс. ед. и т. д.) Однозначность Графики должны отражать четкую характеристику динамики измеряемой системы или ее величины без двоякого восприятия Масштабируемость Необходимо выполнять только при работе с большим объемом данных, где масштабирование позволяет уточнить объем выборки, соответствующей рассматриваемой подгруппе/столбцу гистограммы Мультиязычность Графики необходимо оформлять унифицированно, чтобы их восприятие не требовало дополнительных затруднений для специалистов — носителей языка, отличного от первоисточника, за исключением перевода базовых единиц измерения и соответствия величин и их значений Простота интеграции Графики необходимо хранить с наименованиями вида (normal-dist01.01.2021-01.01.2022) в стандартных форматах SVG, PNG, PDF, WebP, JPG для простоты интеграции с веб-приложениями и другими программными инструментами Теоретическая подготовка перед практической работой просто необходима — чтобы ни у кого не возникало вопросов о понятии качества визуального представления данных к анализу. Подсознательно самостоятельная проверка подготовленных графиков и схем по указанным требованиям дает веб-аналитику возможность быть уверенным в точности воспроизведения результатов экспериментов и аналитической сводки доказательной части. Для научно-исследовательских работ приводятся и другие требования прикладного характера: по размерности шрифтов, форматам представления текстовых, табличных и графических данных и т. п. В принципе, не сложно воспроизвести графики функций, обладая навыками работы со статической векторной (SVG) и динамической визуализацией (библиотеки вывода графиков AmCharts и другие аналоги). Практическая работа с большими объемами данных1 требует сбалансированной подачи визуального материала. Важно удостовериться, что визуальный контент нормально поместился без дополнительной прокрутки (скроллинга) в стандартные форматы слайда или экрана (формата 4:3 или 16:9). 1 Далее по тексту для обозначения больших объемов статистики также используются термины «большие данные» и big data.


Визуализация больших данных 71 Качественная визуализация больших объемов статистики является значимой компетенцией для аналитика при подготовке результатов исследования. Для защиты НИР важно презентабельно представить выводы и рекомендации, полученные в ходе проведенной исследовательской работы. Группировка данных по тематическим сегментам применяется при уменьшении масштаба графика — помогает представить общий вид соотношения частей общего целого «пирога» круговой диаграммы с цветовым делениям согласно заданной спецификации его составных частей. Как графическим способом возможно визуализировать сотни или тысячи строк таблицы? Существует ряд комбинаторных методов решения поставленной задачи для качественной визуализации данных: сегментирование результатов по заданным признакам с целью уменьшения количества строк в таблицах результатов исследования; удаление из графика при масштабировании мелких элементов детализации с сохранением значимого уровня шкал заданного масштаба; ввод коэффициентов для сравнения сегментов результирующей таблицы; вывод круговой и столбчатой диаграмм с 3–10 сегментами (с уровнями по заданному эмпирически обоснованному признаку в виде коэффициента); для временной шкалы выводить только значения заданного уровня масштаба с визуально четким отображением шкалы («черным по белому»). Визуализация эмпирических данных по результатам экспериментов Визуализация служит в качестве универсального языка передачи данных в наукоемких источниках с целью упрощения восприятия статистики и результатов анализа. Для удобного восприятия результатов сбора и анализа данных необходимо формировать полученные сводки в виде узнаваемых графических объектов. Так, на практике — с целью стандартизации процесса взаимодействия между участниками команды аналитиков — рекомендуется использовать общепринятые формы графиков визуализации (рис. 3.1): круговые диаграммы; диаграммы вида пирамида (например, возрастной пирамиды или пирамиды Маслоу); столбчатые графики (гистограммы); линейные графики; воронки конверсии;


72 Глава 3 графики точечной дисперсии спроса; круговые X, Y, Z графики сложных функций корреляции. Общепринятые формы визуального представления результатов аналитической работы непосредственно способствуют налаживанию контакта между аналитиком и принимающей стороной в лице единого заказчика или принимающей комиссии при защите научно-исследовательской работы. Круговая диаграмма Столбчатая гистограмма Гистограмма «пирамида» Линейная корреляция Точечная дисперсия спроса Воронка конверсии Круговые графики сложных функций Рис. 3.1. Примеры визуализации данных в графиках Рассмотрим отдельно частные случаи реализации столбчатых диаграмм — горизонтальные и вертикальные графики (рис. 3.2). Как показывает практика, горизонтальное представление графика (см. рис. 3.2, a) полезно использовать при горизонтальной развертке экрана (слайда или страницы) в пропорции 4:3 или 16:9. Вертикальное исполнение (см. рис. 3.2, б) актуально в случае веб-страницы со скроллингом или масштабированием (увеличением графика до нужного столбца гистограммы).


Визуализация больших данных 73 а б Рис. 3.2. Варианты исполнения столбчатой гистограммы: а — горизонтальная столбчатая гистограмма; б — вертикальная столбчатая гистограмма


74 Глава 3 Если в отчетной презентации исследователь имеет возможность использовать вертикальный формат А3 или А2, то вертикальная гистограмма подойдет для качественного представления результатов с цветовой сегментацией ключевых показателей (для комфортного восприятия при беглом просмотре фрагмента презентации). С точки зрения читаемости вариант вертикального размещения гистограммы, где ось с текстовыми метриками длинная (по вертикали), воспринимается, естественно, проще, чем в случае горизонтального размещения, где текст расположен перпендикулярно привычной оси (горизонтали чтения). Рассмотрим также еще один частный случай визуализации данных в круговых диаграммах: в стиле flat design (плоская круговая диаграмма) и 3D (рис. 3.3). Плоская круговая диаграмма Круговая диаграмма в 3D-исполнении Рис. 3.3. Варианты исполнения круговой диаграммы Желание исполнителя удивить принимающую комиссию визуально красивыми графиками в 3D-исполнении может иметь противоположный эффект, поскольку результаты аналитической работы должны быть максимально ясными, эмпирически доказанными и логически обоснованными без лишних украшательств, которые лишь отвлекают экспертов принимающей стороны. Поэтому рекомендуется использовать исключительно плоские графики для серьезных (социально значимых или научных) исследований — это визуально проще, доступнее и четко соответствует требованиям к научно-исследовательской работе. Формирование графиков выполняется в редакторах MS Excel, Google Sheets, специальных библиотеках языков РHP, JavaScript (AmCharts и др.), Python NumPy и других на основе загруженного массива данных в текстовом или табличном виде (в зависимости от специфики заданного редактора данных). На рис. 3.4 приведены типичные примеры графиков, полученных с помощью этих инструментов: пример, показанный на рис. 3.4, а, описывает распределение количества аудитории различных социальных сетей; пример, показанный на рис. 3.4, б, описывает нормальное распределение случайной величины на заданном интервале времени; пример, показанный на рис. 3.4, в, описывает потребительский спрос на оргтехнику по сезонам.


Визуализация больших данных 81 За вывод графика на веб-страницу отвечает скрипт catmull-rom.js. Этот скрипт подсоединяется к подготовленной странице вывода chart.html с помощью строчки кода в блоке <head>...</head>: <script src="catmull-rom.js"></script> 2. Создадим файл catmull-rom.js и напишем исходный код для исполнения JavaScript (листинг 3.2). Вы также можете найти готовый файл catmull-rom.js в папке listings_script\chapter-3 сопровождающего книгу файлового архива (см. приложение). Листинг 3.2. Исходный код JavaScript (catmull-rom.js) function catmullRom2bezier(points) { var result = []; for (var i = 0; i < points.length - 1; i++) { var p = []; p.push({ x: points[Math.max(i - 1, 0)].x, y: points[Math.max(i - 1, 0)].y }); p.push({ x: points[i].x, y: points[i].y }); p.push({ x: points[i + 1].x, y: points[i + 1].y }); p.push({ x: points[Math.min(i + 2, points.length - 1)].x, y: points[Math.min(i + 2, points.length - 1)].y }); // Catmull-Rom to Cubic Bezier conversion matrix // 0 1 0 0 // -1/6 1 1/6 0 // 0 1/6 1 -1/6 // 0 0 1 0 var bp = []; bp.push({ x: ((-p[0].x + 6 * p[1].x + p[2].x) / 6), y: ((-p[0].y + 6 * p[1].y + p[2].y) / 6) }); bp.push({ x: ((p[1].x + 6 * p[2].x - p[3].x) / 6), y: ((p[1].y + 6 * p[2].y - p[3].y) / 6) });


82 Глава 3 bp.push({ x: p[2].x, y: p[2].y }); result.push(bp); } return result; } function makePath(points) { var result = "M" + points[0].x + "," + points[0].y + " "; var catmull = catmullRom2bezier(points); for (var i = 0; i < catmull.length; i++) { result += "C" + catmull[i][0].x + "," + catmull[i][0].y + " " + catmull[i][1].x + "," + catmull[i][1].y + " " + catmull[i][2].x + "," + catmull[i][2].y + " "; } return result; } window.onload = function () { var graph = [2, 2, 5, 8, 5, 4, 3, 9]; // Строка №53 var points = []; for (var i = 0; i < graph.length; i++) { points.push({x: i * 50 + 20, y: graph[i] * 40 * -1 + 400}); } document.querySelector('#svg path').setAttribute('d', makePath(points)); for (var i = 0; i < points.length; i++) { var circle = points[i]; var c = document.createElementNS("http://www.w3.org/2000/svg", "circle"); c.setAttribute("cx", circle.x); c.setAttribute("cy", circle.y); c.setAttribute("r", "3"); // Волновая кривая "r" document.querySelector('#svg').appendChild(c); } }; В скрипте всего три функции. Рассмотрим их последовательно. • Метод конвертера. В основе этого метода лежит преобразователь сплайна Катмулла–Рома. Функция function catmullRom2bezier(points) получает пару точек и возвращает необходимые контрольные точки для кривой Безье. Формируется массив, в котором каждый элемент представляет собой массив из трех точек. В свою очередь, полученные контрольные точки далее используются для построения пути кривой и воспроизведения поведения волновой функции на заданном отрезке пути. • Построение пути. Функция function makePath(points) выполняет построение пути, используя контрольные точки, которые были получены от функции конвертера для


Визуализация больших данных 83 плавной отрисовки волновой функции в виде кривых Безье из результата преобразования Катмулла–Рома. Сначала нужно перейти к начальной точке, затем идет моделирования дуг кривой. Эта функция возвращает строку пути, готовую к использованию в графике. • Отрисовка кривой поведения волновой функции. Функция window.onload = function () задает выполнение функции после загрузки, где window — это объект, а onload — это событие (event). Таким образом, мы получаем обработку события после загрузки окна браузера. Функция моделирует из заданного массива точек (путем преобразования cплайна Катмулла–Рома) гладкую волновую кривую r для визуализации функции, используя заданные контрольные точки и атрибуты (см. setAttribute в коде JS) векторного формата SVG для вывода объекта в веб-странице. При этом исходные значения задаются в строке № 53: var graph = [2, 2, 5, 8, 5, 4, 3, 9]; 3. Сохраним скрипт catmull-rom.js в том же каталоге, что и chart.html. 4. Запустим результирующую веб-страницу chart.html для проверки в браузере — и получим векторное изображение (рис. 3.7). Рис. 3.7. Плавный вывод графика волновой функции с помощью преобразования сплайна Катмулла–Рома Интерпретация результата выполнения задачи — плавный вывод графика помогает наглядно оценить экстремумы функции: var graph = [2, 2, 5, 8, 5, 4, 3, 9];


84 Глава 3 В нашем случае экстремум (max) отмечен 4-й координатой со значением 8 в заданном массиве graph. Рассмотренный порядок решения задачи помогает аналитику: соблюсти заданное требование к плавности вывода графика волновой функции и достичь высокой четкости отображения графика на всех экранах благодаря векторной основе формата SVG; получить визуализацию для оценки экстремумов из большого массива эмпирических входных данных функции спроса и др. Визуализация по принципу «от простого к сложному» Использование графических примитивов (круговых диаграмм, воронки конверсии, пирамиды вида Маслоу и пр.) уместно в случаях, когда нет прямой и обоснованной необходимости экспертного уровня доказательной базы при защите представленного исследования. Это упрощает восприятие и помогает наладить диалог с принимающей стороной, не усложняя его детализированными графиками (дисперсии спроса и сложных корреляций). Рекомендуется построить план презентации по принципу «от простого к сложному». Это помогает в ходе доказательства представленного решения вовремя зафиксировать момент, когда принимающая сторона (комиссия) потребует дополнительных комментариев по ходу защиты исследовательской работы. Количество графических слайдов должно быть сбалансировано со сводкой результатов анализа, чтобы восприятие было равномерным и осмысленным. Визуализацию данных желательно формировать в привычном формате (стилистике) для комиссии, чтобы не усложнять восприятие визуального материала. Цветовая индикация в таблицах и графиках визуально должна соответствовать заданной дизайн-системе (фирменному стилю или другим требованиям). Визуальные акценты допустимо использовать в качестве символических якорей (иначе, «сигналов») для привлечения внимания принимающей стороны (или рецензента). Технически масштабирование для детализации графика и внимательного изучения показателей выбранного сегмента упрощает взаимодействие между аналитиком и рецензентом-экспертом, если динамика функции будет сразу очевидна. В этом заключается преимущество предоставления электронного отчета с динамическим выводом графиков на основе библиотеки AmCharts или ее аналогов (рис. 3.8). Визуальные акценты на ключевых аспектах защиты исследовательской работы Задача исследователя-аналитика в ходе визуализации — сделать на фрагментах графика (экстремумах или иных ключевых точках в представлении условий изменения поведения заданной функции от времени) видимый акцент доступными средствами: размерами графических объектов, цветом инверсии, толщиной линий и т. п.


ГЛАВА 4 Прогнозирование коммерческого спроса на товары и услуги Гипотетическая оценка спроса на основе публичной статистики На практике маркетологам ежегодно приходится решать задачу выбора товаров для рекламы на основе оценки спроса, используя общедоступные и коммерческие источники статистики, в том числе потребительских поисковых запросов повседневного и сезонного интереса аудитории. Рассмотрим типовую задачу маркетинга. Для оценки состояния спроса на рынке товаров и услуг в заданном регионе маркетологу необходимо провести статистический анализ общедоступных и коммерческих данных, после чего выполнить математическое моделирование для прогноза потребительского спроса (по конкретной изучаемой группе товаров и услуг). Решение задачи начнем от общего к частному, от теории к практике. По определению суждение является гипотетическим (от греч. hyhothesis — основание), если действительность второго положения обусловлена действительностью первого положения: если есть А, то есть В. Или, упрощенно: если действительно A, то действительно и B. Интерпретируем эту логическую связь в соотношение общего и коммерческого спроса. Формулируем общую гипотезу: если совокупный спрос A на заданную тему (товаров или услуг) растет в периоде двух лет, то, значит, и ценовой спрос B, и покупательский спрос C в рассматриваемом сегменте будут расти. Например, если в заданном регионе есть высокочастотный спрос1 на теплоизоляцию, значит (гипотетически), есть и заинтересованные (узнать цену на услугу и сопутствующие материалы), и производный покупательский спрос на материалы и услуги по теплоизоляции. 1 Высокочастотный спрос характеризует популярность поискового коммерческого запроса в отношении того или иного товара или услуги.


102 Глава 4 Гипотетическая оценка коммерческого спроса на определенные товары и услуги в заданной (в исследовании) тематической группе определяется по следующим соотношениям. Потребительский спрос по цене2 на перспективную продукцию выражается отношением ценового спроса к совокупному спросу и вычисляется в процентах по формуле Спрос . цен B A = (1) Потребительский спрос на покупку3 перспективной продукции выражается отношением покупательского спроса к совокупному спросу и вычисляется в процентах по формуле Спрос . покупки C A = (2) Классическая круговая диаграмма (рис. 4.1) отражает доли соотношения совокупного, ценового и покупательского спроса в заданной группе товаров и сопутствующих услуг. Рис. 4.1. Круговая диаграмма соотношения совокупного, ценового и покупательского спроса в заданной группе товаров и сопутствующих услуг Рассмотрим пример с заданными числовыми показателями статистики по теме «Теплоизоляция» (табл. 4.1). Из данных табл. 4.1 следует, что совокупный спрос по теплоизоляции составляет 10 824 запроса/месяц — это высокочастотный спрос. Таблица 4.1. Характеристика спроса по заданной тематике Характеристика спроса Условные величины Всего запросов в месяц Совокупный спрос A 10 824 Ценовой спрос B 1024 Покупательский спрос C 236 2 Потребительский спрос по цене на продукцию назвается ценовым спросом. 3 Потребительский спрос на покупку продукции аналогично называется покупательским спросом.


Прогнозирование коммерческого спроса на товары и услуги 103 Интерпретируем: гипотетически эта тематика востребована аудиторией в рассматриваемом регионе. Далее оценим ценовой и покупательский спрос: ценовой спрос составляет 1024 запроса/мес. (это 9,5% относительно совокупного спроса); покупательский спрос составляет 236 запросов/мес. (это 2,2% относительно совокупного спроса). Для анализа дополним табл. 4.1 величинами спроса в процентах (табл. 4.2). Таблица 4.2. Характеристика спроса по заданной тематике и его величины Характеристика спроса Условные величины Всего запросов в месяц Величины спроса, % Совокупный спрос A 10 824 100 Ценовой спрос B 1024 9,5 Покупательский спрос C 236 2,2 Результаты анализа данных табл. 4.2 показывают, что; ценовой спрос выше покупательского, т. е. интерес аудитории выражен, но покупательский спрос, характеризующий желание аудитории купить товар или услугу, значительно ниже; покупательский спрос очень мал относительно совокупного спроса, следовательно, вероятная конверсия в продажи прогнозируется низкой. Актуальность коммерческих потребительских запросов Для представления условий развития коммерческого направления товаров и услуг необходимо уточнить устойчивость спроса в годовых периодах. Введем в рассмотрение количественную метрику «актуальность поискового запроса» (в годовом измерении). Для оценки гипотетического потребительского спроса на товары и услуги примем важное уточнение: понятия «актуальность» и «релевантность» — неравнозначные. РЕЛЕВАНТНОСТЬ Релевантность (англ. relevance — актуальность, уместность) в информационном поиске — соответствие интента (поискового намерения), заложенного в запросе, выдаче в поисковой системе, полученной в результате этого запроса. Пользователь, который вводит запрос в поисковую систему, ожидает, что результаты будут соответствовать намерению, которое он заложил в запросе, иными словами, он получит релевантную выдачу. Метрика «актуальность» применительно к поисковым запросам помогает аналитику сравнить сходные ключевые фразы пользователей по динамике частоты запросов в месяц от начальной точки в прошлом (условно, 2 года назад) к текущей точке


104 Глава 4 в настоящем. Это дает возможность спрогнозировать рост, стагнацию и спад коммерческого интереса целевой аудитории к покупке товаров и услуг в ближайшем будущем (без учета внешних форс-мажорных обстоятельств). C помощью сравнения актуальности по ценовому и покупательскому спросу возможно проанализировать соотношение количества приценивающихся потенциальных клиентов и желающих купить товар или услугу в перспективе для прогнозирования покупательского спроса и рекомендаций для компании-производителя (или поставщика этих товаров/услуг). Формула актуальности поискового запроса Актуальность поискового запроса — это отношение количества запросов за текущий период к количеству запросов за прошлый период. Она вычисляется по формуле (3) в процентном выражении. АКТУАЛЬНОСТЬ В ПРОЦЕНТНОМ ВЫРАЖЕНИИ Актуальность в процентном выражении способствует сравнению динамики того или иного показателя на сопоставимых отрезках времени (например, в кварталах) по годам в прошлом и настоящем и спрогнозировать показатели в перспективе следующего года. ( ) Actuality , i i n Q Q − = (3) где: Actuality — величина актуальности; Q — количество поисковых запросов в месяц; i — текущий период (например, год); n — количество лет для рассмотрения актуальности; (i – n) — прошлый период (начало отсчета для расчета актуальности). Базовые оценки величины актуальности (X) характеризуются следующими процентными соотношениями: если X < 100%, то актуальность запроса снижается; если X на уровне 100±5%, то актуальность стагнирует (относительно уровня прошлого периода), если X > 100%, то актуальность запроса возрастает. СТАГНАЦИЯ Стагнация — состояние неизменности заданной величины или системы величин в течение определенного периода времени. Применительно к величине актуальности стагнация выражается изменением актуальности темы в пределах не более и не менее 5% от начального к текущему периоду рассмотрения.


ГЛАВА 5 Семантический метод анализа больших текстов В исследованиях семантический анализ текстов посетителей сайтов выполняется на основе доступных массивов данных, полученных из опубликованных комментариев, личных чатов в мессенджерах. Изучение выполняется с учетом положений публичной оферты о коммерческом использовании данных посетителей для улучшения качества сервиса. Как правило, оно направлено на анализ актуальности контента и лояльности целевой аудитории к товарам и услугам компании с точки зрения поведенческих потребительских привычек посетителей. Маркетологов интересуют суждения и отзывы с эмоциональной окраской, готовность посетителей к совершению покупки и потреблению определенных товаров и услуг для следующей выработки аналитических рекомендаций по развитию бренда, технологии производства и доставки и расширения линейки товаров и услуг. А также для принятия сбалансированных решений в менеджменте компаний и государственного управления с учетом мнений целевой аудитории. Графические форматы для семантического анализа текстов Визуализация всегда проще для восприятия, чем структурированные текстовые данные, т. к. формирует понятные с первых секунд восприятия сравнимые образы (какие объекты больше или меньше по сравнению с аналогичными). В ходе визуализации результатов семантического анализа (рис. 5.1) применяются специальные форматы графического воспроизведения данных, показанные на следующих примерах: облако тегов, или ключевых слов (от англ. tag cloud, word cloud) — упрощенная модель восприятия группы тематических ключевых фраз по частоте употребления запросов (в поиске Яндекс, Google и пр., в мессенджерах или контенте целевой страницы). Такое облако используется для визуализации смысловых приоритетов в тексте и получения экспресс-среза, чтобы оценить оперативно фразы семантического


134 Глава 5 ядра, проранжированные по частоте употребления: о чем представленный длинный текст. В примере (рис. 5.1, а) визуализирован срез по анализу текста в виде облака тегов по теме «бизнес-модель на различных платформах» (business + model + customer и т. д.); градиент и паттерн эмоций и частоты запросов в виде панели (дашборда, от англ. dashboard). В примере (рис. 5.1, б) показан дашборд китайской аналитической системы мессенджера WeChat. а б Рис. 5.1. Способы визуализации текстовых данных (по частоте, темам и тональности): а — облако тегов по уровню частоты потребительских запросов (ключевых слов); б — градиент и паттерн эмоций и частоты запросов в китайской аналитической системе мессенджера WeChat


Семантический метод анализа больших текстов 135 Алгоритм ранжирования смысловых приоритетов в тексте Любая теория требует наглядного представления на практике. Поэтому рассмотрим следующий пример, который поможет сформировать базовый навык работы с текстом. Для этого разберемся, как применять облако ключевых слов к выбранному тексту для анализа его темы (по частоте упоминаний слов в содержимом). Визуальное представление смысловых приоритетов помогает в быстром режиме выделить тезисы текста, не обращаясь к его чтению. Это бывает полезно в аналитике при работе с большими объемами текстов, когда нет времени на вычитку каждого из них. Пример № 1: смысловые приоритеты в тексте Используем в этом примере официальную речь президента США Джо Байдена от 22 февраля 2022 года из его обращения к нации, опубликованного на английском языке в газете «New York Times»1 , для ранжирования смысловых тезисов в официальном контексте. Подключим к HTML-документу (с исходным кодом для визуального анализа смысла исходного текста) общедоступную функциональность библиотеки AmCharts для визуализации облака ключевых слов в стеке HTML+CSS+JavaScript2 (листинг 5.1). Листинг 5.1. Исходный код HTML с подключенной библиотекой AmCharts <!doctype html> <html lang="ru"> <head> <meta charset="UTF-8"> <title>Word Cloud</title> <style> body { font-family: -apple-system, BlinkMacSystemFont, "Segoe UI", Roboto, Helvetica, Arial, sans-serif, "Apple Color Emoji", "Segoe UI Emoji", "Segoe UI Symbol"; } #chartdiv { width:100%; height: 500px; } </style> </head> <body> <script src="https://www.amcharts.com/lib/4/core.js"></script> <script src="https://www.amcharts.com/lib/4/charts.js"></script> 1 Источник: https://www.nytimes.com/2022/02/22/world/europe/biden-ukraine-speech-transcript.html. 2 Источник: https://www.amcharts.com/docs/v4/tutorials/exporting-data-from-a-word-cloud/.


136 Глава 5 <script src="https://www.amcharts.com/lib/4/plugins/wordCloud.js"></script> <script src="https://www.amcharts.com/lib/4/themes/animated.js"></script> <div id="chartdiv"></div> </body> </html> Напишем JavaScript-код, реализующий алгоритм хранения, обработки и визуализации облака ключевых слов, способный визуализировать смысловые тезисы содержания текста (листинг 5.2). Листинг 5.2. Исходный код JavaScript <script> am4core.useTheme(am4themes_animated); // Themes end var chart = am4core.create("chartdiv", am4plugins_wordCloud.WordCloud); var series = chart.series.push(new am4plugins_wordCloud.WordCloudSeries()); series.accuracy = 4; series.step = 15; series.rotationThreshold = 0.7; series.maxCount = 200; series.minWordLength = 2; series.labels.template.tooltipText = "{word}: {value}"; series.fontFamily = "Courier New"; series.maxFontSize = am4core.percent(30); series.text = "Well, good afternoon. Yesterday Vladimir Putin recognized two regions of Ukraine as independent states. And he bizarrely asserted that these regions are longer part of Ukraine and they’re sovereign territory. To put it simply: Russia just announced that it is carving out a big chunk of Ukraine. Last night, Putin authorized Russian forces to deploy into these regions. Today he asserted that these regions actually extend deeper than the two areas he recognized, claiming large areas currently under the jurisdiction of the Ukraine government. He’s setting up a rationale to take more territory by force in my view. And if we listen to his speech last night, and many of you did, I know, he’s setting up a rationale to go much further. This is the beginning of a Russian invasion of Ukraine, as he indicated and asked permission to be able to do from his Duma. So, let’s begin to — so, I’m going to begin to impose sanctions in response far beyond the steps we and our allies and partners implemented in 2014. [Сократили текст для примера*.] He explicitly threatened war unless his extreme demands were met. And there’s no question that Russia is the aggressor. So we’re clear eyed about the challenges we’re facing. Nonetheless, there is still time to avert the worse-case scenario that will bring untold suffering to millions of people if they move as suggested. The United States and our allies and partners remain open to diplomacy, if it is serious. When all is said and done, we’re going to judge Russia by its actions, not its words. And whatever Russia does next, we’re ready to respond with unity, clarity, and conviction. I’ll probably have more to say about this as it moves on. I’m hoping diplomacy is still available. Thank you all very much."; chart.exporting.menu = new am4core.ExportMenu(); chart.exporting.adapter.add("data", function(data, target) { data.data = series.data return data; }); </script> В приведенной реализации учтены следующие моменты: в рамках объема книги публиковать очень длинный текст речи президента США надобности нет, и для использования в примере он сокращен;


Семантический метод анализа больших текстов 137 СОВЕТ Вам же, уважаемые читатели, для развития навыков работы с алгоритмом желательно обратиться к полному тексту речи из указанного ранее источника. из исходного текста исключены пропуски строк — текст загружается в переменную series.text без табуляции и пустых строк; Далее следует перенести созданный JavaScript-код в тело исходного файла HTML и вывести его, начиная со строки после тега <div id="chartdiv"></div> (листинг 5.3). Листинг 5.3. Модифицированный код HTML <!doctype html> <html lang="ru"> <head> <meta charset="UTF-8"> <title>Облако ключевых слов</title> <style> body { font-family: -apple-system, BlinkMacSystemFont, "Segoe UI", Roboto, Helvetica, Arial, sans-serif, "Apple Color Emoji", "Segoe UI Emoji", "Segoe UI Symbol"; } #chartdiv { width:100%; height: 500px; } </style> </head> <body> <script src="https://www.amcharts.com/lib/4/core.js"></script> <script src="https://www.amcharts.com/lib/4/charts.js"></script> <script src="https://www.amcharts.com/lib/4/plugins/wordCloud.js"></script> <script src="https://www.amcharts.com/lib/4/themes/animated.js"></script> <div id="chartdiv"></div> <script> <!-- выгрузить исходный код JavaScript (листинг 5.2) с учетом табуляции вложенности тегов. </script> </body> </html> Визуализация облака ключевых слов из приведенной речи президента США после первого запуска HTML+JavaScript дает следующий результат в виде облака тегов (рис. 5.2). Не будем углубляться в смысловую оценку политической речи, но здесь уже видно, как из визуальных приоритетов ключевых слов моделируется экспресс-срез ее контекста. В примере на английском языке очень часто встречаются служебные слова и артикли. Для чистоты анализа рекомендуется их удалить и снова перезагрузить


138 Глава 5 текст в переменную series.text. Модифицированное облако ключевых слов на рис. 5.3 наглядно помогает исследователю понять тему речи: "Russia" + "we" + "and" + "Ukraine" + "russian" + "territory" Рис. 5.2. Результат визуализации облака ключевых слов из официальной речи президента США Джо Байдена от 22.02.2022 Рис. 5.3. Модифицированный результат визуализации облака ключевых слов после удаления служебных слов и артиклей английского языка


ГЛАВА 8 Факторный анализ для оптимального выбора Факторный анализ представляет собой один из ключевых алгоритмов анализа эмпирических данных на основе изучения и сравнения заданных признаков рассматриваемых моделей исследования. По определению факторный анализ — это многомерный статистический метод, используемый для изучения взаимосвязей между вариативными значениями переменных. По умолчанию трактуется, что известные переменные зависят от меньшего количества неизвестных переменных и случайной ошибки. В научной работе основными целями проведения факторного анализа являются: выявление взаимосвязей между заданными переменными и их классификация по признакам — «объективная R-классификация»; сокращение числа переменных. Аналитически доказательное принятие решения об оптимальном выборе из сходных вариантов A или B (вне зависимости от контекста) возможно с помощью многофакторного анализа на основании требований к отбору. В условиях задачи формальные требования могут быть изложены как в словесной формулировке, так и с использованием физических или математических зависимостей, включая величины, определяющие критерии отбора. Условия применения факторного анализа Практически решение задачи факторного анализа начинается с проверки условий. Приведем обязательные условия научного факторного анализа: все признаки должны быть количественными; серия наблюдений за испытаниями должна быть не менее чем в два раза больше количества переменных; выборка должна быть однородна, т. е. сравнимые модели A и B — сопоставимы; исходные переменные должны быть распределены симметрично; факторный анализ осуществляется по коррелирующим переменным.


214 Глава 8 В научно-исследовательской работе дифференцированный подход к отбору факторов должен быть обоснован условиями задачи. Применение факторного анализа в исследованиях Исследования с использованием факторного анализа имеют обширное значение в науке и бизнесе и способствуют поиску и оценке влияния факторов на изучаемую модель — в частности, при сопоставлении ее с эталоном. Основы методики факторного анализа описаны в трудах исследователей психометрики начала XX века. Факторный анализ широко применяется в психологии, в нейрофизиологии, социологии, политологии, в экономике, статистике, а также в прикладных сферах применения — в логике потребительского выбора и других прикладных задачах. В теории факторного анализа представлены следующие научные методы анализа данных: метод главных компонент; корреляционный анализ; метод максимального правдоподобия. В научных исследованиях классифицируются следующие виды факторного анализа: детерминированный анализ — методика исследования влияния факторов, связь которых с результативным показателем носит исключительно функциональный характер. То есть результативный показатель представлен в виде произведения, соотношения или алгебраической суммы изученных факторов; стохастический анализ — методика исследования факторов, связь которых с результативным показателем, в отличие от функциональной, является неполной, вероятностной (корреляционной). Факторный анализ может быть как прямым, так и обратным: при прямом факторном анализе исследование ведется дедуктивным способом — от общего к частному; обратный факторный анализ в исследовании заключается в поиске причинноследственных связей способом логической индукции — от частных (отдельных) факторов к обобщающим. В зависимости от сложности поставленной задачи факторный анализ может быть также одноступенчатым или многоступенчатым: одноступенчатый факторный анализ используется для исследования факторов только одного уровня (одной ступени) подчинения без их детализации на составные части; при многоступенчатом факторном анализе формируется детализация факторов A и B на составные элементы. Цель такого научного исследования — пове-


Click to View FlipBook Version