Какие данные можно векторизировать: полный гайд по источникам
- Источники данных
- Векторизация


Векторизация данных - это процесс преобразования текстовой, табличной или мультимедийной информации в числовые векторы (эмбеддинги), которые сохраняют семантический смысл исходных данных и позволяют искать по ним с помощью ИИ. Но прежде чем строить RAG-систему или запускать ИИ-ассистента, нужно ответить на ключевой вопрос: какие именно данные вашей компании можно и нужно векторизировать? В этой статье мы разберём все основные типы источников - от PDF-документов и CRM до email-архивов и аудиозаписей - с конкретными примерами из проектов Промолитики, подводными камнями и рекомендациями по извлечению.
Документы - самый очевидный и самый распространённый источник данных для векторизации. Практически у каждой компании есть сотни или тысячи файлов: инструкции, договоры, регламенты, прайс-листы, коммерческие предложения, технические спецификации. Всё это - потенциальная база знаний для ИИ.
PDF - самый распространённый формат деловых документов, но и самый сложный для обработки. Существуют два принципиально разных типа PDF:
На что обращать внимание при работе с PDF:
В проектах Промолитики мы выстроили конвейер обработки PDF: извлечение текста, определение структуры (заголовки, списки, таблицы), очистка от мусора, разбиение на фрагменты и создание эмбеддингов. Для одного из клиентов мы обработали более 2000 PDF-документов общим объёмом свыше 8 ГБ - от технических регламентов до маркетинговых исследований.
Word-документы проще в обработке, чем PDF, потому что они хранят структуру в формате XML. Заголовки, списки, таблицы - всё размечено явно. Это позволяет автоматически извлекать иерархию документа и использовать её при разбиении на фрагменты.
Основная проблема Word-файлов - непоследовательное форматирование. Авторы часто имитируют заголовки увеличенным шрифтом вместо стилей, делают отступы пробелами вместо табуляции, создают «таблицы» из символов табуляции. Всё это затрудняет автоматическую обработку. Мы рекомендуем перед массовой загрузкой проверить 20-30 случайных файлов вручную, чтобы оценить консистентность форматирования.
Табличные данные - особый случай для векторизации. Прямая конвертация строк таблицы в текст часто даёт плохие результаты, потому что отдельная строка без заголовков столбцов лишена контекста.
Правильный подход: преобразовать каждую строку в структурированное текстовое описание. Например, строка таблицы с данными о квартире превращается в: «Квартира: 2-комнатная, площадь 65 кв.м, этаж 8 из 16, район Центральный, цена 7 500 000 руб., сдача Q3 2026». Такое описание содержит всю информацию и хорошо индексируется эмбеддинг-моделью.
Ключевые подводные камни: объединённые ячейки разрушают логику парсинга, скрытые листы могут содержать важные данные или мусор, формулы нужно преобразовать в значения. Мы всегда проверяем, есть ли заголовки столбцов и единообразны ли форматы данных (даты, числа, валюты).
CRM-система - это живое хранилище знаний о ваших клиентах, сделках и коммуникациях. Для ИИ-ассистента по продажам или бота-консультанта данные из CRM - стратегический ресурс. Но работа с ними требует глубокого понимания структуры и качества данных в конкретной CRM.
В одном из флагманских проектов Промолитики мы интегрировали ИИ-бота с CRM Profitbase для крупного застройщика. Profitbase - специализированная CRM для недвижимости, и в ней оказалось 48 кастомных полей для каждого объекта: от стандартных (площадь, этаж, количество комнат) до специфичных (вид из окна, наличие террасы, тип отделки, ближайшая школа, время до станции метро).
Из этих 48 полей только 22 заполнялись более чем у 70% объектов. Остальные 26 полей имели заполняемость ниже 30%. Мы приняли решение: для векторизации использовать все 48 полей, но с разной «весомостью». Поля с высокой заполняемостью включались в основное текстовое описание объекта. Поля с низкой заполняемостью добавлялись как дополнительные метаданные - они не попадали в эмбеддинг, но использовались для фильтрации.
Результат: бот корректно отвечал на запросы вроде «Покажи квартиры с террасой рядом с парком до 10 миллионов», комбинируя семантический поиск (близость к парку) с точной фильтрацией (наличие террасы, цена).
Корпоративная электронная почта - один из самых недооценённых источников данных для ИИ. В переписке за 5-10 лет работы компании содержатся решения, договорённости, контексты проектов, которые невозможно найти ни в одной CRM или wiki. Проблема в том, что email-архивы - это гигабайты неструктурированного текста с высоким уровнем шума.
Мы выстроили многоступенчатый конвейер обработки почтовых архивов, который прошёл боевое крещение на реальных проектах. Вот как он работает:
Этап 1: Загрузка и парсинг. mbox-файл разбивается на отдельные письма. Из каждого извлекаются: тема, отправитель, получатели, дата, тело письма (plain text и HTML), вложения. Мы обрабатываем как текстовые версии, так и HTML - иногда они содержат разную информацию.
Этап 2: Очистка. Это самый критичный этап. Типичное деловое письмо содержит: подпись отправителя (часто с логотипом, юридической информацией и дисклеймером на 10 строк), цитирование предыдущей переписки (иногда 15-20 уровней вложенности), стандартные шаблоны («С уважением», «Sent from my iPhone»), HTML-мусор (теги форматирования, скрытые стили). Всё это нужно удалить, оставив только полезный текст.
Этап 3: Реструктуризация. Очищенный текст пропускается через языковую модель, которая преобразует неструктурированное письмо в структурированный формат: краткое содержание, ключевые решения, упомянутые лица, даты и суммы. Это значительно повышает качество поиска - вместо «сырого» текста с «эээ, ну давайте так, я позвоню в среду и обсудим» получается «Договорённость: звонок в среду для обсуждения условий поставки».
Этап 4: Генерация эмбеддингов. Каждый обработанный фрагмент превращается в вектор с помощью Voyage AI и сохраняется в Turbopuffer вместе с метаданными: дата, отправитель, тема, ID цепочки. Метаданные позволяют фильтровать результаты поиска по времени, участникам и темам.
В одном из проектов мы обрабатывали mbox-архив размером 12 ГБ - корпоративную переписку сервисной компании за 4 года. Архив содержал более 180 000 писем. Из них после фильтрации спама, автоматических уведомлений и пустых ответов осталось около 62 000 полезных писем. После очистки и реструктуризации объём текста сократился в 4 раза - с учётом удаления подписей, цитирования и шаблонов. Итоговая база знаний содержит более 95 000 фрагментов, и менеджеры могут задавать вопросы вроде «Какие условия мы согласовали с компанией N по проекту X в прошлом году?» и получать точные ответы за секунды.
Логи чатов и тикеты техподдержки - это золотая жила для построения ИИ-ассистентов. В отличие от формальных документов, они содержат реальные вопросы клиентов - с реальными формулировками, ошибками и контекстом. Именно на этих данных ИИ учится понимать, как люди на самом деле формулируют проблемы.
В одном из проектов мы обрабатывали выгрузку из Zendesk - более 15 000 тикетов за 2 года. Сырые тикеты содержали шум: автоматические ответы («Ваше обращение принято, номер 12345»), дублирование email-уведомлений, служебные метки.
После очистки мы применили реструктуризацию: языковая модель извлекала из каждого тикета суть проблемы, шаги решения и итоговый результат. Из «сырого» тикета с 20 сообщениями и 3000 символов получался структурированный фрагмент на 300-400 символов с чёткой формулировкой проблемы и решения. Эти фрагменты индексировались в векторную базу и использовались ИИ-ботом для ответов на новые обращения.
Результат: ИИ-бот корректно отвечал на 73% типовых обращений без привлечения оператора. При этом ответы были точнее, чем у скриптового бота, потому что ИИ понимал перефразированные вопросы и комбинировал информацию из нескольких похожих тикетов.
Для e-commerce, застройщиков и любых компаний с большим ассортиментом товаров или услуг каталог - это основной источник данных для ИИ-консультанта. Векторизация каталога позволяет клиентам описывать потребности своими словами, а не подбирать точные фильтры.
Каталог недвижимости - пример сложного каталога, где каждый объект описывается десятками параметров. В проекте для застройщика мы векторизировали более 3900 объектов из Profitbase. Каждый объект преобразовывался в текстовое описание, которое включало: жилой комплекс, корпус, секция, этаж, количество комнат, площадь, цена, статус (свободна/забронирована/продана), тип отделки, вид из окна, наличие балкона или лоджии, срок сдачи.
Важная деталь: каталог обновляется в реальном времени. Когда квартира продаётся или бронируется в CRM, её статус обновляется в векторной базе в течение минут. Это критически важно для корректной работы бота - нельзя предлагать клиенту уже проданные объекты.
Внутренние базы знаний (Confluence, Notion, Wiki, SharePoint) - один из самых «готовых к ИИ» типов данных, потому что они уже структурированы. Статьи имеют заголовки, разделы, списки. Но даже здесь есть серьёзные проблемы, которые нужно решить до векторизации.
Мы рекомендуем трёхшаговый процесс. Сначала аудит: выгрузите список всех статей с датами последнего обновления и пометьте устаревшие. Затем актуализация: обновите или удалите устаревшие статьи. Бизнес часто сопротивляется этому шагу («а вдруг пригодится?»), но загрузка мусора в ИИ-систему обходится дороже. Наконец, нормализация: приведите структуру статей к единообразному формату - заголовки H2 для разделов, списки для пошаговых инструкций, единый стиль.
Аудио- и видеозаписи - мощный, но часто игнорируемый источник данных. Записи звонков с клиентами, обучающие видео, подкасты, совещания - всё это содержит ценную информацию, которая не существует ни в каком другом формате.
Прежде чем векторизировать аудио или видео, их нужно преобразовать в текст - транскрибировать. Современные модели распознавания речи (Whisper, Yandex SpeechKit) дают высокое качество транскрибации для русского языка - точность выше 90% для качественных записей.
Ключевые факторы, влияющие на качество транскрибации:
Сырой транскрипт - это поток слов без пунктуации, с повторами и словами-паразитами. Для качественной векторизации транскрипт нужно обработать: добавить пунктуацию, разбить на смысловые блоки, удалить «ээ», «мм», незаконченные фразы. Мы используем языковую модель для реструктуризации транскриптов - она превращает поток речи в структурированный текст с ключевыми тезисами, решениями и задачами.
Пример: часовая запись звонка с клиентом после обработки превращается в документ на 2 страницы с разделами «Запрос клиента», «Обсуждённые варианты», «Договорённости», «Следующие шаги». Такой документ отлично индексируется и легко находится поиском.
Многие деловые документы содержат изображения, которые несут критически важную информацию: схемы процессов, архитектурные чертежи, графики, скриншоты интерфейсов, фотографии объектов. Стандартные текстовые парсеры эти изображения игнорируют.
Помимо описания изображений текстом, существует подход с использованием мультимодальных эмбеддингов - моделей, которые создают векторы как для текста, так и для изображений в одном пространстве. Это позволяет искать по изображениям текстовым запросом: «план квартиры с двумя спальнями и большой кухней» найдёт соответствующие планировки, даже если они хранятся только как картинки без текстового описания.
На практике мы чаще используем комбинированный подход: мультимодальная модель создаёт текстовое описание изображения, которое затем векторизируется стандартной моделью эмбеддингов. Это проще в реализации и даёт более предсказуемые результаты.
Данные из социальных сетей и мессенджеров - ценный, но деликатный источник. Комментарии клиентов, обсуждения в группах, обратная связь в мессенджерах содержат реальное мнение аудитории. Но работа с ними требует особого внимания к правовым вопросам и качеству данных.
Подведём итог по всем рассмотренным источникам данных.
Не пытайтесь векторизировать всё и сразу. Мы рекомендуем начинать с источников, которые дают максимальный эффект при минимальных усилиях. Вот матрица приоритизации, которую мы используем в проектах:
Начните с первого приоритета, запустите ИИ-ассистента, соберите обратную связь от пользователей. Если они спрашивают вещи, ответы на которые есть только в email-архиве - переходите к третьему приоритету. Итеративный подход позволяет получить результат быстро и наращивать охват данных по мере необходимости.
Практически любые данные можно векторизировать и сделать доступными для ИИ-поиска. PDF-документы, CRM-записи, email-архивы, тикеты поддержки, товарные каталоги, базы знаний, аудиозаписи, изображения - каждый источник требует своего подхода к извлечению и обработке. Ключ к успеху - не в количестве данных, а в их качестве: чистые, актуальные, хорошо структурированные данные дают на порядок лучшие результаты, чем гигабайты необработанного мусора.
В Промолитике мы выстроили конвейеры обработки для каждого типа данных - от парсинга mbox-архивов до реструктуризации тикетов и транскрибации аудио. Мы используем Voyage AI для создания эмбеддингов, Turbopuffer и pgvector для хранения, и собственные RAG-пайплайны для построения интеллектуальных систем. Если вы хотите векторизировать данные своей компании и запустить ИИ-ассистента - свяжитесь с нами для бесплатной консультации.
