Как подготовить данные к внедрению ИИ

Внедрение искусственного интеллекта в бизнес-процессы начинается не с выбора модели или платформы. Оно начинается с данных. По нашему опыту в Промолитике, подготовка данных - это 70% успеха любого ИИ-проекта. Компании, которые пропускают этот этап, получают модели, которые галлюцинируют, дают нерелевантные ответы и теряют доверие сотрудников уже в первые недели. В этой статье мы разберём пошаговый чеклист: что проверить, как очистить и структурировать данные, чтобы ИИ работал на вас, а не против вас.

Почему подготовка данных - это 70% успеха

Любая языковая модель - будь то YandexGPT, Llama, Mistral или DeepSeek - работает ровно настолько хорошо, насколько хороши данные, на которых она обучена или которые ей предоставляют в контексте. Это справедливо и для RAG-систем (Retrieval-Augmented Generation), где модель ищет ответ в базе знаний компании, и для файн-тюнинга, и для простых чат-ботов с загруженной документацией.

Вот типичная картина: компания загружает в систему 5000 документов, запускает ИИ-ассистента, а он на вопрос «Какие условия гарантии на модель X?» отвечает информацией из устаревшего прайс-листа 2019 года. Или путает данные двух клиентов с похожими названиями. Или вовсе отказывается отвечать, потому что документ был в формате сканированного PDF без текстового слоя.

Мы видели это десятки раз. Проблема не в модели - проблема в данных. Грязные, неструктурированные, устаревшие данные - это мусор на входе и мусор на выходе. Никакая, даже самая продвинутая модель не компенсирует плохое качество исходных материалов.

Аудит данных: с чего начать

Прежде чем чистить данные, нужно понять, что у вас есть. Аудит данных - это инвентаризация всех информационных активов компании с оценкой их пригодности для ИИ. Вот пять ключевых параметров, которые нужно оценить:

Форматы - в каких форматах хранятся данные? PDF, DOCX, XLSX, HTML, JSON, базы данных, mbox-архивы? Некоторые форматы парсятся легко, другие требуют специальной обработки. Сканированные PDF без OCR-слоя - это по сути картинки, а не текст
Объёмы - сколько данных в гигабайтах и в количестве записей? 500 документов - это одна история, 500 000 - совсем другая. От объёма зависит выбор инструментов, архитектуры и бюджета
Качество - насколько данные полны, точны и непротиворечивы? Есть ли пропущенные поля, дубликаты, ошибки в названиях? Данные с 30% пустых полей потребуют серьёзной работы до загрузки
Свежесть - когда данные были обновлены последний раз? Актуальны ли они? Прайс-лист 2021 года может навредить больше, чем помочь, если ИИ будет цитировать устаревшие цены клиентам
Доступность - где физически хранятся данные? Есть ли API для доступа? Нужны ли специальные разрешения? Данные на личных компьютерах сотрудников или в заблокированных SaaS-аккаунтах создают серьёзные препятствия

На практике мы рекомендуем завести таблицу аудита, где для каждого источника данных указаны: название, формат, примерный объём, дата последнего обновления, ответственный и оценка качества по шкале от 1 до 5. Эта таблица станет основой для планирования всех дальнейших работ.

Типы бизнес-данных и как их оценивать

Каждый тип данных имеет свои особенности и подводные камни. Разберём основные категории, с которыми мы сталкиваемся в проектах.

Документы (PDF, Word, Excel)

Документы - самый распространённый и одновременно самый проблемный тип данных. На что обращать внимание:

OCR-качество - если документы были отсканированы, проверьте качество распознавания. Откройте 10-20 случайных файлов и оцените: читается ли текст? Нет ли «мусорных» символов? Таблицы, формулы и схемы особенно часто распознаются с ошибками
Структура - есть ли в документах заголовки, подзаголовки, нумерация? Хорошо структурированный документ с заголовками H1-H3 разбивается на чанки автоматически. Сплошной текст на 50 страниц - это проблема
Excel и таблицы - данные в ячейках без заголовков столбцов бесполезны для ИИ. Проверьте: есть ли шапка, единообразны ли форматы дат и чисел, нет ли объединённых ячеек
Версионность - часто в папках хранятся 5 версий одного документа: «Договор_v2_final_ИТОГ(2).docx». Нужно оставить только актуальные версии

CRM-данные

CRM - это кладезь информации о клиентах, но качество данных в CRM часто оставляет желать лучшего. В одном проекте с Profitbase мы обнаружили 48 кастомных полей в CRM, из которых только 12 заполнялись более чем у 50% контактов. Остальные 36 полей были практически пустыми.

Полнота - какой процент полей заполнен? Если у 80% клиентов не указана отрасль или город, эти данные не помогут ИИ персонализировать ответы
Покрытие полей - используются ли все поля? Или часть из них - наследие прошлых настроек, которое никто не заполняет?
Дубликаты - один клиент может быть записан как «ООО Ромашка», «Ромашка ООО», «ООО "Ромашка"» и «РОМАШКА». Для ИИ это четыре разных компании
Актуальность - контакты с телефонами, начинающимися на 8-495, и email на mail.ru могут быть актуальны, а могут - нет. Проверьте давность последнего взаимодействия

Почтовые архивы

Email-архивы - мощный источник знаний о процессах, решениях и коммуникациях. Но работать с ними сложно. В одном из наших проектов мы обрабатывали mbox-архив размером 12 ГБ. Его пришлось разбивать на части по 1 ГБ для обработки, потому что парсер не мог загрузить файл целиком в память.

Объём - почтовые архивы компании за 5-10 лет могут достигать сотен гигабайт. Нужно решить, какой временной период релевантен
Спам и рассылки - в типичном корпоративном ящике 40-60% писем - это автоматические уведомления, рассылки и спам. Их нужно отфильтровать до загрузки
Цепочки ответов - в email-переписках цитируется вся история. Один смысловой ответ может содержать 15 повторов предыдущих сообщений. Нужна дедупликация на уровне цитат
Вложения - важные данные часто находятся во вложениях (PDF, Excel), а не в теле письма. Их нужно извлечь и обработать отдельно

Чаты и тикеты техподдержки

Логи чатов и тикеты поддержки - отличный материал для обучения ИИ-ассистентов. Но у них есть свои особенности:

Язык - клиенты пишут с ошибками, используют сленг, аббревиатуры и эмодзи. Тикет «ничо не работает, помогите срочно!!!» содержит полезную информацию, но ИИ должен научиться её извлекать
Форматирование - логи из разных систем (Jira, Zendesk, Bitrix24, Telegram) имеют разную структуру. Нужна нормализация в единый формат
Парные данные - для обучения ИИ ценны пары «вопрос-ответ», а не просто поток сообщений. Нужно извлечь эти пары из логов

Товарные каталоги

Для e-commerce и производственных компаний каталог - это ядро данных. Проверьте:

Структура - есть ли единая иерархия категорий? Или одни товары в «Электроника > Смартфоны», а другие просто «Телефоны» без категории?
Описания - у всех ли позиций есть текстовые описания? Карточка с названием «Артикул 45892» и ценой без описания бесполезна для ИИ
Изображения - если планируется мультимодальный ИИ, проверьте качество и наличие изображений. У 30% товаров нет фото? Это нужно исправить до запуска

Базы знаний и вики

Внутренние базы знаний (Confluence, Notion, Wiki) - самый «готовый» тип данных для ИИ, потому что они уже структурированы. Но и тут есть проблемы:

Организация - есть ли логическая структура? Или статьи разбросаны по 200 пространствам без навигации?
Свежесть - типичная проблема вики: 60% статей не обновлялись более 2 лет. Устаревшие инструкции хуже, чем их отсутствие
Противоречия - часто существуют 3 статьи на одну тему с разными (и противоречивыми) инструкциями. ИИ не может выбрать правильную без вашей помощи

Чеклист очистки данных

После аудита начинается самая трудоёмкая часть - очистка. Вот конкретные шаги, которые нужно выполнить:

1. Удаление дубликатов и спама

Дубликаты - враг номер один. В CRM это повторяющиеся контакты. В документах - разные версии одного файла. В почте - цепочки с повторяющимися цитатами. Начните с автоматической дедупликации по ключевым полям (email, ИНН, название), затем проверьте результат вручную на выборке. Для почтовых архивов используйте фильтрацию по заголовкам: удалите всё, что содержит «Unsubscribe», «Отписаться от рассылки», «noreply@».

2. Исправление кодировок

Если у вас есть данные из старых систем (1С, DOS-программы, старые сайты), вы столкнётесь с кодировками Windows-1251, KOI8-R, CP866. Текст в неправильной кодировке выглядит как «?????? ??????????» или «КодировкА не тА». Конвертируйте всё в UTF-8 до загрузки. Проверяйте не только основные файлы, но и CSV-экспорты из CRM - они часто приходят в Windows-1251.

3. Стандартизация форматов

Приведите все данные к единым форматам. Телефоны - в формат +7XXXXXXXXXX. Даты - в ISO 8601 (YYYY-MM-DD). Названия компаний - без кавычек вокруг организационно-правовой формы. Адреса - в стандартизированном виде. Чем единообразнее данные, тем лучше ИИ с ними работает.

4. Работа с многоязычным контентом

Если компания работает на нескольких языках, нужно решить: обрабатывать все языки вместе или раздельно? Для RAG-систем мы рекомендуем разделять по языкам и создавать отдельные индексы. Это повышает точность поиска и снижает вероятность «смешанных» ответов, когда ИИ начинает отвечать на русском, а заканчивает на английском.

5. Извлечение текста из изображений (OCR)

Сканированные документы, фотографии документов, скриншоты - всё это нужно пропустить через OCR. Современные OCR-решения дают качество 95-99% на чётких сканах, но на фотографиях с телефона или факсимильных копиях точность падает до 70-80%. Проверяйте результат на выборке и будьте готовы к ручной корректировке для критически важных документов.

6. Нормализация дат, имён и ссылок

Дата «15 марта» без года бесполезна. «Иванов И.И.» и «Иван Иванович Иванов» должны быть связаны. Внутренние ссылки на удалённые страницы или несуществующие файлы создают «мёртвые зоны» в базе знаний. Пройдитесь по всем ссылкам и датам, приведите их к полному формату.

Стратегия чанкинга: как разбивать документы для RAG

Если вы внедряете RAG-систему (а это самый популярный способ использования ИИ с корпоративными данными), критически важно правильно разбить документы на фрагменты - чанки. Чанк - это единица текста, которая индексируется и возвращается при поиске. Слишком маленькие чанки теряют контекст. Слишком большие - снижают точность поиска и не помещаются в контекстное окно модели.

Вот три основные стратегии:

По заголовкам - самый надёжный способ для структурированных документов. Каждый раздел (от H1 до H3) становится отдельным чанком. Преимущество: сохраняется смысловая целостность. Мы используем этот подход для технической документации и регламентов
По абзацам с перекрытием - текст разбивается на фрагменты фиксированного размера (обычно 500-1000 токенов) с перекрытием 100-200 токенов. Перекрытие нужно, чтобы не терять контекст на границах чанков. Подходит для неструктурированного текста - переписок, отзывов, описаний
По семантическим границам - продвинутый подход, где модель эмбеддингов (например, Voyage AI или sentence-transformers) определяет, где заканчивается одна тема и начинается другая. Дороже в вычислениях, но даёт лучшее качество для длинных неоднородных текстов

На практике мы часто комбинируем подходы. Для базы знаний с чёткими заголовками используем разбиение по заголовкам. Для email-архивов - по семантическим границам с предварительной дедупликацией цитат. Для чатов - по диалоговым парам «вопрос-ответ».

Размер чанка зависит от модели. Для Llama и Mistral с контекстом 8K-32K токенов комфортный размер чанка - 500-800 токенов. Для моделей с контекстом 128K+ (DeepSeek, Qwen) можно использовать чанки до 2000 токенов. Но помните: больше - не всегда лучше. Модель лучше работает с 5 релевантными чанками по 500 токенов, чем с 1 чанком на 2500 токенов, где полезная информация размазана по общему тексту.

Метаданные, которые стоит сохранить

При подготовке данных для ИИ многие компании извлекают «голый» текст и теряют метаданные. Это ошибка. Метаданные позволяют ИИ фильтровать, ранжировать и цитировать источники. Вот что обязательно нужно сохранить:

Дата создания и обновления - чтобы ИИ мог приоритизировать свежие данные и предупреждать об устаревших. Вопрос «Какая текущая цена?» должен получить ответ из последнего прайс-листа, а не из архивного
Автор или источник - для цитирования и проверки достоверности. «Согласно документу от юридического отдела от 15.01.2025...» - такой ответ вызывает доверие
Категория или тип документа - договор, инструкция, протокол, коммерческое предложение. Это позволяет ИИ искать в нужном подмножестве данных
Теги и ключевые слова - если они уже есть в вашей системе, обязательно перенесите. Они помогают при гибридном поиске (ключевые слова + семантический поиск)
Иерархия и связи - документ является приложением к договору? Тикет связан с проектом? Статья входит в серию? Эти связи помогают ИИ давать более полные ответы

В нашей практике мы храним метаданные в отдельных полях векторной базы данных (например, pgvector). Это позволяет комбинировать семантический поиск с фильтрацией по метаданным: «Найди все инструкции по продукту X, обновлённые за последний год».

Конфиденциальность и чувствительные данные

Перед загрузкой данных в любую ИИ-систему необходимо решить вопрос с персональными и конфиденциальными данными. Это не просто рекомендация - это требование 152-ФЗ о персональных данных.

Персональные данные (ПД) - ФИО, телефоны, email, адреса, паспортные данные, ИНН физлиц. Если ИИ будет работать с внутренними данными, нужно либо анонимизировать ПД, либо обеспечить соответствующий уровень защиты
Коммерческая тайна - ценовые политики, маржинальность, условия контрактов с ключевыми клиентами. Решите, нужны ли эти данные ИИ, или можно обойтись обобщёнными версиями
Банковские и платёжные данные - номера карт, счетов, реквизиты. Их категорически нельзя загружать в ИИ-системы. Маскируйте или удаляйте полностью
Медицинские данные - если ваш бизнес связан с медициной, данные пациентов подлежат особой защите
Внутренние пароли и ключи API - проверьте, что в документах и конфигурационных файлах нет захардкоженных паролей и токенов доступа. Это встречается чаще, чем хочется думать

Практический подход: создайте «карту чувствительности» данных. Для каждого источника определите уровень: публичный, внутренний, конфиденциальный, секретный. Данные с уровнем «секретный» не должны попадать в ИИ-систему. «Конфиденциальные» - только после анонимизации. «Внутренние» - с контролем доступа. «Публичные» - без ограничений.

Для анонимизации мы используем регулярные выражения и специализированные NER-модели, которые автоматически находят и маскируют имена, телефоны, адреса и другие ПД в тексте. Это позволяет сохранить смысловую нагрузку документа, заменив «Иванов Пётр Сергеевич, +7-915-123-45-67» на «[ФИО], [ТЕЛЕФОН]».

Оценка объёма: сколько данных нужно

Один из самых частых вопросов: «Сколько данных нужно для ИИ?». Ответ зависит от задачи.

RAG-система (база знаний) - для начала достаточно 100-500 качественных документов. Лучше 200 хорошо структурированных статей, чем 10 000 неразобранных файлов. Мы рекомендуем начинать с минимального набора и расширять итеративно
Чат-бот для поддержки - 50-100 пар «вопрос-ответ» для базового покрытия, 500+ для хорошего качества. Плюс документация по продуктам и услугам
Аналитический ИИ-ассистент - нужны данные за 6-12 месяцев для выявления трендов. Для сезонных бизнесов - за 2-3 года
Файн-тюнинг модели - минимум 1000 примеров для заметного эффекта, 5000-10000 для хорошего качества. Но файн-тюнинг - это крайний случай, обычно RAG решает задачу лучше и дешевле

Когда данных слишком много? Когда стоимость хранения и индексирования превышает пользу. Если у вас 10 ТБ логов сервера, но ИИ-ассистент отвечает на вопросы клиентов, эти логи ему не нужны. Фокусируйтесь на данных, которые непосредственно помогают решить бизнес-задачу.

В нашем проекте по обработке email-архивов мы столкнулись с ситуацией: из 12 ГБ почтовых данных после фильтрации спама, рассылок и дубликатов осталось 2.8 ГБ полезного контента. После извлечения текста и чанкинга получилось 340 000 чанков, которые были проиндексированы для RAG. Этого хватило для покрытия 95% типичных запросов пользователей.

Практический чеклист: 10 шагов перед запуском ИИ-проекта

Соберём всё сказанное в единый чеклист. Пройдите эти 10 шагов до того, как начнёте писать код или настраивать модель:

Определите бизнес-задачу - какую конкретную проблему решает ИИ? «Хотим внедрить ИИ» - это не задача. «Сократить время ответа на запросы клиентов с 4 часов до 15 минут» - это задача
Проведите инвентаризацию данных - составьте таблицу всех источников данных с оценкой формата, объёма, качества, свежести и доступности
Оцените качество на выборке - возьмите 50-100 случайных записей из каждого источника и проверьте вручную. Это даст реальную картину качества данных
Определите чувствительные данные - создайте карту чувствительности, определите, что нужно анонимизировать, а что удалить
Удалите мусор - дубликаты, спам, устаревшие документы, пустые записи, тестовые данные. На практике этот шаг уменьшает объём данных на 30-60%
Стандартизируйте форматы - кодировки в UTF-8, даты в ISO, телефоны в единый формат, названия компаний без расхождений
Извлеките текст - конвертируйте PDF и изображения через OCR, извлеките текст из HTML, экспортируйте данные из CRM и баз данных в читаемый формат
Разработайте стратегию чанкинга - выберите подход к разбиению документов в зависимости от их типа и структуры. Протестируйте на выборке
Сохраните метаданные - дата, автор, категория, теги, связи с другими документами. Без метаданных ИИ не сможет ранжировать и фильтровать результаты
Проведите пилотное тестирование - загрузите 10% подготовленных данных и проверьте качество ответов ИИ. Скорректируйте параметры чанкинга, эмбеддингов и поиска до загрузки полного объёма

Каждый пропущенный шаг увеличивает риск неудачного внедрения. Мы видели проекты, где компании потратили месяцы на настройку модели, а потом обнаружили, что 40% данных в базе знаний устарели. Переделывать пришлось почти всё.

Как Промолитика помогает с подготовкой данных

В Промолитике мы занимаемся полным циклом подготовки данных для ИИ-проектов. Вот что мы берём на себя:

Аудит данных - анализируем все ваши источники, оцениваем качество и даём рекомендации по приоритетам. Составляем детальный отчёт с оценкой трудозатрат
Очистка и нормализация - автоматизированная и ручная обработка данных. Удаление дубликатов, исправление кодировок, стандартизация форматов, анонимизация ПД
Конвейер обработки - настраиваем автоматический pipeline, который обрабатывает новые данные по мере их поступления. Парсинг, OCR, чанкинг, эмбеддинги, индексирование - всё в одном потоке
RAG-система под ключ - от подготовки данных до работающего ИИ-ассистента с интеграцией в ваши системы. Используем pgvector для хранения эмбеддингов, Voyage AI для генерации эмбеддингов, и лучшие языковые модели для генерации ответов
Интеграция с CRM - подключаем ИИ-ботов к вашей CRM (Bitrix24, amoCRM, RetailCRM) с автоматической передачей данных и сквозной аналитикой

Подготовка данных - это не одноразовая задача, а непрерывный процесс. Данные обновляются, появляются новые источники, бизнес-требования меняются. Мы помогаем выстроить процесс так, чтобы ваш ИИ всегда работал с актуальными и качественными данными.

Хотите оценить готовность ваших данных к ИИ? Запишитесь на бесплатную стратегическую сессию, и мы проведём экспресс-аудит ваших источников данных.

Как подготовить данные компании к внедрению ИИ: чеклист

Почему подготовка данных - это 70% успеха

Аудит данных: с чего начать