Теоретические основы

Что такое RAG?

RAG (Retrieval-Augmented Generation) — гибридная архитектура, объединяющая механизмы поиска с генеративными языковыми моделями.

Проблема:

LLM склонны к галлюцинациям и не имеют доступа к актуальной информации

Решение:

Внешние источники знаний + генеративная модель = точные и обоснованные ответы

Архитектура RAG

┌─────────────────┐

│ Retriever │

│ (поиск данных) │

└─────────────────┘

↓

┌─────────────────┐

│ Vector Store │

│ (база знаний) │

└─────────────────┘

↓

┌─────────────────┐

│ Generator │

│ (генерация LLM) │

└─────────────────┘

Фазы работы RAG:

1. Индексация (Offline)

документы → чанки → эмбеддинги → векторная БД

2. Поиск и генерация (Online)

запрос → поиск → контекст → LLM → ответ

Методы векторизации и эмбеддинги

Классические

• One-hot encoding
• Bag of words
• TF-IDF

Современные

• Word2Vec
• BERT
• Sentence Transformers

SOTA модели

• all-MiniLM-L6-v2
• bge-base-en-v1.5
• YandexGPT Embeddings

Sentence Transformers

✅ 10,000+ предобученных моделей на Hugging Face
✅ Поддержка embedding, reranker, sparse encoder моделей
✅ Простой API для семантического поиска
✅ Оптимизация для различных задач

# Пример использования

from sentence_transformers import SentenceTransformer

model = SentenceTransformer("all-MiniLM-L6-v2")

sentences = ["Пример текста", "Другой текст"]

embeddings = model.encode(sentences)

Семантический поиск: FAISS vs HNSW vs Annoy

Алгоритм	Скорость	Память	Точность	Сжатие	GPU
HNSW	⭐⭐⭐⭐⭐	⭐⭐⭐	⭐⭐⭐⭐⭐	❌	❌
FAISS	⭐⭐⭐	⭐⭐⭐⭐⭐	⭐⭐⭐⭐	✅	✅
Annoy	⭐⭐	⭐⭐	⭐⭐⭐	❌	❌

HNSW

Hierarchical Navigable Small World

Принцип: Многослойный граф с быстрой навигацией

✅ State-of-the-art результаты

❌ Больше памяти на рёбра графа

FAISS

Facebook AI Similarity Search

Принцип: Кластеризация + Product Quantization

✅ Сжатие векторов, GPU ускорение

❌ Сложность настройки

Annoy

Approximate Nearest neighbors Oh Yeah

Принцип: Бинарные деревья с рандомными проекциями

✅ Простота реализации

❌ Высокое потребление памяти

Оценка качества поиска: Recall@k

Метрики поиска (Retrieval)

Recall@k

Доля релевантных документов среди топ-k результатов

Precision@k

Точность среди топ-k результатов

MRR

Mean Reciprocal Rank - обратный ранг первого релевантного результата

Метрики генерации

Answer Relevancy

Релевантность ответа запросу

Faithfulness

Отсутствие галлюцинаций относительно контекста

Context Relevancy

Релевантность извлеченного контекста

Формула Recall@k

Recall@k = Количество релевантных документов в топ-k / Общее количество релевантных документов

Например: если из 5 релевантных документов найдено 3 в топ-10, то Recall@10 = 3/5 = 0.6

Практические примеры

🐍 Python RAG Песочница

Загрузка Pyodide...

💡 Совет: Измените код ниже и нажмите "Запустить" для экспериментов!

Базовый пример RAG

# Простой пример RAG системы
import numpy as np
from sklearn.metrics.pairwise import cosine_similarity

class SimpleRAG:
    def __init__(self):
        self.documents = []
        self.embeddings = []
    
    def add_documents(self, docs):
        """Добавление документов (с мок-эмбеддингами)"""
        for doc in docs:
            # Простая имитация эмбеддинга
            embedding = np.random.rand(5)  # 5-мерный вектор
            self.documents.append(doc)
            self.embeddings.append(embedding)
        print(f"✅ Добавлено {len(docs)} документов")
    
    def search(self, query, top_k=2):
        """Поиск наиболее релевантных документов"""
        if not self.documents:
            return []
        
        # Мок-эмбеддинг запроса
        query_emb = np.random.rand(5)
        
        # Вычисляем сходство
        similarities = []
        for i, doc_emb in enumerate(self.embeddings):
            sim = cosine_similarity([query_emb], [doc_emb])[0][0]
            similarities.append((i, sim))
        
        # Сортируем по убыванию сходства
        similarities.sort(key=lambda x: x[1], reverse=True)
        
        # Возвращаем топ-k документов
        results = []
        for i in range(min(top_k, len(similarities))):
            doc_idx, score = similarities[i]
            results.append({
                'document': self.documents[doc_idx],
                'score': score
            })
        
        return results
    
    def ask(self, query):
        """RAG запрос: поиск + генерация ответа"""
        print(f"🔍 Поиск по запросу: '{query}'")
        
        # Поиск релевантных документов
        results = self.search(query)
        
        if not results:
            return "Нет релевантных документов"
        
        # Формирование контекста
        context = "\n".join([r['document'] for r in results])
        
        # Простая имитация генерации
        print(f"📄 Найдено документов: {len(results)}")
        for i, result in enumerate(results, 1):
            print(f"   {i}. ({result['score']:.3f}) {result['document'][:50]}...")
        
        return f"На основе найденного контекста: {context[:100]}..."

# Демонстрация
rag = SimpleRAG()

# Добавляем тестовые документы
documents = [
    "RAG (Retrieval-Augmented Generation) объединяет поиск и генерацию для точных ответов",
    "FAISS - библиотека Facebook для быстрого поиска по векторам",
    "HNSW показывает лучшую производительность для приближенного поиска",
    "Эмбеддинги преобразуют текст в числовые векторы для семантического поиска",
    "Recall@k измеряет долю найденных релевантных документов в топ-k результатах"
]

rag.add_documents(documents)

# Тестируем запросы
queries = [
    "Что такое RAG?",
    "Какой алгоритм поиска самый быстрый?",
    "Как измерить качество поиска?"
]

for query in queries:
    print("\n" + "="*60)
    answer = rag.ask(query)
    print(f"🤖 Ответ: {answer}")

Результат выполнения

Нажмите "Запустить код" для выполнения примера...

Интерактивная визуализация эмбеддингов

Добавить запрос:

Быстрый выбор:

Или введите свой запрос:

Как работает семантический поиск:

Синие точки - документы в векторном пространстве

Красные точки - пользовательские запросы

Зеленая линия - наилучшее семантическое соответствие

Синие линии - семантически связанные документы

Желтые линии - низкое сходство (разные категории)

Проценты - точная семантическая похожесть

🧠 Алгоритм учитывает:

• Семантические категории: ИИ/ML, Кулинария, Спорт
• Точное совпадение слов: приготовление ≈ готовить
• Межкатегорийные связи: борщ ≠ машинное обучение
• Контекстуальное понимание: реальный анализ значений

💡 Попробуйте:

• Запрос "Приготовление борща" → высокое сходство с кулинарией
• Запрос про ИИ → найдет только ML-документы
• Смешанный запрос → покажет межкатегорийные различия

Проверьте свои знания

Квиз по RAG технологиям

Проверьте, насколько хорошо вы усвоили материал семинара. 5 вопросов о ключевых концепциях RAG.

5 вопросов

О ключевых концепциях

Без ограничения

Времени на обдумывание

Мгновенный

Результат с объяснениями

Yandex Foundation Models для RAG

YandexGPT Pro

Контекст: 32,000 токенов

Качество:

Скорость:

Лучший выбор для сложных RAG задач с длинным контекстом

YandexGPT

Контекст: 8,000 токенов

Качество:

Скорость:

Сбалансированное решение для большинства RAG применений

YandexGPT Lite

Контекст: 4,000 токенов

Качество:

Скорость:

Быстрые ответы для простых RAG запросов

Конфигуратор RAG с Yandex Models

Параметры RAG системы:

Модель для генерации:

API подход:

Top-K результатов:

Количество документов для контекста

Размер чанка:

Токенов на чанк

Folder ID (опционально):

Ваш Folder ID из Yandex Cloud

Предварительный просмотр:

Код будет сгенерирован здесь

Настройте параметры слева и нажмите "Сгенерировать код"

Сгенерированный Python код

Python

Возможности редактора:

• ✏️ Редактируйте код прямо в браузере
• 🚀 Отправьте код в песочницу для выполнения
• 📋 Копируйте или скачайте готовый файл
• 🔧 Настройки сохраняются автоматически

Интерактивная песочница Yandex RAG

Выполните сгенерированный код с реальными данными (без моков)

Yandex Cloud авторизация (обязательно для реального выполнения)

Folder ID:

Ваш Folder ID из Yandex Cloud

API Key:

API ключ или IAM токен

Введите данные для авторизации

Исполняемый код:

Pyodide загружается...

Важно:

• Код выполняется локально в браузере
• API ключи Yandex нужно устанавливать отдельно
• Поддерживаются numpy, pandas, requests
• Реальные HTTP запросы возможны

Результат выполнения:

Выполните код для просмотра результатов...

Возможности:

• 🔄 Реальное выполнение Python кода
• 📦 Автоматическая установка пакетов
• 🌐 HTTP запросы к внешним API
• 📊 Визуализация данных с matplotlib
• 🧪 Тестирование RAG алгоритмов

🚀 Быстрый старт с Yandex Foundation Models

Подготовка:

1. 📝 Зарегистрируйтесь в Yandex Cloud
2. 🔑 Создайте сервисный аккаунт
3. 🛠️ Получите API ключ или IAM токен
4. 📦 Установите SDK: pip install yandexcloud

Использование:

5. ⚙️ Настройте параметры на вкладке "Конфигурация"
6. 🔄 Сгенерируйте код RAG
7. ✏️ Отредактируйте код под свои нужды
8. 🧪 Протестируйте в песочнице

Совет: Начните с OpenAI Compatible API - это самый простой способ интеграции с существующими проектами.

RAG: Retrieval Augmented Generation

Структура семинара

1. Введение в RAG

2. Векторизация

3. Семантический поиск

4. Метрики качества

5. Практика

6. Yandex Foundation Models

Теоретические основы

Что такое RAG?

Архитектура RAG

Фазы работы RAG:

1. Индексация (Offline)

2. Поиск и генерация (Online)

Методы векторизации и эмбеддинги

Классические

Современные

SOTA модели

Sentence Transformers

Семантический поиск: FAISS vs HNSW vs Annoy

HNSW

FAISS

Annoy

Оценка качества поиска: Recall@k

Метрики поиска (Retrieval)

Recall@k

Precision@k

MRR

Метрики генерации

Answer Relevancy

Faithfulness

Context Relevancy

Формула Recall@k

Практические примеры

🐍 Python RAG Песочница

Базовый пример RAG

Результат выполнения

Интерактивная визуализация эмбеддингов

Добавить запрос:

Как работает семантический поиск:

🧠 Алгоритм учитывает:

💡 Попробуйте:

Проверьте свои знания

Квиз по RAG технологиям

Yandex Foundation Models для RAG

YandexGPT Pro

YandexGPT

YandexGPT Lite

Конфигуратор RAG с Yandex Models

Параметры RAG системы:

Предварительный просмотр:

Сгенерированный Python код

Возможности редактора:

Интерактивная песочница Yandex RAG

Yandex Cloud авторизация (обязательно для реального выполнения)

Исполняемый код:

Важно:

Результат выполнения:

Возможности:

Подготовка:

Использование:

Поздравляем!

Что вы изучили: