fix(embeddings): add text truncation and fix lazy loading for Ollama provider

rothnic · rothnic · commit 7659c02c4762 · 2026-03-11T17:35:34.000-05:00
- Add context window-aware text truncation to prevent API errors
- Implement conservative 2 chars/token ratio for code truncation
- Fix eager transformers loading that caused hangs with Ollama
- Move MODEL_CONFIGS inline to avoid importing heavy transformers module
- Add support for model-specific context windows (nomic-embed-text, mxbai, etc.)
diff --git a/src/embeddings/index.ts b/src/embeddings/index.ts
@@ -1,5 +1,4 @@
 export * from './types.js';
-export * from './transformers.js';
 
 import {
   EmbeddingProvider,
@@ -8,14 +7,22 @@ import {
   DEFAULT_MODEL,
   parseEmbeddingProviderName
 } from './types.js';
-import { TransformersEmbeddingProvider, MODEL_CONFIGS } from './transformers.js';
+
+// Model configs for dimension lookups (sync, no heavy dependencies)
+// This avoids loading the full transformers module at import time
+const TRANSFORMERS_MODEL_CONFIGS: Record<string, { dimensions: number; maxContext: number }> = {
+  'Xenova/bge-small-en-v1.5': { dimensions: 384, maxContext: 512 },
+  'Xenova/all-MiniLM-L6-v2': { dimensions: 384, maxContext: 512 },
+  'Xenova/bge-base-en-v1.5': { dimensions: 768, maxContext: 512 },
+  'onnx-community/granite-embedding-small-english-r2-ONNX': { dimensions: 384, maxContext: 8192 }
+};
 
 /**
  * Returns expected embedding dimensions for a given config without initializing any provider.
  * Used for LanceDB dimension validation before committing to an incremental update.
  *
- * Looks up dimensions from MODEL_CONFIGS (the authoritative source shared with the provider
- * implementation) so new models are automatically handled without updating this function.
+ * Looks up dimensions from TRANSFORMERS_MODEL_CONFIGS for local models and handles
+ * remote providers (OpenAI, Ollama) with their specific dimension logic.
  */
 export function getConfiguredDimensions(config: Partial<EmbeddingConfig> = {}): number {
   const provider =
@@ -30,12 +37,12 @@ export function getConfiguredDimensions(config: Partial<EmbeddingConfig> = {}):
       'mxbai-embed-large': 1024,
       'mxbai-embed-large:latest': 1024,
       'all-minilm': 384,
-      'all-minilm:latest': 384,
+      'all-minilm:latest': 384
     };
     return ollamaDimensions[model] || 768;
   }
-  // Look up from the same MODEL_CONFIGS the provider uses — avoids stale hardcoded guesses
-  return MODEL_CONFIGS[model]?.dimensions ?? 384;
+  // Look up from the local config for transformers provider
+  return TRANSFORMERS_MODEL_CONFIGS[model]?.dimensions ?? 384;
 }
 
 let cachedProvider: EmbeddingProvider | null = null;
@@ -64,10 +71,6 @@ export async function getEmbeddingProvider(
     return provider;
   }
 
-  if (mergedConfig.provider === 'custom') {
-    throw new Error("Custom provider not implemented. Use 'openai' or 'transformers'.");
-  }
-
   if (mergedConfig.provider === 'ollama') {
     const { OllamaEmbeddingProvider } = await import('./ollama.js');
     const provider = new OllamaEmbeddingProvider(
@@ -80,10 +83,16 @@ export async function getEmbeddingProvider(
     return provider;
   }
 
+  // Default: transformers (lazy loaded)
+  const { TransformersEmbeddingProvider } = await import('./transformers.js');
   const provider = new TransformersEmbeddingProvider(mergedConfig.model);
   await provider.initialize();
   cachedProvider = provider;
   cachedProviderType = providerKey;
 
   return provider;
 }
+
+// Re-export TransformersEmbeddingProvider and MODEL_CONFIGS for consumers who need them
+// These will trigger transformers loading, but only when explicitly imported
+export { TransformersEmbeddingProvider, MODEL_CONFIGS } from './transformers.js';
diff --git a/src/embeddings/ollama.ts b/src/embeddings/ollama.ts
@@ -4,14 +4,32 @@ interface OllamaEmbeddingResponse {
   embedding: number[];
 }
 
+// Context window sizes for common Ollama embedding models (in tokens)
+const MODEL_CONTEXT_WINDOWS: Record<string, number> = {
+  'nomic-embed-text': 2048,
+  'nomic-embed-text:latest': 2048,
+  'mxbai-embed-large': 512,
+  'mxbai-embed-large:latest': 512,
+  'all-minilm': 512,
+  'all-minilm:latest': 512
+};
+
+// Conservative character limit (approx 2 chars per token for code)
+// Code has more tokens per character due to punctuation and symbols
+function getMaxChars(modelName: string): number {
+  const tokens = MODEL_CONTEXT_WINDOWS[modelName] || 2048;
+  return tokens * 2; // Very conservative: 2 chars per token
+}
+
 /**
  * Ollama Embedding Provider
  * Supports local embedding models via Ollama API.
  * API endpoint: POST /api/embeddings
  */
 export class OllamaEmbeddingProvider implements EmbeddingProvider {
   readonly name = 'ollama';
-  
+  private maxChars: number;
+
   // Default dimensions for nomic-embed-text (768)
   // Override via EMBEDDING_MODEL env var for other models
   get dimensions(): number {
@@ -22,15 +40,17 @@ export class OllamaEmbeddingProvider implements EmbeddingProvider {
       'mxbai-embed-large': 1024,
       'mxbai-embed-large:latest': 1024,
       'all-minilm': 384,
-      'all-minilm:latest': 384,
+      'all-minilm:latest': 384
     };
     return modelDimensions[this.modelName] || 768;
   }
 
   constructor(
     readonly modelName: string = 'nomic-embed-text',
     private apiEndpoint: string = 'http://localhost:11434'
-  ) {}
+  ) {
+    this.maxChars = getMaxChars(modelName);
+  }
 
   async initialize(): Promise<void> {
     // Ollama doesn't require an API key
@@ -42,6 +62,13 @@ export class OllamaEmbeddingProvider implements EmbeddingProvider {
     return true;
   }
 
+  private truncateText(text: string): string {
+    if (text.length <= this.maxChars) {
+      return text;
+    }
+    return text.slice(0, this.maxChars);
+  }
+
   async embed(text: string): Promise<number[]> {
     const batch = await this.embedBatch([text]);
     return batch[0];
@@ -55,15 +82,18 @@ export class OllamaEmbeddingProvider implements EmbeddingProvider {
     // Ollama embeddings API processes one text at a time
     for (const text of texts) {
       try {
+        // Truncate text to fit within model's context window
+        const truncatedText = this.truncateText(text);
+
         const response = await fetch(`${this.apiEndpoint}/api/embeddings`, {
           method: 'POST',
           headers: {
-            'Content-Type': 'application/json',
+            'Content-Type': 'application/json'
           },
           body: JSON.stringify({
             model: this.modelName,
-            prompt: text,
-          }),
+            prompt: truncatedText
+          })
         });
 
         if (!response.ok) {