feat(embedding): add OpenAI as new embeddings provider

donhardman · donhardman · commit 3aec68da99d1 · 2025-07-02T16:48:44.000+07:00
- Introduce OpenAI embedding models support alongside Voyage AI
- Update docs with OpenAI API key setup, model options, and usage examples
- Add OpenAI models to config template and architecture overview
- Enable users to select OpenAI embeddings for improved quality and flexibility
diff --git a/README.md b/README.md
@@ -36,15 +36,17 @@ For detailed installation instructions, see [Installation Guide](INSTALL.md).
 **⚠️ Required for functionality:**
 
 ```bash
-# Required: Voyage AI (embeddings) - 200M free tokens/month
-export VOYAGE_API_KEY="your-voyage-api-key"
+# Required: Choose one embedding provider
+export VOYAGE_API_KEY="your-voyage-api-key"     # Voyage AI - 200M free tokens/month
+export OPENAI_API_KEY="your-openai-api-key"     # OpenAI - Latest models
 
 # Optional: OpenRouter (LLM features)
 export OPENROUTER_API_KEY="your-openrouter-api-key"
 ```
 
 **Get your free API keys:**
 - **Voyage AI**: [Get free API key](https://www.voyageai.com/) (200M tokens/month free)
+- **OpenAI**: [Get API key](https://platform.openai.com/api-keys) (latest embedding models)
 - **OpenRouter**: [Get API key](https://openrouter.ai/) (optional, for AI features)
 
 ## 🚀 Quick Start
diff --git a/config-templates/default.toml b/config-templates/default.toml
@@ -29,6 +29,7 @@ search_block_max_characters = 400  # Maximum characters to display per code/text
 [embedding]
 code_model = "voyage:voyage-code-3"
 text_model = "voyage:voyage-3.5-lite"
+
 # API keys are sourced from environment variables:
 # JINA_API_KEY, VOYAGE_API_KEY, GOOGLE_API_KEY
 
diff --git a/doc/API_KEYS.md b/doc/API_KEYS.md
@@ -55,6 +55,32 @@ octocode config \
 
 **Get API key**: [Google AI Studio](https://makersuite.google.com/app/apikey)
 
+### OpenAI
+
+**Best for**: High-quality embeddings with latest models
+
+```bash
+# Set environment variable
+export OPENAI_API_KEY="your-openai-api-key"
+
+# Configure models
+octocode config \
+  --code-embedding-model "openai:text-embedding-3-small" \
+  --text-embedding-model "openai:text-embedding-3-small"
+
+# Or use large model for higher quality
+octocode config \
+  --code-embedding-model "openai:text-embedding-3-large" \
+  --text-embedding-model "openai:text-embedding-3-large"
+```
+
+**Get API key**: [OpenAI Platform](https://platform.openai.com/api-keys)
+
+**Available models:**
+- `text-embedding-3-small` - 1536 dimensions, cost-effective
+- `text-embedding-3-large` - 3072 dimensions, highest quality
+- `text-embedding-ada-002` - 1536 dimensions, legacy model
+
 ### Local Models (macOS Only)
 
 **Best for**: Privacy, no API costs, offline usage
@@ -177,6 +203,7 @@ octocode config --model "anthropic/claude-3.5-sonnet"
 - `sentencetransformer:sentence-transformers/all-mpnet-base-v2` (768 dim, local)
 - `jina:jina-embeddings-v3` (1024 dim, cloud)
 - `voyage:voyage-3.5-lite` (1024 dim, cloud)
+- `openai:text-embedding-3-large` (3072 dim, cloud)
 
 **Fast Local:**
 - `fastembed:multilingual-e5-small` (384 dim)
diff --git a/doc/ARCHITECTURE.md b/doc/ARCHITECTURE.md
@@ -11,10 +11,11 @@ Octocode is built with a modular architecture that separates concerns and enable
 - **Chunk-based processing** for large files
 
 ### 2. Embedding System
-- **Multiple providers**: FastEmbed (local), SentenceTransformer (local), Jina AI, Voyage AI, Google (cloud)
+- **Multiple providers**: FastEmbed (local), SentenceTransformer (local), Jina AI, Voyage AI, Google, OpenAI (cloud)
 - **Dual embedding models**: Separate models for code and text/documentation
 - **Batch processing** for efficient embedding generation
 - **Provider auto-detection** from model string format
+- **Input type support** for query vs document optimization
 
 ### 3. Vector Database
 - **Lance columnar database** for fast similarity search
diff --git a/doc/CONTRIBUTING.md b/doc/CONTRIBUTING.md
@@ -153,7 +153,13 @@ mod tests {
 
 ## Adding Embedding Providers
 
-Embedding providers are in `src/indexer/embeddings/`. To add a new provider:
+Embedding providers are in `src/embedding/provider/`. To add a new provider:
+
+1. Create provider file (e.g., `your_provider.rs`)
+2. Implement the `EmbeddingProvider` trait
+3. Add to module exports in `mod.rs`
+
+Supported providers: FastEmbed, Jina, Voyage, Google, HuggingFace, OpenAI
 
 ### 1. Provider Implementation
 
diff --git a/src/commands/models.rs b/src/commands/models.rs
@@ -73,6 +73,7 @@ async fn list_models(provider_filter: Option<String>) -> Result<()> {
 			EmbeddingProviderType::Jina,
 			EmbeddingProviderType::Voyage,
 			EmbeddingProviderType::Google,
+			EmbeddingProviderType::OpenAI,
 		]
 	};
 
@@ -119,6 +120,10 @@ async fn list_models(provider_filter: Option<String>) -> Result<()> {
 				println!("  Google models: gemini-embedding-001 (3072d), text-embedding-005 (768d), text-multilingual-embedding-002 (768d)");
 				println!("  Use 'info' command for real-time API validation");
 			}
+			EmbeddingProviderType::OpenAI => {
+				println!("  OpenAI models: text-embedding-3-small (1536d), text-embedding-3-large (3072d), text-embedding-ada-002 (1536d)");
+				println!("  Use 'info' command for real-time API validation");
+			}
 		}
 	}
 
diff --git a/src/embedding/provider/mod.rs b/src/embedding/provider/mod.rs
@@ -44,6 +44,7 @@ pub mod huggingface;
 // Always available provider modules
 pub mod google;
 pub mod jina;
+pub mod openai;
 pub mod voyage;
 
 // Re-export providers
@@ -55,6 +56,7 @@ pub use huggingface::{HuggingFaceProvider, HuggingFaceProviderImpl};
 // Always available provider re-exports
 pub use google::{GoogleProvider, GoogleProviderImpl};
 pub use jina::{JinaProvider, JinaProviderImpl};
+pub use openai::{OpenAIProvider, OpenAIProviderImpl};
 pub use voyage::{VoyageProvider, VoyageProviderImpl};
 
 /// Trait for embedding providers
@@ -95,6 +97,7 @@ pub fn create_embedding_provider_from_parts(
 		EmbeddingProviderType::Jina => Ok(Box::new(JinaProviderImpl::new(model)?)),
 		EmbeddingProviderType::Voyage => Ok(Box::new(VoyageProviderImpl::new(model)?)),
 		EmbeddingProviderType::Google => Ok(Box::new(GoogleProviderImpl::new(model)?)),
+		EmbeddingProviderType::OpenAI => Ok(Box::new(OpenAIProviderImpl::new(model)?)),
 		EmbeddingProviderType::HuggingFace => {
 			#[cfg(feature = "huggingface")]
 			{
diff --git a/src/embedding/provider/openai.rs b/src/embedding/provider/openai.rs
@@ -0,0 +1,207 @@
+// Copyright 2025 Muvon Un Limited
+//
+// Licensed under the Apache License, Version 2.0 (the "License");
+// you may not use this file except in compliance with the License.
+// You may obtain a copy of the License at
+//
+//     http://www.apache.org/licenses/LICENSE-2.0
+//
+// Unless required by applicable law or agreed to in writing, software
+// distributed under the License is distributed on an "AS IS" BASIS,
+// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+// See the License for the specific language governing permissions and
+// limitations under the License.
+
+//! OpenAI embedding provider implementation
+
+use anyhow::{Context, Result};
+use serde_json::{json, Value};
+
+use super::super::types::InputType;
+use super::{EmbeddingProvider, HTTP_CLIENT};
+
+/// OpenAI provider implementation for trait
+pub struct OpenAIProviderImpl {
+	model_name: String,
+	dimension: usize,
+}
+
+impl OpenAIProviderImpl {
+	pub fn new(model: &str) -> Result<Self> {
+		// Validate model first - fail fast if unsupported
+		let supported_models = [
+			"text-embedding-3-small",
+			"text-embedding-3-large",
+			"text-embedding-ada-002",
+		];
+
+		if !supported_models.contains(&model) {
+			return Err(anyhow::anyhow!(
+				"Unsupported OpenAI model: '{}'. Supported models: {:?}",
+				model,
+				supported_models
+			));
+		}
+
+		let dimension = Self::get_model_dimension(model);
+		Ok(Self {
+			model_name: model.to_string(),
+			dimension,
+		})
+	}
+
+	fn get_model_dimension(model: &str) -> usize {
+		match model {
+			"text-embedding-3-small" => 1536,
+			"text-embedding-3-large" => 3072,
+			"text-embedding-ada-002" => 1536,
+			_ => {
+				// This should never be reached due to validation in new()
+				panic!(
+					"Invalid OpenAI model '{}' passed to get_model_dimension",
+					model
+				);
+			}
+		}
+	}
+}
+
+#[async_trait::async_trait]
+impl EmbeddingProvider for OpenAIProviderImpl {
+	async fn generate_embedding(&self, text: &str) -> Result<Vec<f32>> {
+		OpenAIProvider::generate_embeddings(text, &self.model_name).await
+	}
+
+	async fn generate_embeddings_batch(
+		&self,
+		texts: Vec<String>,
+		input_type: InputType,
+	) -> Result<Vec<Vec<f32>>> {
+		OpenAIProvider::generate_embeddings_batch(texts, &self.model_name, input_type).await
+	}
+
+	fn get_dimension(&self) -> usize {
+		self.dimension
+	}
+
+	fn is_model_supported(&self) -> bool {
+		// REAL validation - only support actual OpenAI models, NO HALLUCINATIONS
+		matches!(
+			self.model_name.as_str(),
+			"text-embedding-3-small" | "text-embedding-3-large" | "text-embedding-ada-002"
+		)
+	}
+}
+
+/// OpenAI provider implementation
+pub struct OpenAIProvider;
+
+impl OpenAIProvider {
+	pub async fn generate_embeddings(contents: &str, model: &str) -> Result<Vec<f32>> {
+		let result =
+			Self::generate_embeddings_batch(vec![contents.to_string()], model, InputType::None)
+				.await?;
+		result
+			.first()
+			.cloned()
+			.ok_or_else(|| anyhow::anyhow!("No embeddings found"))
+	}
+
+	pub async fn generate_embeddings_batch(
+		texts: Vec<String>,
+		model: &str,
+		input_type: InputType,
+	) -> Result<Vec<Vec<f32>>> {
+		let openai_api_key = std::env::var("OPENAI_API_KEY")
+			.context("OPENAI_API_KEY environment variable not set")?;
+
+		// Apply input type prefixes since OpenAI doesn't have native input_type support
+		let processed_texts: Vec<String> = texts
+			.into_iter()
+			.map(|text| input_type.apply_prefix(&text))
+			.collect();
+
+		// Build request body
+		let request_body = json!({
+			"input": processed_texts,
+			"model": model,
+			"encoding_format": "float"
+		});
+
+		let response = HTTP_CLIENT
+			.post("https://api.openai.com/v1/embeddings")
+			.header("Authorization", format!("Bearer {}", openai_api_key))
+			.header("Content-Type", "application/json")
+			.json(&request_body)
+			.send()
+			.await?;
+
+		if !response.status().is_success() {
+			let error_text = response.text().await?;
+			return Err(anyhow::anyhow!("OpenAI API error: {}", error_text));
+		}
+
+		let response_json: Value = response.json().await?;
+
+		let embeddings = response_json["data"]
+			.as_array()
+			.context("Failed to get embeddings array")?
+			.iter()
+			.map(|data| {
+				data["embedding"]
+					.as_array()
+					.unwrap_or(&Vec::new())
+					.iter()
+					.map(|v| v.as_f64().unwrap_or_default() as f32)
+					.collect()
+			})
+			.collect();
+
+		Ok(embeddings)
+	}
+}
+
+#[cfg(test)]
+mod tests {
+	use super::*;
+
+	#[test]
+	fn test_openai_provider_creation() {
+		// Test valid models
+		assert!(OpenAIProviderImpl::new("text-embedding-3-small").is_ok());
+		assert!(OpenAIProviderImpl::new("text-embedding-3-large").is_ok());
+		assert!(OpenAIProviderImpl::new("text-embedding-ada-002").is_ok());
+
+		// Test invalid model
+		assert!(OpenAIProviderImpl::new("invalid-model").is_err());
+	}
+
+	#[test]
+	fn test_model_dimensions() {
+		let provider_small = OpenAIProviderImpl::new("text-embedding-3-small").unwrap();
+		assert_eq!(provider_small.get_dimension(), 1536);
+
+		let provider_large = OpenAIProviderImpl::new("text-embedding-3-large").unwrap();
+		assert_eq!(provider_large.get_dimension(), 3072);
+
+		let provider_ada = OpenAIProviderImpl::new("text-embedding-ada-002").unwrap();
+		assert_eq!(provider_ada.get_dimension(), 1536);
+	}
+
+	#[test]
+	fn test_model_validation() {
+		let provider_valid = OpenAIProviderImpl::new("text-embedding-3-small").unwrap();
+		assert!(provider_valid.is_model_supported());
+
+		// This would panic if we tried to create an invalid model, so we test indirectly
+		let supported_models = [
+			"text-embedding-3-small",
+			"text-embedding-3-large",
+			"text-embedding-ada-002",
+		];
+		for model in supported_models {
+			let provider = OpenAIProviderImpl::new(model).unwrap();
+			assert!(provider.is_model_supported());
+		}
+	}
+}
diff --git a/src/embedding/types.rs b/src/embedding/types.rs
@@ -69,6 +69,7 @@ pub enum EmbeddingProviderType {
 	Voyage,
 	Google,
 	HuggingFace,
+	OpenAI,
 }
 
 impl Default for EmbeddingProviderType {
@@ -124,6 +125,7 @@ pub fn parse_provider_model(input: &str) -> (EmbeddingProviderType, String) {
 			"voyageai" | "voyage" => EmbeddingProviderType::Voyage,
 			"google" => EmbeddingProviderType::Google,
 			"huggingface" | "hf" => EmbeddingProviderType::HuggingFace,
+			"openai" => EmbeddingProviderType::OpenAI,
 			_ => {
 				// Default fallback - use FastEmbed if available, otherwise Voyage
 				#[cfg(feature = "fastembed")]

Original file line number	Diff line number	Diff line change
`@@ -73,6 +73,7 @@ async fn list_models(provider_filter: Option<String>) -> Result<()> {`
`73`	`73`	`EmbeddingProviderType::Jina,`
`74`	`74`	`EmbeddingProviderType::Voyage,`
`75`	`75`	`EmbeddingProviderType::Google,`
	`76`	`+ EmbeddingProviderType::OpenAI,`
`76`	`77`	`]`
`77`	`78`	`};`
`78`	`79`
`@@ -119,6 +120,10 @@ async fn list_models(provider_filter: Option<String>) -> Result<()> {`
`119`	`120`	`println!(" Google models: gemini-embedding-001 (3072d), text-embedding-005 (768d), text-multilingual-embedding-002 (768d)");`
`120`	`121`	`println!(" Use 'info' command for real-time API validation");`
`121`	`122`	`}`
	`123`	`+ EmbeddingProviderType::OpenAI => {`
	`124`	`+ println!(" OpenAI models: text-embedding-3-small (1536d), text-embedding-3-large (3072d), text-embedding-ada-002 (1536d)");`
	`125`	`+ println!(" Use 'info' command for real-time API validation");`
	`126`	`+ }`
`122`	`127`	`}`
`123`	`128`	`}`
`124`	`129`