Vector Embeddings

Vector embeddings are dense numerical representations of data that enable semantic similarity search, recommendation systems, and machine learning applications in Geode. This tag covers storing, indexing, and querying high-dimensional vectors alongside your graph data. <h3 id="what-are-vector-embeddings" class="position-relative d-flex align-items-center group"> What Are Vector Embeddings? <button type="button" class="h-share btn btn-link p-0 text-decoration-none link-secondary opacity-50 hover-opacity-100 transition-all ms-1" data-share-target="what-are-vector-embeddings" aria-haspopup="dialog" aria-label="Share link: What Are Vector Embeddings?"> Share link </button> </h3><div id="headingShareModal" class="heading-share-modal" role="dialog" aria-modal="true" aria-labelledby="headingShareTitle" hidden> <div class="hsm-dialog" role="document"> <div class="hsm-header"> <h2 id="headingShareTitle" class="h6 mb-0 fw-bold">Share this section</h2> <button type="button" class="hsm-close" aria-label="Close"> </button> </div> <div class="hsm-body"> <label for="headingShareInput" class="form-label small text-muted mb-1 text-uppercase fw-bold" style="font-size: 0.7rem; letter-spacing: 0.5px;">Permalink</label> <div class="input-group mb-4 hsm-url-group"> <input id="headingShareInput" type="text" class="form-control font-monospace" readonly aria-readonly="true" style="font-size: 0.85rem;" /> <button class="btn btn-primary hsm-copy" type="button" aria-label="Copy" title="Copy"> </button> </div> <div class="small fw-bold mb-2 text-muted text-uppercase" style="font-size: 0.7rem; letter-spacing: 0.5px;">Share via</div> <div class="hsm-share-grid"> <a id="share-twitter" class="btn btn-outline-secondary w-100" target="_blank" rel="noopener noreferrer"> Twitter </a> <a id="share-linkedin" class="btn btn-outline-secondary w-100" target="_blank" rel="noopener noreferrer"> LinkedIn </a> <a id="share-facebook" class="btn btn-outline-secondary w-100" target="_blank" rel="noopener noreferrer"> Facebook </a> </div> </div> </div> </div> <style> .heading-share-modal { position: fixed; inset: 0; display: flex; justify-content: center; align-items: center; background: rgba(0, 0, 0, 0.6); z-index: 1050; padding: 1rem; backdrop-filter: blur(4px); -webkit-backdrop-filter: blur(4px); } .heading-share-modal[hidden] { display: none !important; } .hsm-dialog { max-width: 420px; width: 100%; background: var(--bs-body-bg, #fff); color: var(--bs-body-color, #212529); border: 1px solid var(--bs-border-color, rgba(0,0,0,0.1)); border-radius: 1rem; box-shadow: 0 25px 50px -12px rgba(0, 0, 0, 0.25); overflow: hidden; animation: hsm-fade-in 0.2s ease-out; } @keyframes hsm-fade-in { from { opacity: 0; transform: scale(0.95); } to { opacity: 1; transform: scale(1); } } [data-bs-theme="dark"] .hsm-dialog { background: #1e293b; border-color: rgba(255,255,255,0.1); color: #f8f9fa; } .hsm-header { display: flex; justify-content: space-between; align-items: center; padding: 1rem 1.5rem; border-bottom: 1px solid var(--bs-border-color, rgba(0,0,0,0.1)); background: rgba(0,0,0,0.02); } [data-bs-theme="dark"] .hsm-header { background: rgba(255,255,255,0.02); border-color: rgba(255,255,255,0.1); } .hsm-close { background: transparent; border: none; color: inherit; opacity: 0.5; padding: 0.25rem 0.5rem; border-radius: 0.25rem; font-size: 1.2rem; line-height: 1; transition: opacity 0.2s; } .hsm-close:hover { opacity: 1; } .hsm-body { padding: 1.5rem; } .hsm-url-group { display: flex !important; align-items: stretch; } .hsm-url-group .form-control { flex: 1; min-width: 0; margin: 0; background: var(--bs-secondary-bg, #f8f9fa); border-color: var(--bs-border-color, #dee2e6); border-top-right-radius: 0; border-bottom-right-radius: 0; height: 42px; } .hsm-url-group .btn { flex: 0 0 auto; margin: 0; margin-left: -1px; border-top-left-radius: 0; border-bottom-left-radius: 0; height: 42px; display: flex; align-items: center; justify-content: center; padding: 0 1.25rem; z-index: 2; } [data-bs-theme="dark"] .hsm-url-group .form-control { background: #0f172a; border-color: #334155; color: #e2e8f0; } .hsm-share-grid { display: flex; flex-direction: column; gap: 0.5rem; } .hsm-share-grid .btn { display: flex; align-items: center; justify-content: center; font-size: 0.9rem; padding: 0.6rem; border-color: var(--bs-border-color); width: 100%; } [data-bs-theme="dark"] .hsm-share-grid .btn { color: #e2e8f0; border-color: #475569; } [data-bs-theme="dark"] .hsm-share-grid .btn:hover { background: #334155; border-color: #cbd5e1; } </style> <script> (function(){ const modal = document.getElementById('headingShareModal'); if(!modal) return; const input = modal.querySelector('#headingShareInput'); const copyBtn = modal.querySelector('.hsm-copy'); const twitter = modal.querySelector('#share-twitter'); const linkedin = modal.querySelector('#share-linkedin'); const facebook = modal.querySelector('#share-facebook'); const closeBtn = modal.querySelector('.hsm-close'); let lastFocus=null; let trapBound=false; function buildUrl(id){ return window.location.origin + window.location.pathname + '#' + id; } function isOpen(){ return !modal.hasAttribute('hidden'); } function hydrate(id){ const url=buildUrl(id); input.value=url; const enc=encodeURIComponent(url); const text=encodeURIComponent(document.title); if(twitter) twitter.href=`https://twitter.com/intent/tweet?url=${enc}&text=${text}`; if(linkedin) linkedin.href=`https://www.linkedin.com/sharing/share-offsite/?url=${enc}`; if(facebook) facebook.href=`https://www.facebook.com/sharer/sharer.php?u=${enc}`; } function openModal(id){ lastFocus=document.activeElement; hydrate(id); if(!isOpen()){ modal.removeAttribute('hidden'); } requestAnimationFrame(()=>{ input.focus(); }); trapFocus(); } function closeModal(){ if(!isOpen()) return; modal.setAttribute('hidden',''); if(lastFocus && typeof lastFocus.focus==='function') lastFocus.focus(); } function copyCurrent(){ try{ navigator.clipboard.writeText(input.value).then(()=>feedback(true),()=>fallback()); } catch(e){ fallback(); } } function fallback(){ input.select(); try{ document.execCommand('copy'); feedback(true);}catch(e){ feedback(false);} } function feedback(ok){ if(!copyBtn) return; const icon=copyBtn.querySelector('i'); if(!icon) return; const prev=copyBtn.getAttribute('data-prev')||icon.className; if(!copyBtn.getAttribute('data-prev')) copyBtn.setAttribute('data-prev',prev); icon.className= ok ? 'fa-duotone fa-clipboard-check':'fa-duotone fa-circle-exclamation'; setTimeout(()=>{ icon.className=prev; },1800); } function handleShareClick(e){ e.preventDefault(); const btn=e.currentTarget; const id=btn.getAttribute('data-share-target'); if(id) openModal(id); } function bindShareButtons(){ document.querySelectorAll('.h-share').forEach(btn=>{ if(!btn.dataset.hShareBound){ btn.addEventListener('click', handleShareClick); btn.dataset.hShareBound='1'; } }); } bindShareButtons(); if(document.readyState==='loading'){ document.addEventListener('DOMContentLoaded', bindShareButtons); } else { requestAnimationFrame(bindShareButtons); } document.addEventListener('click', function(e){ const shareBtn=e.target.closest && e.target.closest('.h-share'); if(shareBtn && !shareBtn.dataset.hShareBound){ handleShareClick.call(shareBtn, e); } }, true); document.addEventListener('click', e=>{ if(e.target===modal) closeModal(); if(e.target.closest && e.target.closest('.hsm-close')){ e.preventDefault(); closeModal(); } if(copyBtn && (e.target===copyBtn || (e.target.closest && e.target.closest('.hsm-copy')))) { e.preventDefault(); copyCurrent(); } }); document.addEventListener('keydown', e=>{ if(e.key==='Escape' && isOpen()) closeModal(); }); function trapFocus(){ if(trapBound) return; trapBound=true; modal.addEventListener('keydown', f=>{ if(f.key==='Tab' && isOpen()){ const focusable=[...modal.querySelectorAll('a[href],button,input,textarea,select,[tabindex]:not([tabindex="-1"])')].filter(el=>!el.hasAttribute('disabled')); if(!focusable.length) return; const first=focusable[0]; const last=focusable[focusable.length-1]; if(f.shiftKey && document.activeElement===first){ f.preventDefault(); last.focus(); } else if(!f.shiftKey && document.activeElement===last){ f.preventDefault(); first.focus(); } } }); } if(closeBtn) closeBtn.addEventListener('click', e=>{ e.preventDefault(); closeModal(); }); })(); </script>Vector embeddings transform complex data (text, images, user behaviors) into fixed-size numerical arrays that capture semantic relationships. In Geode, embeddings are stored as native property types and indexed using specialized vector indexes for efficient similarity search. <h4 id="key-characteristics" class="position-relative d-flex align-items-center group"> Key Characteristics <button type="button" class="h-share btn btn-link p-0 text-decoration-none link-secondary opacity-50 hover-opacity-100 transition-all ms-1" data-share-target="key-characteristics" aria-haspopup="dialog" aria-label="Share link: Key Characteristics"> Share link </button> </h4>Dimensionality: Embeddings typically range from 128 to 1536 dimensions, depending on the model used (e.g., OpenAI ada-002: 1536d, sentence-transformers: 384d). Similarity Metrics: Geode supports multiple distance functions for comparing vectors: <ul> <li>Cosine similarity (default for normalized vectors)</li> <li>Euclidean distance (L2)</li> <li>Inner product (dot product)</li> <li>Manhattan distance (L1)</li> </ul> Storage Efficiency: Vectors are stored in compressed binary format, reducing memory footprint by up to 75% compared to JSON arrays. <h3 id="storing-vector-embeddings-in-geode" class="position-relative d-flex align-items-center group"> Storing Vector Embeddings in Geode <button type="button" class="h-share btn btn-link p-0 text-decoration-none link-secondary opacity-50 hover-opacity-100 transition-all ms-1" data-share-target="storing-vector-embeddings-in-geode" aria-haspopup="dialog" aria-label="Share link: Storing Vector Embeddings in Geode"> Share link </button> </h3> <h4 id="node-properties" class="position-relative d-flex align-items-center group"> Node Properties <button type="button" class="h-share btn btn-link p-0 text-decoration-none link-secondary opacity-50 hover-opacity-100 transition-all ms-1" data-share-target="node-properties" aria-haspopup="dialog" aria-label="Share link: Node Properties"> Share link </button> </h4>Store embeddings as node properties for entity representations: <div class="highlight"><pre tabindex="0" class="chroma"><code class="language-gql" data-lang="gql">// Create product nodes with embeddings INSERT (p:Product { product_id: 'prod_123', name: 'Wireless Headphones', description: 'Premium noise-canceling headphones', embedding: [0.234, -0.567, 0.891, ...], // 384-dimensional vector embedding_model: 'sentence-transformers/all-MiniLM-L6-v2' }); // Create document nodes with text embeddings INSERT (d:Document { doc_id: 'doc_456', title: 'Graph Database Architecture', content: '...', text_embedding: [0.123, 0.456, ...], // 1536-dimensional vector embedding_model: 'text-embedding-ada-002' }); </code></pre></div> <h4 id="relationship-properties" class="position-relative d-flex align-items-center group"> Relationship Properties <button type="button" class="h-share btn btn-link p-0 text-decoration-none link-secondary opacity-50 hover-opacity-100 transition-all ms-1" data-share-target="relationship-properties" aria-haspopup="dialog" aria-label="Share link: Relationship Properties"> Share link </button> </h4>Embeddings can also represent relationship semantics: <div class="highlight"><pre tabindex="0" class="chroma"><code class="language-gql" data-lang="gql">// Create relationships with interaction embeddings MATCH (u:User {user_id: 'user_123'}) MATCH (p:Product {product_id: 'prod_456'}) INSERT (u)-[i:INTERACTED { timestamp: datetime('2025-01-24T10:30:00'), interaction_type: 'purchase', context_embedding: [0.345, -0.678, ...] }]->(p); </code></pre></div> <h3 id="vector-indexing-strategies" class="position-relative d-flex align-items-center group"> Vector Indexing Strategies <button type="button" class="h-share btn btn-link p-0 text-decoration-none link-secondary opacity-50 hover-opacity-100 transition-all ms-1" data-share-target="vector-indexing-strategies" aria-haspopup="dialog" aria-label="Share link: Vector Indexing Strategies"> Share link </button> </h3> <h4 id="hnsw-index-for-fast-similarity-search" class="position-relative d-flex align-items-center group"> HNSW Index for Fast Similarity Search <button type="button" class="h-share btn btn-link p-0 text-decoration-none link-secondary opacity-50 hover-opacity-100 transition-all ms-1" data-share-target="hnsw-index-for-fast-similarity-search" aria-haspopup="dialog" aria-label="Share link: HNSW Index for Fast Similarity Search"> Share link </button> </h4>Geode uses Hierarchical Navigable Small World (HNSW) graphs for approximate nearest neighbor (ANN) search: <div class="highlight"><pre tabindex="0" class="chroma"><code class="language-gql" data-lang="gql">// Create HNSW index on product embeddings CREATE VECTOR INDEX product_embedding_idx ON :Product(embedding) USING HNSW WITH ( dimensions = 384, metric = 'cosine', m = 16, // Number of bi-directional links per node ef_construction = 200 // Size of dynamic candidate list during construction ); // Create index for document text embeddings CREATE VECTOR INDEX document_text_idx ON :Document(text_embedding) USING HNSW WITH ( dimensions = 1536, metric = 'cosine', m = 32, ef_construction = 400 ); </code></pre></div> <h4 id="index-configuration" class="position-relative d-flex align-items-center group"> Index Configuration <button type="button" class="h-share btn btn-link p-0 text-decoration-none link-secondary opacity-50 hover-opacity-100 transition-all ms-1" data-share-target="index-configuration" aria-haspopup="dialog" aria-label="Share link: Index Configuration"> Share link </button> </h4>m (max connections): Controls index size and search quality. Higher values (16-48) improve recall but increase memory usage. ef_construction: Affects build time and index quality. Values of 100-800 balance construction speed with search accuracy. ef_search: Query-time parameter controlling search accuracy. Set dynamically based on precision requirements. <h3 id="similarity-search-queries" class="position-relative d-flex align-items-center group"> Similarity Search Queries <button type="button" class="h-share btn btn-link p-0 text-decoration-none link-secondary opacity-50 hover-opacity-100 transition-all ms-1" data-share-target="similarity-search-queries" aria-haspopup="dialog" aria-label="Share link: Similarity Search Queries"> Share link </button> </h3> <h4 id="k-nearest-neighbors-search" class="position-relative d-flex align-items-center group"> K-Nearest Neighbors Search <button type="button" class="h-share btn btn-link p-0 text-decoration-none link-secondary opacity-50 hover-opacity-100 transition-all ms-1" data-share-target="k-nearest-neighbors-search" aria-haspopup="dialog" aria-label="Share link: K-Nearest Neighbors Search"> Share link </button> </h4>Find the most similar items to a query vector: <div class="highlight"><pre tabindex="0" class="chroma"><code class="language-gql" data-lang="gql">// Find 10 most similar products MATCH (p:Product) WHERE p.embedding IS NOT NULL WITH p, vector.similarity(p.embedding, $query_embedding, 'cosine') AS score ORDER BY score DESC LIMIT 10 RETURN p.product_id, p.name, score; // Find similar documents with threshold MATCH (d:Document) WHERE d.text_embedding IS NOT NULL WITH d, vector.similarity(d.text_embedding, $query_vector, 'cosine') AS similarity WHERE similarity > 0.8 // Only return highly similar documents ORDER BY similarity DESC LIMIT 20 RETURN d.doc_id, d.title, similarity; </code></pre></div> <h4 id="hybrid-search-vector--graph" class="position-relative d-flex align-items-center group"> Hybrid Search (Vector + Graph) <button type="button" class="h-share btn btn-link p-0 text-decoration-none link-secondary opacity-50 hover-opacity-100 transition-all ms-1" data-share-target="hybrid-search-vector--graph" aria-haspopup="dialog" aria-label="Share link: Hybrid Search (Vector &#43; Graph)"> Share link </button> </h4>Combine vector similarity with graph traversal: <div class="highlight"><pre tabindex="0" class="chroma"><code class="language-gql" data-lang="gql">// Find similar products in the same category MATCH (p:Product)-[:IN_CATEGORY]->(c:Category {name: 'Electronics'}) WHERE p.embedding IS NOT NULL WITH p, vector.similarity(p.embedding, $query_embedding, 'cosine') AS score WHERE score > 0.7 ORDER BY score DESC LIMIT 10 RETURN p.product_id, p.name, score; // Find similar documents with related tags MATCH (d:Document)-[:HAS_TAG]->(t:Tag) WHERE d.text_embedding IS NOT NULL AND t.name IN ['machine-learning', 'databases', 'performance'] WITH d, vector.similarity(d.text_embedding, $query_vector, 'cosine') AS similarity ORDER BY similarity DESC LIMIT 15 RETURN d.doc_id, d.title, COLLECT(t.name) AS tags, similarity; </code></pre></div> <h3 id="machine-learning-integration" class="position-relative d-flex align-items-center group"> Machine Learning Integration <button type="button" class="h-share btn btn-link p-0 text-decoration-none link-secondary opacity-50 hover-opacity-100 transition-all ms-1" data-share-target="machine-learning-integration" aria-haspopup="dialog" aria-label="Share link: Machine Learning Integration"> Share link </button> </h3> <h4 id="generating-embeddings" class="position-relative d-flex align-items-center group"> Generating Embeddings <button type="button" class="h-share btn btn-link p-0 text-decoration-none link-secondary opacity-50 hover-opacity-100 transition-all ms-1" data-share-target="generating-embeddings" aria-haspopup="dialog" aria-label="Share link: Generating Embeddings"> Share link </button> </h4>Geode integrates with external embedding models: <div class="highlight"><pre tabindex="0" class="chroma"><code class="language-python" data-lang="python"># Python example: Generate and store embeddings from geode_client import Client from sentence_transformers import SentenceTransformer client = Client("geodedb://localhost:3141") model = SentenceTransformer('all-MiniLM-L6-v2') # Generate embedding for product description description = "Premium wireless headphones with noise canceling" embedding = model.encode(description).tolist() # Store in Geode query = """ INSERT (p:Product { product_id: $product_id, name: $name, description: $description, embedding: $embedding, embedding_model: 'all-MiniLM-L6-v2' }) """ client.execute(query, { 'product_id': 'prod_789', 'name': 'Wireless Headphones', 'description': description, 'embedding': embedding }) </code></pre></div> <h4 id="batch-embedding-updates" class="position-relative d-flex align-items-center group"> Batch Embedding Updates <button type="button" class="h-share btn btn-link p-0 text-decoration-none link-secondary opacity-50 hover-opacity-100 transition-all ms-1" data-share-target="batch-embedding-updates" aria-haspopup="dialog" aria-label="Share link: Batch Embedding Updates"> Share link </button> </h4>Efficiently update embeddings for multiple entities: <div class="highlight"><pre tabindex="0" class="chroma"><code class="language-gql" data-lang="gql">// Update embeddings for products without them MATCH (p:Product) WHERE p.embedding IS NULL AND p.description IS NOT NULL WITH p LIMIT 1000 SET p.needs_embedding = true RETURN p.product_id, p.description; // After generating embeddings externally, update in batch UNWIND $products AS product_data MATCH (p:Product {product_id: product_data.product_id}) SET p.embedding = product_data.embedding, p.embedding_updated_at = datetime(), p.needs_embedding = false; </code></pre></div> <h3 id="real-world-use-cases" class="position-relative d-flex align-items-center group"> Real-World Use Cases <button type="button" class="h-share btn btn-link p-0 text-decoration-none link-secondary opacity-50 hover-opacity-100 transition-all ms-1" data-share-target="real-world-use-cases" aria-haspopup="dialog" aria-label="Share link: Real-World Use Cases"> Share link </button> </h3> <h4 id="recommendation-systems" class="position-relative d-flex align-items-center group"> Recommendation Systems <button type="button" class="h-share btn btn-link p-0 text-decoration-none link-secondary opacity-50 hover-opacity-100 transition-all ms-1" data-share-target="recommendation-systems" aria-haspopup="dialog" aria-label="Share link: Recommendation Systems"> Share link </button> </h4>Build semantic product recommendations: <div class="highlight"><pre tabindex="0" class="chroma"><code class="language-gql" data-lang="gql">// Find products similar to user's purchase history MATCH (u:User {user_id: $user_id})-[:PURCHASED]->(bought:Product) WITH u, AVG(bought.embedding) AS avg_embedding // Aggregate user preferences MATCH (candidate:Product) WHERE NOT (u)-[:PURCHASED]->(candidate) AND candidate.embedding IS NOT NULL WITH candidate, vector.similarity(candidate.embedding, avg_embedding, 'cosine') AS score WHERE score > 0.75 ORDER BY score DESC LIMIT 20 RETURN candidate.product_id, candidate.name, score; </code></pre></div> <h4 id="semantic-document-search" class="position-relative d-flex align-items-center group"> Semantic Document Search <button type="button" class="h-share btn btn-link p-0 text-decoration-none link-secondary opacity-50 hover-opacity-100 transition-all ms-1" data-share-target="semantic-document-search" aria-haspopup="dialog" aria-label="Share link: Semantic Document Search"> Share link </button> </h4>Enable natural language document retrieval: <div class="highlight"><pre tabindex="0" class="chroma"><code class="language-gql" data-lang="gql">// Search documents by semantic meaning WITH $query_text AS query MATCH (d:Document) WHERE d.text_embedding IS NOT NULL WITH d, vector.similarity(d.text_embedding, $query_embedding, 'cosine') AS relevance WHERE relevance > 0.6 ORDER BY relevance DESC, d.view_count DESC LIMIT 25 RETURN d.doc_id, d.title, d.summary, relevance; </code></pre></div> <h4 id="duplicate-detection" class="position-relative d-flex align-items-center group"> Duplicate Detection <button type="button" class="h-share btn btn-link p-0 text-decoration-none link-secondary opacity-50 hover-opacity-100 transition-all ms-1" data-share-target="duplicate-detection" aria-haspopup="dialog" aria-label="Share link: Duplicate Detection"> Share link </button> </h4>Identify near-duplicate content using embeddings: <div class="highlight"><pre tabindex="0" class="chroma"><code class="language-gql" data-lang="gql">// Find potential duplicate products MATCH (p1:Product) WHERE p1.embedding IS NOT NULL MATCH (p2:Product) WHERE p2.embedding IS NOT NULL AND p1.product_id < p2.product_id // Avoid comparing same pair twice WITH p1, p2, vector.similarity(p1.embedding, p2.embedding, 'cosine') AS similarity WHERE similarity > 0.95 // Very high similarity threshold RETURN p1.product_id, p1.name, p2.product_id, p2.name, similarity ORDER BY similarity DESC; </code></pre></div> <h3 id="performance-optimization" class="position-relative d-flex align-items-center group"> Performance Optimization <button type="button" class="h-share btn btn-link p-0 text-decoration-none link-secondary opacity-50 hover-opacity-100 transition-all ms-1" data-share-target="performance-optimization" aria-haspopup="dialog" aria-label="Share link: Performance Optimization"> Share link </button> </h3> <h4 id="index-tuning" class="position-relative d-flex align-items-center group"> Index Tuning <button type="button" class="h-share btn btn-link p-0 text-decoration-none link-secondary opacity-50 hover-opacity-100 transition-all ms-1" data-share-target="index-tuning" aria-haspopup="dialog" aria-label="Share link: Index Tuning"> Share link </button> </h4>Optimize HNSW parameters for your workload: <div class="highlight"><pre tabindex="0" class="chroma"><code class="language-gql" data-lang="gql">// High-precision search (slower, more accurate) SET vector_index.ef_search = 400; // Fast search (faster, slightly lower recall) SET vector_index.ef_search = 100; // Check index statistics SHOW VECTOR INDEX product_embedding_idx STATISTICS; </code></pre></div> <h4 id="embedding-dimension-reduction" class="position-relative d-flex align-items-center group"> Embedding Dimension Reduction <button type="button" class="h-share btn btn-link p-0 text-decoration-none link-secondary opacity-50 hover-opacity-100 transition-all ms-1" data-share-target="embedding-dimension-reduction" aria-haspopup="dialog" aria-label="Share link: Embedding Dimension Reduction"> Share link </button> </h4>Reduce storage and improve search speed: <div class="highlight"><pre tabindex="0" class="chroma"><code class="language-python" data-lang="python"># Use PCA or other dimensionality reduction from sklearn.decomposition import PCA # Reduce 1536d embeddings to 384d pca = PCA(n_components=384) reduced_embeddings = pca.fit_transform(original_embeddings) # Store reduced embeddings for product_id, embedding in zip(product_ids, reduced_embeddings): client.execute(""" MATCH (p:Product {product_id: $product_id}) SET p.embedding_reduced = $embedding """, {'product_id': product_id, 'embedding': embedding.tolist()}) </code></pre></div> <h4 id="query-optimization" class="position-relative d-flex align-items-center group"> Query Optimization <button type="button" class="h-share btn btn-link p-0 text-decoration-none link-secondary opacity-50 hover-opacity-100 transition-all ms-1" data-share-target="query-optimization" aria-haspopup="dialog" aria-label="Share link: Query Optimization"> Share link </button> </h4>Use indexes and limit result sets: <div class="highlight"><pre tabindex="0" class="chroma"><code class="language-gql" data-lang="gql">// Pre-filter candidates before vector search MATCH (p:Product) WHERE p.price < 1000 // Filter by price first AND p.in_stock = true AND p.embedding IS NOT NULL WITH p, vector.similarity(p.embedding, $query_embedding, 'cosine') AS score WHERE score > 0.7 ORDER BY score DESC LIMIT 10 RETURN p; </code></pre></div> <h3 id="best-practices" class="position-relative d-flex align-items-center group"> Best Practices <button type="button" class="h-share btn btn-link p-0 text-decoration-none link-secondary opacity-50 hover-opacity-100 transition-all ms-1" data-share-target="best-practices" aria-haspopup="dialog" aria-label="Share link: Best Practices"> Share link </button> </h3><ol> <li>Normalize Embeddings: Store unit-normalized vectors for cosine similarity to improve performance</li> <li>Version Embedding Models: Track which model generated each embedding to handle model updates</li> <li>Incremental Updates: Update embeddings only when source data changes significantly</li> <li>Monitor Index Quality: Regularly check HNSW index recall and rebuild if degraded</li> <li>Batch Operations: Generate and insert embeddings in batches for better throughput</li> <li>Hybrid Approaches: Combine vector search with graph traversal for better relevance</li> <li>Cache Query Embeddings: Reuse query embeddings across multiple searches</li> <li>Set Similarity Thresholds: Use WHERE clauses to filter low-quality matches</li> </ol> <h3 id="integration-with-graph-features" class="position-relative d-flex align-items-center group"> Integration with Graph Features <button type="button" class="h-share btn btn-link p-0 text-decoration-none link-secondary opacity-50 hover-opacity-100 transition-all ms-1" data-share-target="integration-with-graph-features" aria-haspopup="dialog" aria-label="Share link: Integration with Graph Features"> Share link </button> </h3>Embeddings complement Geode’s graph capabilities: <ul> <li>Graph Context: Use embeddings to initialize node representations for graph neural networks</li> <li>Link Prediction: Combine structural and semantic features for relationship prediction</li> <li>Community Detection: Use embedding similarity to identify semantic clusters</li> <li>Path Ranking: Score graph paths by semantic relevance using node embeddings</li> </ul> Browse the tagged content below to discover documentation, tutorials, and guides for implementing vector embeddings in your Geode applications. <h3 id="advanced-embedding-techniques" class="position-relative d-flex align-items-center group"> Advanced Embedding Techniques <button type="button" class="h-share btn btn-link p-0 text-decoration-none link-secondary opacity-50 hover-opacity-100 transition-all ms-1" data-share-target="advanced-embedding-techniques" aria-haspopup="dialog" aria-label="Share link: Advanced Embedding Techniques"> Share link </button> </h3> <h4 id="contextual-embeddings" class="position-relative d-flex align-items-center group"> Contextual Embeddings <button type="button" class="h-share btn btn-link p-0 text-decoration-none link-secondary opacity-50 hover-opacity-100 transition-all ms-1" data-share-target="contextual-embeddings" aria-haspopup="dialog" aria-label="Share link: Contextual Embeddings"> Share link </button> </h4>Use transformer models for context-aware representations: <div class="highlight"><pre tabindex="0" class="chroma"><code class="language-gql" data-lang="gql">-- Store contextualized embeddings (BERT, GPT) MATCH (doc:Document {doc_id: $doc_id}) SET doc.bert_embedding = $bert_vector, // [CLS] token embedding doc.sentence_embeddings = $sentence_vectors; // Per-sentence embeddings -- Query with semantic similarity MATCH (d:Document) WHERE vector.similarity(d.bert_embedding, $query_embedding, 'cosine') > 0.75 RETURN d.title, d.content, vector.similarity(d.bert_embedding, $query_embedding) AS score ORDER BY score DESC; </code></pre></div> <h4 id="multi-modal-embeddings" class="position-relative d-flex align-items-center group"> Multi-Modal Embeddings <button type="button" class="h-share btn btn-link p-0 text-decoration-none link-secondary opacity-50 hover-opacity-100 transition-all ms-1" data-share-target="multi-modal-embeddings" aria-haspopup="dialog" aria-label="Share link: Multi-Modal Embeddings"> Share link </button> </h4>Combine text, image, and other modalities: <div class="highlight"><pre tabindex="0" class="chroma"><code class="language-gql" data-lang="gql">-- Store CLIP embeddings (text + image) MATCH (product:Product {product_id: $product_id}) SET product.text_embedding = $text_embedding, product.image_embedding = $image_embedding, product.combined_embedding = vector.concatenate($text_embedding, $image_embedding); -- Multi-modal search MATCH (p:Product) WITH p, vector.similarity(p.text_embedding, $text_query_emb, 'cosine') AS text_sim, vector.similarity(p.image_embedding, $image_query_emb, 'cosine') AS image_sim WITH p, 0.6 * text_sim + 0.4 * image_sim AS combined_score WHERE combined_score > 0.7 RETURN p.name, p.description, combined_score ORDER BY combined_score DESC; </code></pre></div> <h3 id="graph-embeddings" class="position-relative d-flex align-items-center group"> Graph Embeddings <button type="button" class="h-share btn btn-link p-0 text-decoration-none link-secondary opacity-50 hover-opacity-100 transition-all ms-1" data-share-target="graph-embeddings" aria-haspopup="dialog" aria-label="Share link: Graph Embeddings"> Share link </button> </h3> <h4 id="node2vec-and-deepwalk" class="position-relative d-flex align-items-center group"> Node2Vec and DeepWalk <button type="button" class="h-share btn btn-link p-0 text-decoration-none link-secondary opacity-50 hover-opacity-100 transition-all ms-1" data-share-target="node2vec-and-deepwalk" aria-haspopup="dialog" aria-label="Share link: Node2Vec and DeepWalk"> Share link </button> </h4>Learn structural embeddings: <div class="highlight"><pre tabindex="0" class="chroma"><code class="language-gql" data-lang="gql">-- Store Node2Vec embeddings (computed externally) MATCH (n:Node {node_id: $node_id}) SET n.node2vec_embedding = $embedding; -- Find structurally similar nodes MATCH (target:Node {node_id: $target_id}) MATCH (candidate:Node) WHERE candidate <> target AND vector.similarity(candidate.node2vec_embedding, target.node2vec_embedding, 'cosine') > 0.8 RETURN candidate.node_id, vector.similarity(candidate.node2vec_embedding, target.node2vec_embedding) AS structural_similarity ORDER BY structural_similarity DESC LIMIT 20; </code></pre></div> <h4 id="graph-neural-network-gnn-embeddings" class="position-relative d-flex align-items-center group"> Graph Neural Network (GNN) Embeddings <button type="button" class="h-share btn btn-link p-0 text-decoration-none link-secondary opacity-50 hover-opacity-100 transition-all ms-1" data-share-target="graph-neural-network-gnn-embeddings" aria-haspopup="dialog" aria-label="Share link: Graph Neural Network (GNN) Embeddings"> Share link </button> </h4><div class="highlight"><pre tabindex="0" class="chroma"><code class="language-gql" data-lang="gql">-- Store GNN node embeddings MATCH (entity:Entity {entity_id: $entity_id}) SET entity.gnn_embedding = $gnn_vector; -- Link prediction using learned embeddings MATCH (a:Entity {entity_id: $entity_a}) MATCH (b:Entity {entity_id: $entity_b}) WHERE NOT EXISTS((a)-[:RELATED]-(b)) WITH a, b, vector.similarity(a.gnn_embedding, b.gnn_embedding, 'cosine') AS link_probability WHERE link_probability > 0.85 RETURN b.entity_id, link_probability ORDER BY link_probability DESC; </code></pre></div> <h3 id="embedding-quality-and-evaluation" class="position-relative d-flex align-items-center group"> Embedding Quality and Evaluation <button type="button" class="h-share btn btn-link p-0 text-decoration-none link-secondary opacity-50 hover-opacity-100 transition-all ms-1" data-share-target="embedding-quality-and-evaluation" aria-haspopup="dialog" aria-label="Share link: Embedding Quality and Evaluation"> Share link </button> </h3> <h4 id="embedding-normalization" class="position-relative d-flex align-items-center group"> Embedding Normalization <button type="button" class="h-share btn btn-link p-0 text-decoration-none link-secondary opacity-50 hover-opacity-100 transition-all ms-1" data-share-target="embedding-normalization" aria-haspopup="dialog" aria-label="Share link: Embedding Normalization"> Share link </button> </h4><div class="highlight"><pre tabindex="0" class="chroma"><code class="language-python" data-lang="python"># Normalize embeddings to unit vectors import numpy as np from geode_client import Client async def normalize_embeddings(client): # Fetch embeddings result, _ = await client.query(""" MATCH (d:Document) WHERE d.embedding IS NOT NULL RETURN d.doc_id AS id, d.embedding AS embedding """) for row in result.rows: doc_id, embedding = row['id'], np.array(row['embedding']) normalized = embedding / np.linalg.norm(embedding) # Update with normalized version await client.execute(""" MATCH (d:Document {doc_id: $id}) SET d.embedding = $normalized_embedding """, {"id": doc_id, "normalized_embedding": normalized.tolist()}) </code></pre></div> <h4 id="dimensionality-reduction" class="position-relative d-flex align-items-center group"> Dimensionality Reduction <button type="button" class="h-share btn btn-link p-0 text-decoration-none link-secondary opacity-50 hover-opacity-100 transition-all ms-1" data-share-target="dimensionality-reduction" aria-haspopup="dialog" aria-label="Share link: Dimensionality Reduction"> Share link </button> </h4><div class="highlight"><pre tabindex="0" class="chroma"><code class="language-python" data-lang="python"># Reduce embedding dimensions with PCA from sklearn.decomposition import PCA # Load high-dim embeddings embeddings_1536d = load_embeddings() # OpenAI ada-002 # Reduce to 384 dimensions pca = PCA(n_components=384) embeddings_384d = pca.fit_transform(embeddings_1536d) # Explained variance: typically > 95% print(f"Explained variance: {pca.explained_variance_ratio_.sum():.2%}") # Store reduced embeddings for doc_id, embedding in zip(doc_ids, embeddings_384d): await client.execute(""" MATCH (d:Document {doc_id: $id}) SET d.embedding_reduced = $embedding """, {"id": doc_id, "embedding": embedding.tolist()}) </code></pre></div> <h3 id="production-patterns" class="position-relative d-flex align-items-center group"> Production Patterns <button type="button" class="h-share btn btn-link p-0 text-decoration-none link-secondary opacity-50 hover-opacity-100 transition-all ms-1" data-share-target="production-patterns" aria-haspopup="dialog" aria-label="Share link: Production Patterns"> Share link </button> </h3> <h4 id="embedding-generation-pipeline" class="position-relative d-flex align-items-center group"> Embedding Generation Pipeline <button type="button" class="h-share btn btn-link p-0 text-decoration-none link-secondary opacity-50 hover-opacity-100 transition-all ms-1" data-share-target="embedding-generation-pipeline" aria-haspopup="dialog" aria-label="Share link: Embedding Generation Pipeline"> Share link </button> </h4><div class="highlight"><pre tabindex="0" class="chroma"><code class="language-python" data-lang="python">async def embedding_pipeline(client, batch_size=100): # Find documents needing embeddings docs, _ = await client.query(""" MATCH (d:Document) WHERE d.embedding IS NULL AND d.content IS NOT NULL RETURN d.doc_id AS id, d.content AS text LIMIT $batch_size """, {"batch_size": batch_size}) # Batch embed texts = [row['text'] for row in docs.rows] embeddings = sentence_transformer.encode(texts, batch_size=32) # Store in Geode for doc, embedding in zip(docs.rows, embeddings): await client.execute(""" MATCH (d:Document {doc_id: $id}) SET d.embedding = $embedding, d.embedding_model = 'all-MiniLM-L6-v2', d.embedding_generated_at = datetime() """, {"id": doc['id'], "embedding": embedding.tolist()}) </code></pre></div> <h3 id="further-reading" class="position-relative d-flex align-items-center group"> Further Reading <button type="button" class="h-share btn btn-link p-0 text-decoration-none link-secondary opacity-50 hover-opacity-100 transition-all ms-1" data-share-target="further-reading" aria-haspopup="dialog" aria-label="Share link: Further Reading"> Share link </button> </h3><ul> <li>Embedding Models: BERT, RoBERTa, Sentence Transformers, OpenAI</li> <li>Graph Embeddings: Node2Vec, DeepWalk, GraphSAGE, GCN</li> <li>Multi-Modal Embeddings: CLIP, ALIGN, ImageBind</li> <li>Evaluation: Embedding Quality Metrics and Benchmarks</li> </ul> Browse tagged content for comprehensive embedding documentation.

Popular

Related Articles

Graph Algorithms and Analytics

Recommendation Systems