Data Sharding

<h2 id="data-sharding" class="position-relative d-flex align-items-center group"> Data Sharding <button type="button" class="h-share btn btn-link p-0 text-decoration-none link-secondary opacity-50 hover-opacity-100 transition-all ms-1" data-share-target="data-sharding" aria-haspopup="dialog" aria-label="Share link: Data Sharding"> Share link </button> </h2><div id="headingShareModal" class="heading-share-modal" role="dialog" aria-modal="true" aria-labelledby="headingShareTitle" hidden> <div class="hsm-dialog" role="document"> <div class="hsm-header"> <h2 id="headingShareTitle" class="h6 mb-0 fw-bold">Share this section</h2> <button type="button" class="hsm-close" aria-label="Close"> </button> </div> <div class="hsm-body"> <label for="headingShareInput" class="form-label small text-muted mb-1 text-uppercase fw-bold" style="font-size: 0.7rem; letter-spacing: 0.5px;">Permalink</label> <div class="input-group mb-4 hsm-url-group"> <input id="headingShareInput" type="text" class="form-control font-monospace" readonly aria-readonly="true" style="font-size: 0.85rem;" /> <button class="btn btn-primary hsm-copy" type="button" aria-label="Copy" title="Copy"> </button> </div> <div class="small fw-bold mb-2 text-muted text-uppercase" style="font-size: 0.7rem; letter-spacing: 0.5px;">Share via</div> <div class="hsm-share-grid"> <a id="share-twitter" class="btn btn-outline-secondary w-100" target="_blank" rel="noopener noreferrer"> Twitter </a> <a id="share-linkedin" class="btn btn-outline-secondary w-100" target="_blank" rel="noopener noreferrer"> LinkedIn </a> <a id="share-facebook" class="btn btn-outline-secondary w-100" target="_blank" rel="noopener noreferrer"> Facebook </a> </div> </div> </div> </div> <style> .heading-share-modal { position: fixed; inset: 0; display: flex; justify-content: center; align-items: center; background: rgba(0, 0, 0, 0.6); z-index: 1050; padding: 1rem; backdrop-filter: blur(4px); -webkit-backdrop-filter: blur(4px); } .heading-share-modal[hidden] { display: none !important; } .hsm-dialog { max-width: 420px; width: 100%; background: var(--bs-body-bg, #fff); color: var(--bs-body-color, #212529); border: 1px solid var(--bs-border-color, rgba(0,0,0,0.1)); border-radius: 1rem; box-shadow: 0 25px 50px -12px rgba(0, 0, 0, 0.25); overflow: hidden; animation: hsm-fade-in 0.2s ease-out; } @keyframes hsm-fade-in { from { opacity: 0; transform: scale(0.95); } to { opacity: 1; transform: scale(1); } } [data-bs-theme="dark"] .hsm-dialog { background: #1e293b; border-color: rgba(255,255,255,0.1); color: #f8f9fa; } .hsm-header { display: flex; justify-content: space-between; align-items: center; padding: 1rem 1.5rem; border-bottom: 1px solid var(--bs-border-color, rgba(0,0,0,0.1)); background: rgba(0,0,0,0.02); } [data-bs-theme="dark"] .hsm-header { background: rgba(255,255,255,0.02); border-color: rgba(255,255,255,0.1); } .hsm-close { background: transparent; border: none; color: inherit; opacity: 0.5; padding: 0.25rem 0.5rem; border-radius: 0.25rem; font-size: 1.2rem; line-height: 1; transition: opacity 0.2s; } .hsm-close:hover { opacity: 1; } .hsm-body { padding: 1.5rem; } .hsm-url-group { display: flex !important; align-items: stretch; } .hsm-url-group .form-control { flex: 1; min-width: 0; margin: 0; background: var(--bs-secondary-bg, #f8f9fa); border-color: var(--bs-border-color, #dee2e6); border-top-right-radius: 0; border-bottom-right-radius: 0; height: 42px; } .hsm-url-group .btn { flex: 0 0 auto; margin: 0; margin-left: -1px; border-top-left-radius: 0; border-bottom-left-radius: 0; height: 42px; display: flex; align-items: center; justify-content: center; padding: 0 1.25rem; z-index: 2; } [data-bs-theme="dark"] .hsm-url-group .form-control { background: #0f172a; border-color: #334155; color: #e2e8f0; } .hsm-share-grid { display: flex; flex-direction: column; gap: 0.5rem; } .hsm-share-grid .btn { display: flex; align-items: center; justify-content: center; font-size: 0.9rem; padding: 0.6rem; border-color: var(--bs-border-color); width: 100%; } [data-bs-theme="dark"] .hsm-share-grid .btn { color: #e2e8f0; border-color: #475569; } [data-bs-theme="dark"] .hsm-share-grid .btn:hover { background: #334155; border-color: #cbd5e1; } </style> <script> (function(){ const modal = document.getElementById('headingShareModal'); if(!modal) return; const input = modal.querySelector('#headingShareInput'); const copyBtn = modal.querySelector('.hsm-copy'); const twitter = modal.querySelector('#share-twitter'); const linkedin = modal.querySelector('#share-linkedin'); const facebook = modal.querySelector('#share-facebook'); const closeBtn = modal.querySelector('.hsm-close'); let lastFocus=null; let trapBound=false; function buildUrl(id){ return window.location.origin + window.location.pathname + '#' + id; } function isOpen(){ return !modal.hasAttribute('hidden'); } function hydrate(id){ const url=buildUrl(id); input.value=url; const enc=encodeURIComponent(url); const text=encodeURIComponent(document.title); if(twitter) twitter.href=`https://twitter.com/intent/tweet?url=${enc}&text=${text}`; if(linkedin) linkedin.href=`https://www.linkedin.com/sharing/share-offsite/?url=${enc}`; if(facebook) facebook.href=`https://www.facebook.com/sharer/sharer.php?u=${enc}`; } function openModal(id){ lastFocus=document.activeElement; hydrate(id); if(!isOpen()){ modal.removeAttribute('hidden'); } requestAnimationFrame(()=>{ input.focus(); }); trapFocus(); } function closeModal(){ if(!isOpen()) return; modal.setAttribute('hidden',''); if(lastFocus && typeof lastFocus.focus==='function') lastFocus.focus(); } function copyCurrent(){ try{ navigator.clipboard.writeText(input.value).then(()=>feedback(true),()=>fallback()); } catch(e){ fallback(); } } function fallback(){ input.select(); try{ document.execCommand('copy'); feedback(true);}catch(e){ feedback(false);} } function feedback(ok){ if(!copyBtn) return; const icon=copyBtn.querySelector('i'); if(!icon) return; const prev=copyBtn.getAttribute('data-prev')||icon.className; if(!copyBtn.getAttribute('data-prev')) copyBtn.setAttribute('data-prev',prev); icon.className= ok ? 'fa-duotone fa-clipboard-check':'fa-duotone fa-circle-exclamation'; setTimeout(()=>{ icon.className=prev; },1800); } function handleShareClick(e){ e.preventDefault(); const btn=e.currentTarget; const id=btn.getAttribute('data-share-target'); if(id) openModal(id); } function bindShareButtons(){ document.querySelectorAll('.h-share').forEach(btn=>{ if(!btn.dataset.hShareBound){ btn.addEventListener('click', handleShareClick); btn.dataset.hShareBound='1'; } }); } bindShareButtons(); if(document.readyState==='loading'){ document.addEventListener('DOMContentLoaded', bindShareButtons); } else { requestAnimationFrame(bindShareButtons); } document.addEventListener('click', function(e){ const shareBtn=e.target.closest && e.target.closest('.h-share'); if(shareBtn && !shareBtn.dataset.hShareBound){ handleShareClick.call(shareBtn, e); } }, true); document.addEventListener('click', e=>{ if(e.target===modal) closeModal(); if(e.target.closest && e.target.closest('.hsm-close')){ e.preventDefault(); closeModal(); } if(copyBtn && (e.target===copyBtn || (e.target.closest && e.target.closest('.hsm-copy')))) { e.preventDefault(); copyCurrent(); } }); document.addEventListener('keydown', e=>{ if(e.key==='Escape' && isOpen()) closeModal(); }); function trapFocus(){ if(trapBound) return; trapBound=true; modal.addEventListener('keydown', f=>{ if(f.key==='Tab' && isOpen()){ const focusable=[...modal.querySelectorAll('a[href],button,input,textarea,select,[tabindex]:not([tabindex="-1"])')].filter(el=>!el.hasAttribute('disabled')); if(!focusable.length) return; const first=focusable[0]; const last=focusable[focusable.length-1]; if(f.shiftKey && document.activeElement===first){ f.preventDefault(); last.focus(); } else if(!f.shiftKey && document.activeElement===last){ f.preventDefault(); first.focus(); } } }); } if(closeBtn) closeBtn.addEventListener('click', e=>{ e.preventDefault(); closeModal(); }); })(); </script>Data sharding is a horizontal partitioning technique that distributes data across multiple independent database instances (shards) to achieve massive scale. While partitioning divides data within a cluster, sharding creates completely separate database instances that can operate independently. Geode provides sophisticated sharding capabilities that enable organizations to scale graph databases to billions of nodes and petabytes of data while maintaining query performance and operational simplicity. <h3 id="understanding-data-sharding" class="position-relative d-flex align-items-center group"> Understanding Data Sharding <button type="button" class="h-share btn btn-link p-0 text-decoration-none link-secondary opacity-50 hover-opacity-100 transition-all ms-1" data-share-target="understanding-data-sharding" aria-haspopup="dialog" aria-label="Share link: Understanding Data Sharding"> Share link </button> </h3>Sharding involves splitting a large dataset into smaller, more manageable pieces called shards. Each shard is a fully functional database instance that stores a subset of the total data. Unlike replication, where each node contains all data, sharding distributes unique data subsets across shards. Key Characteristics: <ul> <li>Each shard contains unique data (no overlap by default)</li> <li>Shards can operate independently for single-shard operations</li> <li>Cross-shard operations require coordination</li> <li>Horizontal scaling achieved by adding more shards</li> </ul> For graph databases, sharding must carefully consider graph structure to minimize cross-shard relationships that impact query performance. <h3 id="sharding-vs-partitioning" class="position-relative d-flex align-items-center group"> Sharding vs. Partitioning <button type="button" class="h-share btn btn-link p-0 text-decoration-none link-secondary opacity-50 hover-opacity-100 transition-all ms-1" data-share-target="sharding-vs-partitioning" aria-haspopup="dialog" aria-label="Share link: Sharding vs. Partitioning"> Share link </button> </h3>While often used interchangeably, sharding and partitioning have subtle differences: Partitioning: <ul> <li>Logical division within a cluster</li> <li>Partitions share cluster-wide metadata</li> <li>Typically managed automatically</li> <li>Transparent to applications</li> </ul> Sharding: <ul> <li>Physical division into separate instances</li> <li>Each shard is independent database</li> <li>Requires explicit shard routing</li> <li>May require application awareness</li> </ul> Geode supports both approaches and can combine them for optimal scalability. <h3 id="shard-key-selection" class="position-relative d-flex align-items-center group"> Shard Key Selection <button type="button" class="h-share btn btn-link p-0 text-decoration-none link-secondary opacity-50 hover-opacity-100 transition-all ms-1" data-share-target="shard-key-selection" aria-haspopup="dialog" aria-label="Share link: Shard Key Selection"> Share link </button> </h3>The shard key determines how data is distributed across shards. Choosing the right shard key is critical for performance and scalability. <h4 id="shard-key-criteria" class="position-relative d-flex align-items-center group"> Shard Key Criteria <button type="button" class="h-share btn btn-link p-0 text-decoration-none link-secondary opacity-50 hover-opacity-100 transition-all ms-1" data-share-target="shard-key-criteria" aria-haspopup="dialog" aria-label="Share link: Shard Key Criteria"> Share link </button> </h4>Cardinality: High cardinality ensures even distribution. <div class="highlight"><pre tabindex="0" class="chroma"><code class="language-yaml" data-lang="yaml">sharding: shard_key: # Good: High cardinality property: "user_id" # UUID or unique ID # Poor: Low cardinality # property: "country" # Limited values </code></pre></div>Query Patterns: Align with common access patterns. <div class="highlight"><pre tabindex="0" class="chroma"><code class="language-yaml" data-lang="yaml">sharding: shard_key: # For user-centric queries property: "user_id" # For time-series data # property: "timestamp" # strategy: "range" </code></pre></div>Data Distribution: Ensure balanced shard sizes. <div class="highlight"><pre tabindex="0" class="chroma"><code class="language-yaml" data-lang="yaml">sharding: shard_key: property: "user_id" # Monitor distribution monitoring: track_distribution: true alert_imbalance_threshold: 0.3 # 30% </code></pre></div> <h4 id="common-shard-key-strategies" class="position-relative d-flex align-items-center group"> Common Shard Key Strategies <button type="button" class="h-share btn btn-link p-0 text-decoration-none link-secondary opacity-50 hover-opacity-100 transition-all ms-1" data-share-target="common-shard-key-strategies" aria-haspopup="dialog" aria-label="Share link: Common Shard Key Strategies"> Share link </button> </h4> <h5 id="hash-based-sharding" class="position-relative d-flex align-items-center group"> Hash-Based Sharding <button type="button" class="h-share btn btn-link p-0 text-decoration-none link-secondary opacity-50 hover-opacity-100 transition-all ms-1" data-share-target="hash-based-sharding" aria-haspopup="dialog" aria-label="Share link: Hash-Based Sharding"> Share link </button> </h5>Use hash function for uniform distribution: <div class="highlight"><pre tabindex="0" class="chroma"><code class="language-yaml" data-lang="yaml">sharding: strategy: "hash" hash: # Hash algorithm algorithm: "murmur3" # Shard key shard_key: node_property: "id" # Number of shards shard_count: 16 # Consistent hashing for elasticity consistent_hashing: enabled: true virtual_shards: 256 </code></pre></div>Hash Function: <div class="highlight"><pre tabindex="0" class="chroma"><code class="language-fallback" data-lang="fallback">shard_id = hash(shard_key) % shard_count </code></pre></div>Advantages: <ul> <li>Uniform distribution</li> <li>Simple and predictable</li> <li>No hotspots</li> </ul> Disadvantages: <ul> <li>Range queries require all shards</li> <li>Resharding requires data movement</li> <li>Cannot leverage data locality</li> </ul> <h5 id="range-based-sharding" class="position-relative d-flex align-items-center group"> Range-Based Sharding <button type="button" class="h-share btn btn-link p-0 text-decoration-none link-secondary opacity-50 hover-opacity-100 transition-all ms-1" data-share-target="range-based-sharding" aria-haspopup="dialog" aria-label="Share link: Range-Based Sharding"> Share link </button> </h5>Partition by value ranges: <div class="highlight"><pre tabindex="0" class="chroma"><code class="language-yaml" data-lang="yaml">sharding: strategy: "range" range: shard_key: node_property: "created_at" # Define shard boundaries shards: - id: "shard_2024_q1" min: "2024-01-01" max: "2024-03-31" - id: "shard_2024_q2" min: "2024-04-01" max: "2024-06-30" - id: "shard_2024_q3" min: "2024-07-01" max: "2024-09-30" - id: "shard_2024_q4" min: "2024-10-01" max: "2024-12-31" </code></pre></div>Advantages: <ul> <li>Efficient range queries</li> <li>Natural for time-series data</li> <li>Predictable data placement</li> </ul> Disadvantages: <ul> <li>Risk of hotspots</li> <li>Requires range boundary management</li> <li>May need rebalancing</li> </ul> <h5 id="geography-based-sharding" class="position-relative d-flex align-items-center group"> Geography-Based Sharding <button type="button" class="h-share btn btn-link p-0 text-decoration-none link-secondary opacity-50 hover-opacity-100 transition-all ms-1" data-share-target="geography-based-sharding" aria-haspopup="dialog" aria-label="Share link: Geography-Based Sharding"> Share link </button> </h5>Distribute by geographic location: <div class="highlight"><pre tabindex="0" class="chroma"><code class="language-yaml" data-lang="yaml">sharding: strategy: "geographic" geographic: shard_key: node_property: "region" # Define geographic shards shards: - id: "shard_us_east" regions: ["us-east-1", "us-east-2"] - id: "shard_us_west" regions: ["us-west-1", "us-west-2"] - id: "shard_eu" regions: ["eu-west-1", "eu-central-1"] - id: "shard_apac" regions: ["ap-southeast-1", "ap-northeast-1"] # Locality optimization locality: prefer_local_shard: true cross_region_latency_penalty: 100 # ms </code></pre></div>Advantages: <ul> <li>Data locality for users</li> <li>Compliance with data residency</li> <li>Reduced latency</li> </ul> Disadvantages: <ul> <li>Uneven distribution by population</li> <li>Complex cross-region queries</li> <li>Regulatory complexity</li> </ul> <h5 id="entity-based-sharding" class="position-relative d-flex align-items-center group"> Entity-Based Sharding <button type="button" class="h-share btn btn-link p-0 text-decoration-none link-secondary opacity-50 hover-opacity-100 transition-all ms-1" data-share-target="entity-based-sharding" aria-haspopup="dialog" aria-label="Share link: Entity-Based Sharding"> Share link </button> </h5>Shard by entity type or tenant: <div class="highlight"><pre tabindex="0" class="chroma"><code class="language-yaml" data-lang="yaml">sharding: strategy: "entity" entity: # Shard by tenant for multi-tenancy shard_key: node_property: "tenant_id" # Dynamic shard assignment assignment: strategy: "tenant_size_aware" # Large tenants get dedicated shards dedicated_shard_threshold: 1000000 # nodes # Small tenants share shards shared_shard_capacity: 10000000 # nodes </code></pre></div>Advantages: <ul> <li>Natural isolation boundaries</li> <li>Easy compliance and backup</li> <li>Predictable per-entity performance</li> </ul> Disadvantages: <ul> <li>Potential imbalance</li> <li>Difficult cross-entity queries</li> <li>Shard proliferation</li> </ul> <h3 id="shard-configuration" class="position-relative d-flex align-items-center group"> Shard Configuration <button type="button" class="h-share btn btn-link p-0 text-decoration-none link-secondary opacity-50 hover-opacity-100 transition-all ms-1" data-share-target="shard-configuration" aria-haspopup="dialog" aria-label="Share link: Shard Configuration"> Share link </button> </h3> <h4 id="basic-sharding-setup" class="position-relative d-flex align-items-center group"> Basic Sharding Setup <button type="button" class="h-share btn btn-link p-0 text-decoration-none link-secondary opacity-50 hover-opacity-100 transition-all ms-1" data-share-target="basic-sharding-setup" aria-haspopup="dialog" aria-label="Share link: Basic Sharding Setup"> Share link </button> </h4>Configure sharding for a Geode deployment: <div class="highlight"><pre tabindex="0" class="chroma"><code class="language-yaml" data-lang="yaml"># geode-shard-config.yaml sharding: enabled: true # Sharding strategy strategy: "hash" shard_count: 16 # Shard key configuration shard_key: node_property: "user_id" hash_algorithm: "murmur3" # Shard metadata metadata_store: type: "distributed" replication_factor: 3 # Shard instances shards: - id: "shard_0" address: "shard0.example.com:3141" weight: 100 - id: "shard_1" address: "shard1.example.com:3141" weight: 100 # ... (shards 2-14) - id: "shard_15" address: "shard15.example.com:3141" weight: 100 </code></pre></div> <h4 id="shard-router-configuration" class="position-relative d-flex align-items-center group"> Shard Router Configuration <button type="button" class="h-share btn btn-link p-0 text-decoration-none link-secondary opacity-50 hover-opacity-100 transition-all ms-1" data-share-target="shard-router-configuration" aria-haspopup="dialog" aria-label="Share link: Shard Router Configuration"> Share link </button> </h4>Configure routing layer for query distribution: <div class="highlight"><pre tabindex="0" class="chroma"><code class="language-yaml" data-lang="yaml"># geode-router-config.yaml router: enabled: true # Router nodes instances: - address: "router1.example.com:3141" - address: "router2.example.com:3141" - address: "router3.example.com:3141" # Routing strategy routing: # Cache shard metadata metadata_cache: enabled: true ttl_seconds: 300 size_mb: 256 # Connection pooling to shards connection_pool: size_per_shard: 50 max_size: 1000 # Query routing query_routing: # Single-shard optimization detect_single_shard: true # Cross-shard parallelism cross_shard_parallelism: 8 # Timeout settings shard_timeout_ms: 30000 total_timeout_ms: 60000 </code></pre></div> <h3 id="shard-operations" class="position-relative d-flex align-items-center group"> Shard Operations <button type="button" class="h-share btn btn-link p-0 text-decoration-none link-secondary opacity-50 hover-opacity-100 transition-all ms-1" data-share-target="shard-operations" aria-haspopup="dialog" aria-label="Share link: Shard Operations"> Share link </button> </h3> <h4 id="creating-shards" class="position-relative d-flex align-items-center group"> Creating Shards <button type="button" class="h-share btn btn-link p-0 text-decoration-none link-secondary opacity-50 hover-opacity-100 transition-all ms-1" data-share-target="creating-shards" aria-haspopup="dialog" aria-label="Share link: Creating Shards"> Share link </button> </h4>Initialize new shards: <div class="highlight"><pre tabindex="0" class="chroma"><code class="language-bash" data-lang="bash"># Create new shard geode shard create \ --shard-id=shard_16 \ --address=shard16.example.com:3141 \ --shard-key-property=user_id \ --hash-range=0x0000-0x0FFF # Initialize shard database geode shard init \ --shard-id=shard_16 \ --storage-path=/var/lib/geode/shard_16 # Register shard with router geode shard register \ --shard-id=shard_16 \ --router=router1.example.com:3141 </code></pre></div> <h4 id="shard-management" class="position-relative d-flex align-items-center group"> Shard Management <button type="button" class="h-share btn btn-link p-0 text-decoration-none link-secondary opacity-50 hover-opacity-100 transition-all ms-1" data-share-target="shard-management" aria-haspopup="dialog" aria-label="Share link: Shard Management"> Share link </button> </h4>Monitor and manage shards: <div class="highlight"><pre tabindex="0" class="chroma"><code class="language-bash" data-lang="bash"># List all shards geode shard list # View shard status geode shard status --shard-id=shard_0 # Check shard distribution geode shard distribution --show-imbalance # View shard metadata geode shard metadata --shard-id=shard_0 # Health check all shards geode shard health-check --all </code></pre></div> <h4 id="shard-rebalancing" class="position-relative d-flex align-items-center group"> Shard Rebalancing <button type="button" class="h-share btn btn-link p-0 text-decoration-none link-secondary opacity-50 hover-opacity-100 transition-all ms-1" data-share-target="shard-rebalancing" aria-haspopup="dialog" aria-label="Share link: Shard Rebalancing"> Share link </button> </h4>Rebalance data across shards: <div class="highlight"><pre tabindex="0" class="chroma"><code class="language-bash" data-lang="bash"># Analyze shard balance geode shard analyze-balance \ --output=balance-report.json # Create rebalancing plan geode shard rebalance-plan \ --target-imbalance=0.1 \ --output=rebalance-plan.json # Execute rebalancing geode shard rebalance \ --plan=rebalance-plan.json \ --max-data-movement=500GB \ --bandwidth-limit=1Gbps \ --verify=true # Monitor rebalancing progress geode shard rebalance-status </code></pre></div> <h4 id="adding-shards-resharding" class="position-relative d-flex align-items-center group"> Adding Shards (Resharding) <button type="button" class="h-share btn btn-link p-0 text-decoration-none link-secondary opacity-50 hover-opacity-100 transition-all ms-1" data-share-target="adding-shards-resharding" aria-haspopup="dialog" aria-label="Share link: Adding Shards (Resharding)"> Share link </button> </h4>Scale out by adding new shards: <div class="highlight"><pre tabindex="0" class="chroma"><code class="language-bash" data-lang="bash"># Plan resharding from 16 to 32 shards geode shard reshard-plan \ --current-shards=16 \ --target-shards=32 \ --strategy=split \ --output=reshard-plan.json # Preview data movement geode shard reshard-preview \ --plan=reshard-plan.json # Execute resharding geode shard reshard \ --plan=reshard-plan.json \ --online=true \ --verification=true # The process: # 1. Create new shards # 2. Split existing shard ranges # 3. Migrate data to new shards # 4. Update routing metadata # 5. Verify data consistency # 6. Switch traffic to new configuration </code></pre></div> <h3 id="query-routing" class="position-relative d-flex align-items-center group"> Query Routing <button type="button" class="h-share btn btn-link p-0 text-decoration-none link-secondary opacity-50 hover-opacity-100 transition-all ms-1" data-share-target="query-routing" aria-haspopup="dialog" aria-label="Share link: Query Routing"> Share link </button> </h3> <h4 id="single-shard-queries" class="position-relative d-flex align-items-center group"> Single-Shard Queries <button type="button" class="h-share btn btn-link p-0 text-decoration-none link-secondary opacity-50 hover-opacity-100 transition-all ms-1" data-share-target="single-shard-queries" aria-haspopup="dialog" aria-label="Share link: Single-Shard Queries"> Share link </button> </h4>Queries that access single shard are most efficient: <div class="highlight"><pre tabindex="0" class="chroma"><code class="language-gql" data-lang="gql">-- Query with shard key (routes to single shard) MATCH (u:User {id: $user_id})-[:POSTED]->(p:Post) WHERE u.id = $user_id RETURN p.content, p.created ORDER BY p.created DESC LIMIT 20; -- Shard routing: shard_id = hash(user_id) % shard_count -- Executes on single shard only </code></pre></div> <h4 id="cross-shard-queries" class="position-relative d-flex align-items-center group"> Cross-Shard Queries <button type="button" class="h-share btn btn-link p-0 text-decoration-none link-secondary opacity-50 hover-opacity-100 transition-all ms-1" data-share-target="cross-shard-queries" aria-haspopup="dialog" aria-label="Share link: Cross-Shard Queries"> Share link </button> </h4>Queries spanning multiple shards require coordination: <div class="highlight"><pre tabindex="0" class="chroma"><code class="language-gql" data-lang="gql">-- Cross-shard query (fan-out to all shards) MATCH (u:User)-[:POSTED]->(p:Post) WHERE p.created > '2024-01-01' RETURN u.name, p.content, p.created ORDER BY p.created DESC LIMIT 100; -- Execution: -- 1. Router broadcasts query to all shards -- 2. Each shard executes local query -- 3. Router merges and sorts results -- 4. Returns top 100 results </code></pre></div> <h4 id="shard-aware-query-optimization" class="position-relative d-flex align-items-center group"> Shard-Aware Query Optimization <button type="button" class="h-share btn btn-link p-0 text-decoration-none link-secondary opacity-50 hover-opacity-100 transition-all ms-1" data-share-target="shard-aware-query-optimization" aria-haspopup="dialog" aria-label="Share link: Shard-Aware Query Optimization"> Share link </button> </h4>Optimize queries for sharded environment: <div class="highlight"><pre tabindex="0" class="chroma"><code class="language-gql" data-lang="gql">-- Poor: No shard key (requires all shards) MATCH (u:User) WHERE u.email = $email RETURN u; -- Better: Include shard key hint MATCH (u:User) WHERE u.id = $user_id AND u.email = $email RETURN u; -- Best: Query by shard key MATCH (u:User {id: $user_id}) RETURN u; -- Multi-shard with batching UNWIND $user_ids AS user_id MATCH (u:User {id: user_id}) RETURN u; -- Router batches by shard for efficiency </code></pre></div> <h3 id="cross-shard-operations" class="position-relative d-flex align-items-center group"> Cross-Shard Operations <button type="button" class="h-share btn btn-link p-0 text-decoration-none link-secondary opacity-50 hover-opacity-100 transition-all ms-1" data-share-target="cross-shard-operations" aria-haspopup="dialog" aria-label="Share link: Cross-Shard Operations"> Share link </button> </h3> <h4 id="distributed-transactions" class="position-relative d-flex align-items-center group"> Distributed Transactions <button type="button" class="h-share btn btn-link p-0 text-decoration-none link-secondary opacity-50 hover-opacity-100 transition-all ms-1" data-share-target="distributed-transactions" aria-haspopup="dialog" aria-label="Share link: Distributed Transactions"> Share link </button> </h4>Handle transactions spanning multiple shards: <div class="highlight"><pre tabindex="0" class="chroma"><code class="language-yaml" data-lang="yaml">sharding: distributed_transactions: # Two-phase commit protocol: "2pc" # Coordinator configuration coordinator: timeout_ms: 30000 retry_attempts: 3 # Participant configuration participant: prepare_timeout_ms: 10000 commit_timeout_ms: 5000 </code></pre></div><div class="highlight"><pre tabindex="0" class="chroma"><code class="language-gql" data-lang="gql">-- Multi-shard transaction BEGIN TRANSACTION; -- Update on shard 1 MATCH (u1:User {id: $user1_id}) SET u1.balance = u1.balance - $amount; -- Update on shard 2 MATCH (u2:User {id: $user2_id}) SET u2.balance = u2.balance + $amount; -- Coordinator ensures both commit or both rollback COMMIT; </code></pre></div> <h4 id="cross-shard-relationships" class="position-relative d-flex align-items-center group"> Cross-Shard Relationships <button type="button" class="h-share btn btn-link p-0 text-decoration-none link-secondary opacity-50 hover-opacity-100 transition-all ms-1" data-share-target="cross-shard-relationships" aria-haspopup="dialog" aria-label="Share link: Cross-Shard Relationships"> Share link </button> </h4>Handle relationships spanning shards: <div class="highlight"><pre tabindex="0" class="chroma"><code class="language-yaml" data-lang="yaml">sharding: cross_shard_relationships: # Strategy for cross-shard edges strategy: "reference" # Reference mode: Store edge reference reference: # Store relationship metadata metadata_store: "source_shard" # Lazy loading for cross-shard navigation lazy_loading: true # Cache cross-shard relationships cache: enabled: true size_mb: 1024 ttl_seconds: 600 </code></pre></div><div class="highlight"><pre tabindex="0" class="chroma"><code class="language-gql" data-lang="gql">-- Cross-shard relationship traversal MATCH (u1:User {id: $user_id})-[:FOLLOWS]->(u2:User) RETURN u2.name; -- Execution: -- 1. Find u1 on local shard -- 2. Identify cross-shard relationships -- 3. Fetch u2 from remote shard -- 4. Return results </code></pre></div> <h3 id="monitoring-and-observability" class="position-relative d-flex align-items-center group"> Monitoring and Observability <button type="button" class="h-share btn btn-link p-0 text-decoration-none link-secondary opacity-50 hover-opacity-100 transition-all ms-1" data-share-target="monitoring-and-observability" aria-haspopup="dialog" aria-label="Share link: Monitoring and Observability"> Share link </button> </h3> <h4 id="shard-metrics" class="position-relative d-flex align-items-center group"> Shard Metrics <button type="button" class="h-share btn btn-link p-0 text-decoration-none link-secondary opacity-50 hover-opacity-100 transition-all ms-1" data-share-target="shard-metrics" aria-haspopup="dialog" aria-label="Share link: Shard Metrics"> Share link </button> </h4>Track shard health and performance: <div class="highlight"><pre tabindex="0" class="chroma"><code class="language-yaml" data-lang="yaml">monitoring: shard_metrics: enabled: true metrics: # Per-shard metrics - name: "shard_size_bytes" type: "gauge" labels: ["shard_id"] - name: "shard_node_count" type: "gauge" labels: ["shard_id"] - name: "shard_query_rate" type: "gauge" labels: ["shard_id"] - name: "shard_latency_p95_ms" type: "gauge" labels: ["shard_id"] # Cross-shard metrics - name: "cross_shard_queries_total" type: "counter" - name: "cross_shard_latency_ms" type: "histogram" # Shard balance metrics - name: "shard_imbalance_ratio" type: "gauge" </code></pre></div>Key metrics to monitor: <ul> <li><code>geode_shard_size_variance</code>: Data distribution balance</li> <li><code>geode_shard_query_imbalance</code>: Query distribution skew</li> <li><code>geode_cross_shard_query_ratio</code>: Percentage of cross-shard queries</li> <li><code>geode_shard_rebalance_progress</code>: Resharding progress</li> <li><code>geode_shard_availability</code>: Per-shard uptime</li> </ul> <h4 id="diagnostic-commands" class="position-relative d-flex align-items-center group"> Diagnostic Commands <button type="button" class="h-share btn btn-link p-0 text-decoration-none link-secondary opacity-50 hover-opacity-100 transition-all ms-1" data-share-target="diagnostic-commands" aria-haspopup="dialog" aria-label="Share link: Diagnostic Commands"> Share link </button> </h4><div class="highlight"><pre tabindex="0" class="chroma"><code class="language-bash" data-lang="bash"># Analyze shard statistics geode shard stats \ --shard-id=all \ --metrics=size,queries,latency # Identify hot shards geode shard hot-shards \ --threshold-qps=10000 # View cross-shard query patterns geode shard cross-shard-analysis \ --window=1h # Check shard connectivity geode shard connectivity-test \ --all-pairs # Export shard configuration geode shard export-config \ --output=shard-config.yaml </code></pre></div> <h3 id="best-practices" class="position-relative d-flex align-items-center group"> Best Practices <button type="button" class="h-share btn btn-link p-0 text-decoration-none link-secondary opacity-50 hover-opacity-100 transition-all ms-1" data-share-target="best-practices" aria-haspopup="dialog" aria-label="Share link: Best Practices"> Share link </button> </h3> <h4 id="shard-key-selection-1" class="position-relative d-flex align-items-center group"> Shard Key Selection <button type="button" class="h-share btn btn-link p-0 text-decoration-none link-secondary opacity-50 hover-opacity-100 transition-all ms-1" data-share-target="shard-key-selection-1" aria-haspopup="dialog" aria-label="Share link: Shard Key Selection"> Share link </button> </h4><ol> <li> Choose High Cardinality: Ensure many unique values for even distribution </li> <li> Align with Access Patterns: Shard by most common query filter </li> <li> Avoid Hotspots: Don’t use sequential keys or time-based keys for writes </li> <li> Consider Growth: Choose key that scales with data growth </li> <li> Test Distribution: Simulate with production-like data before deployment </li> </ol> <h4 id="operational-best-practices" class="position-relative d-flex align-items-center group"> Operational Best Practices <button type="button" class="h-share btn btn-link p-0 text-decoration-none link-secondary opacity-50 hover-opacity-100 transition-all ms-1" data-share-target="operational-best-practices" aria-haspopup="dialog" aria-label="Share link: Operational Best Practices"> Share link </button> </h4><ul> <li>Start with conservative shard count (8-16 shards)</li> <li>Plan resharding strategy before initial deployment</li> <li>Monitor shard balance continuously</li> <li>Implement automated shard health checks</li> <li>Document shard topology and routing logic</li> <li>Test cross-shard query performance</li> <li>Maintain shard homogeneity (same hardware)</li> </ul> <h4 id="performance-optimization" class="position-relative d-flex align-items-center group"> Performance Optimization <button type="button" class="h-share btn btn-link p-0 text-decoration-none link-secondary opacity-50 hover-opacity-100 transition-all ms-1" data-share-target="performance-optimization" aria-haspopup="dialog" aria-label="Share link: Performance Optimization"> Share link </button> </h4><ul> <li>Minimize cross-shard queries through smart shard key selection</li> <li>Use read replicas per shard for read scaling</li> <li>Implement query result caching at router layer</li> <li>Batch multi-shard operations when possible</li> <li>Co-locate related data on same shard</li> <li>Use connection pooling between router and shards</li> </ul> <h3 id="troubleshooting" class="position-relative d-flex align-items-center group"> Troubleshooting <button type="button" class="h-share btn btn-link p-0 text-decoration-none link-secondary opacity-50 hover-opacity-100 transition-all ms-1" data-share-target="troubleshooting" aria-haspopup="dialog" aria-label="Share link: Troubleshooting"> Share link </button> </h3> <h4 id="common-sharding-issues" class="position-relative d-flex align-items-center group"> Common Sharding Issues <button type="button" class="h-share btn btn-link p-0 text-decoration-none link-secondary opacity-50 hover-opacity-100 transition-all ms-1" data-share-target="common-sharding-issues" aria-haspopup="dialog" aria-label="Share link: Common Sharding Issues"> Share link </button> </h4>Unbalanced Shards: Some shards much larger than others. Solution: Analyze shard key distribution, consider hash-based sharding, trigger rebalancing. High Cross-Shard Query Rate: Too many queries spanning shards. Solution: Review shard key choice, optimize query patterns, add shard key hints to queries. Shard Hotspots: One shard receiving disproportionate traffic. Solution: Identify hot keys, split hot shard, use read replicas for hot shard. Resharding Downtime: Service interruption during shard addition. Solution: Use online resharding, implement gradual cutover, maintain dual-write during transition. <h4 id="diagnostic-queries" class="position-relative d-flex align-items-center group"> Diagnostic Queries <button type="button" class="h-share btn btn-link p-0 text-decoration-none link-secondary opacity-50 hover-opacity-100 transition-all ms-1" data-share-target="diagnostic-queries" aria-haspopup="dialog" aria-label="Share link: Diagnostic Queries"> Share link </button> </h4><div class="highlight"><pre tabindex="0" class="chroma"><code class="language-gql" data-lang="gql">-- Check shard distribution for key CALL dbms.shard.route('user_id', $user_id) YIELD shard_id; -- View shard statistics CALL dbms.shard.stats() YIELD shard_id, size_bytes, node_count, query_rate; -- Analyze cross-shard relationships CALL dbms.shard.cross_shard_edges() YIELD count, percentage; -- Find queries requiring multiple shards CALL dbms.shard.multi_shard_queries() YIELD query_text, shard_count, frequency; </code></pre></div> <h3 id="related-topics" class="position-relative d-flex align-items-center group"> Related Topics <button type="button" class="h-share btn btn-link p-0 text-decoration-none link-secondary opacity-50 hover-opacity-100 transition-all ms-1" data-share-target="related-topics" aria-haspopup="dialog" aria-label="Share link: Related Topics"> Share link </button> </h3><ul> <li><a href="/tags/partitioning/" >Partitioning</a> - Graph partitioning strategies</li> <li><a href="/tags/clustering/" >Clustering</a> - Database clustering configuration</li> <li><a href="/tags/scalability/" >Scalability</a> - Horizontal scaling approaches</li> <li><a href="/tags/replication/" >Replication</a> - Data replication strategies</li> <li><a href="/tags/distributed/" >Distributed</a> - Distributed systems architecture</li> <li><a href="/tags/performance/" >Performance</a> - Query performance optimization</li> </ul> <h3 id="further-reading" class="position-relative d-flex align-items-center group"> Further Reading <button type="button" class="h-share btn btn-link p-0 text-decoration-none link-secondary opacity-50 hover-opacity-100 transition-all ms-1" data-share-target="further-reading" aria-haspopup="dialog" aria-label="Share link: Further Reading"> Share link </button> </h3><ul> <li><a href="/docs/architecture/distributed-architecture/" >Distributed Architecture</a> - Distributed systems design</li> <li><a href="/docs/architecture/performance-and-scaling/" >Performance and Scaling</a> - Scaling strategies</li> <li><a href="/docs/guides/schema-design/" >Schema Design Guide</a> - Data modeling best practices</li> </ul>

Popular

Related Articles