模型与计费
长上下文
理解长上下文行为和 Gemini 长上下文计费。
长上下文请求可能和普通请求有不同的成本和路由行为。
Gemini native 请求在超过较高 token 阈值后,可能应用长上下文计费。这和普通 prompt / completion token 计费是分开的。
最佳实践:
- 尽量保持 prompt 紧凑。
- 只有在工具或模型确实受益时才复用大量上下文。
- 如果请求成本高于预期,请检查 Dashboard 使用明细。
- 长输出优先使用流式。
理解长上下文行为和 Gemini 长上下文计费。
长上下文请求可能和普通请求有不同的成本和路由行为。
Gemini native 请求在超过较高 token 阈值后,可能应用长上下文计费。这和普通 prompt / completion token 计费是分开的。
最佳实践: