©2024,AmazonWebServices,Inc.oritsaffiliates.Allrightsreserved.金蝶云•苍穹开发者大赛x技术开放日利用AmazonBedrock加速GenAI生产用例落地郝鑫亚马逊云科技GenAI产品经理©2024,AmazonWebServices,Inc.oritsaffiliates.Allrightsreserved.一些现象和想法:1.大模型市场就像战场,产品迭代周期半年左右。大模型厂商你追我赶,技术垄断不会出现。2.开源模型趋近商业大模型的表现,更加适合企业定制化。Llama3的出现,进一步缩小了开源模型与商业模型的技术差距。3.图片/视频/音频生成模型将在2024年加速,生成式AI业务机会更丰富。Sora,StableDiffusion3,ChatTTS……4.LLM性能逐步趋同,在已验证的场景中,如翻译、客户评论分析等,客户将更关注性价比,重视平台服务的完善度。22/11/30ChatGPT23/03/15GPT407/18Llama212/06Gemini1.012/11Mixtral8x7B04/18Llama307/11Claude211/06GPT4TurboSoraSD324/02/18Gemini1.505/14GPT4o03/04Claude306/21Claude3.5©2024,AmazonWebServices,Inc.oritsaffiliates.Allrightsreserved.Agenda•更高性价比的模型Claude3.5Sonnet最新发布/测试样例•更完善的模型平台利用模型平台加速GenAI生产用例落地©2024,AmazonWebServices,Inc.oritsaffiliates.Allrightsreserved.Claude3.5Sonnet最新发布/测试样例©2024,AmazonWebServices,Inc.oritsaffiliates.Allrightsreserved.5©2024,AmazonWebServices,Inc.oritsaffiliates.Allrightsreserved.大模型排名不断交替6LiveBench是由YannLeCunn等团队联手打造的大语言模型基准测试,它每月发布新的问题和挑战,确保了测试内容始终保持最新和相关性,这意味着模型无法通过简单的记忆或微调来提高性能,该测试结果具有很高的参考性。大语言模型基准测试LiveBenchAI©2024,AmazonWebServices,Inc.oritsaffiliates.Allrightsreserved.Claude3.5Sonnet正式发布7Claude3.5Sonnet于6月21日发布更智能•Claude3.5模型家族的首个版本,作为中等参数规模的模型提供智能化,速度及成本的最优组合。•业界最强模型,在多个Benchmark中超越Claude3Opus以及友商模型(GPT-4o及Gemini1.5Pro)。•图片识别效果相较之前有显著提升,达到SOTA地位。更快速•推理速度是Claude3Opus的2倍,超过了友商模型(GPT-4o及Gemini1.5Pro)。更便宜(以文本价格举例)PlatformModelNameContextWindowInput[per1Mtokens]Output[per1Mtokens]AmazonBedrockClaude3.5Sonnet200K$3$15AzureGPT4o128K$5$15GCPGemini1.5Pro<128K$5$15GCPGemini1.5Pro>128K$10$30*Gemini按照字符/character计费,根据GCP官方标准“4characters=1token”换算价格©2024,AmazonWebServices,Inc.oritsaffiliates.Allrightsreserved.Claude3.5Sonnet更智能–推理/编码/计算81.GPQA(Diamond)-GraduatelevelQ&A:这是一个研究生水平的问答任务,旨在测试AI模型回答高级学术问题的能力。2.MMLU-Generalreasoning:MMLU代表"MassiveMultitaskLanguageUnderstanding",这是一个涵盖广泛主题的综合测试,用于评估AI模型的通用推理能力。3.CodeHumanEval-Pythoncodingtasks:这个评估任务测试AI模型编写和理解Python代码的能力,模拟人类程序员的编码任务。4.MGSM-Multilingualmath:这是一个多语言数学问题解决任务,测试模型在不同语言环境下解决数学问题的能力。5.DROP-Readingcomprehension,arithmetic:DROP是"DiscreteReasoningOverParagraphs"的缩写,这个任务结合了阅读理解和算术推理,要求模型从文本中提取信息并进行计算。6.BIG-BenchHard-Mixedevaluations:这是一系列困难的、多样化的任务集合,用于全面评估AI模型的能力。这些任务可能包括推理、创造力和复杂问题解决等。7.MATH:这个任务专注于数学问题解决能力,测试模型处理各种数学难题的能力。8.GSM8K-Gradeschoolmath:这个任务专注于小学水平的数学问题,测试模型解决基础数学问题的能力。Claude3.5Sonnet发布Claude3.5SonnetModelCard©2024,AmazonWebServices,Inc.oritsaffiliates.Allrightsreserved.Claude3.5Sonnet更智能-Vision/图片理解分析91.MathVista(testmini)-数学:这个任务测试模型解决数学问题的能力,可能包含图表、图形或其他视觉元素。它评估模型在理解数学概念和视觉表示方面的能力。2.AI2D(test)-科学图表:这个任务涉及理解和解释科学图表。模型需要分析图表、图形或其他科学可视化,并回答相关问题或提取信息。3.MMMU(validation)-视觉问答:这是一个多模态理解任务,要求模型回答与图像相关的问题。它测试模型理解和分析视觉信息的能力。4.ChartQA(test,relaxedaccuracy)-图表理解:这个任务专注于图表理解。模型需要解读各种类型的图表(如柱状图、折线图、饼图等),并回答关于图表内容的问题。5.DocVQA(test,ANLSscore)-文档理解:DocVQA是文档视觉问答的缩写。这个任务测试模型理解复杂文档(可能包括文本、表格、图像等)的能力,并回答关于文档内容的问题。ANLS分数是评估答案质量的一种方法。Claude3.5Sonnet发布Claude3.5SonnetModelCard©2024,AmazonWebServices,Inc.oritsaffiliates.Allrightsreserved.Claude3.5Sonnet更智能–垂直行业表现10HumanFeedbackEvaluations通过人类专家与模型对话,以Claude3Opus结果作为基线,通过战胜率来衡量模型效果:Claude3.5Sonnet在法律(82%),金融(73%)以及医学(68%)领域均获得了更多行业专家的青睐。Claude3.5SonnetModelCard©2024,AmazonWebServices,Inc.oritsaffiliates.Allrightsreserved.Claude3.5Sonnet更智能–具体任务表现11HumanFeedbackEvaluations通过人类专家与模型对话,以Claude3Opus结果作为基线,通过战胜率来衡量模型效果:Claude3.5Sonnet在编程,文档理解,创意写作,多语言能力,指令遵循等任务表现均超越Opus。Claude3.5SonnetModelCard©2024,AmazonWebServices,Inc.oritsaffiliates.Allrightsreserved.Claude3.5Sonnet更快速12https://artificialanalysis.ai/Claude3.5Sonnet同主要竞对模型GPT-4o以及Gemini1.5pro相比,在推理速度(每秒输出token数)实现了超越。©2024,AmazonWebServices,Inc.oritsaffiliates.Allrightsreserved.Claude3.5Sonnet简单测试样例©2024,AmazonWebServices,Inc.oritsaffiliates.Allrightsreserved.对于折线图、柱状图(堆叠+非堆叠),识别能力有很大的提升ChartQA样例–报表信息解读总结请帮我分析这种图,并给出相应的数据©2024,AmazonWebServices,Inc.oritsaffiliates.Allrightsreserved.15对于复杂格式(如树状图)的理解能力请识别图中的思维导图结构信息,返回树状的JSON结构©2024,AmazonWebServices,Inc.oritsaffiliates.Allrightsreserved.16参考下面样例的格式生成适合amazon.com的商品描述视觉问答能力–商品详情生成©2024,AmazonWebServices,Inc.oritsaffiliates.Allrightsreserved.17数学公式识别及计算能力提升全部公式准确识别并解出正确答案你是一个逻辑清晰,思维严谨的数学家。请仔细阅读图中的题目,给出解题思路和答案©2024,AmazonWebServices,Inc.oritsaffiliates.Allrightsreserved.利用模型平台加速GenAI生产用例落地©2024,AmazonWebServices,Inc.oritsaffiliates.Allrightsreserved.构建GenAI应用的全链路支持1.一个合适的模型平台Bedrock2.持续优化prompt,模型性能比对Playgrounds3.快速构建应用原型,验证想法可行性PartyRock4.企业定制模型1.Fine-tuning2.Continuedpre-training3.CustomModelImport5.自动化模型效果测试ModelEvaluation6.稳定的API服务OD/Batch/PT模式组合7.模型输出无害化Guardrails8.构建Agent及知识库1.Agent2.Knowledgebase创意可行性分析自定义模型性能验证生产稳定性合规监控工程优化员工自建9.快速构建GenAI应用Studio©2024,AmazonWebServices,Inc.oritsaffiliates.Allrightsreserved.AmazonBedrock—基岩陆地表面土壤底下的坚硬岩层,用于大型建筑工程地基选择领先的基础模型轻松自定义模型完全托管的Agent用于执行任务安全性和合规性原生RAG支持©2024,AmazonWebServices,Inc.oritsaffiliates.Allrightsreserved.AmazonTitanTextLiteAmazonTitanTextExpressAmazonTitanTextPremierAmazonTitanTextEmbeddingsG1AmazonTitanTextEmbeddingsV2AmazonTitanMultimodalEmbeddingsAmazonTitanImageGeneratorClaude3.5SonnetClaude3OpusClaude3SonnetClaude3HaikuClaude2.1Claude2ClaudeInstantLlama38BLlama370BLlama213BLlama270BCommandCommandLightEmbedEnglishEmbedMultilingualCommandR+CommandRStableDiffusionXL1.0Jurassic-2UltraJurassic-2MidJamba-InstructMistralLargeMistralSmallMistral7BMixtral8x7B提供丰富的模型选择AmazonBedrock*近期GA模型©2024,AmazonWebServices,Inc.oritsaffiliates.Allrightsreserved.22©2024,AmazonWebServices,Inc.oritsaffiliates.Allrightsreserved.PartyRock快速构建GENAI应用原型•GenAI应用原型的开发平台•探索提示词工程•与团队共享应用•限时免费使用•无需AWS账户•已支持Claude3Haiku/Sonnet!©2024,AmazonWebServices,Inc.oritsaffiliates.Allrightsreserved.©2024,AmazonWebServices,Inc.oritsaffiliates.Allrightsreserved.AmazonBedrock企业定制模型大量的未标注数据提升企业垂直领域的模型准确性Continuedpre-training目标数据量最大限度地提高特定任务的准确性Fine-tuning标注数据量需求少目标数据量©2024,AmazonWebServices,Inc.oritsaffiliates.Allrightsreserved.将企业本地微调后的模型导入BEDROCK托管服务26自定义模型导入支持用户将本地微调后的开源模型版本导入Bedrock,提供统一的托管服务体验。•模型导入来源包含S3及SageMaker•模型包括模型权重文件(HuggingFaceSafetensor格式)以及对应Tokenizer文件•目前支持3种模型架构:Llama、Mistral和FlanT5•支持按需(OnDemand,OD)模式推理;未来支持预制吞吐量(ProvisionedThroughput,PT)方式独占算力资源进行推理;预览微调模型文件参考截图©2024,AmazonWebServices,Inc.oritsaffiliates.Allrightsreserved.ModelEvaluationonAmazonBedrock通过模型评估,选择最适合的基础模型选择自动或人工评估方法(自有员工或AWS提供评估团队)预置评估数据集或客户自有数据集预置评估指标或客户自定义指标(accuracy,toxicity,androbustness)人工评估报告自动评估报告预置任务类型或客户自定义任务(通用文本生成,摘要生成,QA,文本分类)©2024,AmazonWebServices,Inc.oritsaffiliates.Allrightsreserved.©2024,AmazonWebServices,Inc.oritsaffiliates.Allrightsreserved.OD模式和PT模式的区别›根据调用的LLM的输入(Prompt)以及输出(Completion)的token数量计费›非常适合原型设计、POC、对吞吐量和延迟要求更宽松的小型工作负载场景›存在每分钟请求数(RPM)和每分钟token数(TPM)的限制›Batch批量推理:异步运行多个推理请求。将一组提示词作为单个输入文件提供,并将响应作为单个输出文件接收,这样就可以同时进行大规模推理任务›通过购买模型单元(ModelUnit,MU),使用“独占算力”,确保推理吞吐量›与OD模式相比,数据与其他客户“物理隔离”›支持无固定期限、1个月以及6个月的使用承诺期›按小时计费,承诺使用时长可享受折扣›非常适合生产工作负载或微调后自定义模型的推理On-Demand/Batch无需承诺,即用即付Provisionedthroughput预置足够的吞吐量以满足应用程序的性能要求Preview©2024,AmazonWebServices,Inc.oritsaffiliates.Allrightsreserved.GuardrailsforAmazonBedrock根据您的应用要求和负责任的人工智能政策实施保障措施对所有的基础模型、微调模型以及Agents实施一致性的“Guardrails”防护栏根据负责任的人工智能政策,配置过滤有害内容(可自定义防护阈值)和要禁止的话题屏蔽个人身份信息(PII)单词过滤器©2024,AmazonWebServices,Inc.oritsaffiliates.Allrightsreserved.31©2024,AmazonWebServices,Inc.oritsaffiliates.Allrightsreserved.KnowledgeBases知识库应用,支持RAG技术KnowledgeBasesforAmazonBedrock全托管的检索增强生成技术(RAG)可选混合搜索Hybridsearch(semantic&keyword)提升准确度支持元数据过滤metadatafiltering,提高检索准确性Chatwithyourdocument,针对单个文档的即时问答,无须创建知识库NewNewNew自动将文本转化为向量embeddings(TitanEmbeddingsV2/CohereEmbed)可自动创建向量数据库也可自建向量数据库(OpenSearchServerless)检索相关文本并增强提示,同时还会在检索结果中标注来源,以增加透明度。©2024,AmazonWebServices,Inc.oritsaffiliates.Allrightsreserved.34©2024,AmazonWebServices,Inc.oritsaffiliates.Allrightsreserved.AgentsforAmazonBedrock利用AGENTS代理功能,链接公司系统和数据执行多步骤复杂任务选择基础模型提供任务指导选择相关数据源指定ActionsAPI1234支持Claude3Sonnet及Haiku,提供更强大脑全新BedrockAgent控制台,进一步简化创建Agnet流程更强的APISchema理解能力,无需强制遵循OpenAPI标准增加控制权归还(ReturnofControl)功能,将Lambda函数调用控制权交还调用Agent的用户及应用程序,加速Agent处理速度支持CloudFormation部署并管理Agent,确保应用程序在不同环境中的一致性©2024,AmazonWebServices,Inc.oritsaffiliates.Allrightsreserved.PreviewStudioAmazonBedrock方便员工探索GenAI能力并构建自己的应用支持SSO单点登陆的Web界面,让组织内员工能简便地测试各种模型,构建人工智能应用并进行项目协作。管理员可以灵活配置员工可访问的模型种类,可使用token资源数量等;避免了员工使用复杂的开发人员环境。可以充分利用Bedrock平台多种模型,KnowledgeBase,Agent,Guardrails等功能快速开发自己GenAI产品原型。©2024,AmazonWebServices,Inc.oritsaffiliates.Allrightsreserved.管理员界面监控工作区中的项目和资源使用状况BedrockStudio开发者界面快速使用Agent/KB/Guardrails等功能开发产品原型BedrockStudio©2024,AmazonWebServices,Inc.oritsaffiliates.Allrightsreserved.GenerativeAIStack利用基础模型构建的GenAI应用构建GenAI应用的模型平台用于基础模型训练和推理的底层基础设施AmazonQAmazonQinAmazonQuickSightAmazonQinAmazonConnectAmazonCodeWhispererGPUsInferentiaTrainiumSageMakerEC2CapacityBlocksNeuronUltraClustersEFANitroAmazonBedrockGuardrailsAgentsCustomizationcapabilities©2024,AmazonWebServices,Inc.oritsaffiliates.Allrightsreserved.解决方案架构师产品技术专家生成式AI创新中心联合创新实验室快速原型开发团队专业服务团队培训与认证讲师亚马逊云科技团队赋能客户构建GenAI产品的全流程发现用例动手培训试验迭代开发原型解决方案研发中心©2024,AmazonWebServices,Inc.oritsaffiliates.Allrightsreserved.Thankyou!