1993-2022金蝶国际软件集团有限公司①这就是苍穹GPT肖德时AI服务平台部2023.8.282①0203大模型任务介绍大模型场景难点和技术分析推理和预训练方案介绍目录0104苍穹GPT的产品发展探讨013大模型任务介绍4①大模型任务介绍:大模型时代到来2022年11月30日,OpenAI首发ChatGPT,生成式AI在全球范围内受到关注和热议2023年3月6日,微软发布基于GPT的Dynamic365Copilot,号称第一个内置于CRM和ERP应用的AI助手2023年3月7日,Salesforce推出EinsteinGPT,号称全球第一个引入生成式AI技术的CRM2023年5月23日,网信办发布《生成式人工智能服务管理暂行办法》,规范行业发展,8月15日开始执行2023年3月16日,百度发布自主研发的大语言生成模型文心一言,开启国内厂商追赶浪潮2023年7月19日,Meta发布免费可商用版本Llama2,开启大模型安卓时代•大语言模型的迅猛发展,催生企业管理软件AI原生时代的来临5①大模型任务介绍1.知识问答2.情感分析3.归纳总结4.图片解读5.对象识别6.任务泛化6①大模型任务介绍知识问答任务:使用LLM作为用户和搜索系统件沟通的介质,发挥其强大的自然语言处理能力:对用户请求进行纠错、提取关键点等预处理实现“理解”;对输出结果在保证正确性的基础上二次加工,比如——概括、分析、推理等。7①大模型任务介绍代码生成(CodeGen)任务:从代码脚手架到自然语言生成代码是一种飞跃。代码数据集达到约1T,代码相关语言资料超过3.5T。长文本标配10万上下文窗口,GPU单卡4090就可以跑起来7B模型。8①大模型任务介绍Text-to-SQL任务:通过LLM指令生成SQL语言,把查询结果再召回到LLM中获得用户答案9①2023GartnerHypeCycleforArtificialIntelligenceGartner新兴技术成熟度曲线(HypeCycle™)指出生成式AI、智能机器人、基座大模型等都在泡沫顶峰0210大模型场景难点和技术分析11①大模型场景难点和技术分析以加速落地知识库场景为例,如果想深入了解此场景的难点就需要关注如下几点:1、向量模型(Embeddingsmodels)2、向量数据库3、多模态支持4、大模型产生幻觉12①向量模型(Embeddingsmodels)向量层是神经网络中对象特征的抽象,向量模型是通过大量文本语料库预料预训练的神经网络,所以不管你的输入是什么字符串,它都可以搜索出关联的语义信息。但是模型质量的好坏也决定了搜索的相关性,从用户的角度来看,就是搜索质量高不高大量文本嵌入基准(MTEB)向量模型排行榜可以选择自己合适的模型。中文模型智源BGE霸榜,但是中英文混合模型最好的是OpenAI的text-embedding-ada-002,支持Token长度达到8191,其他模型只有512。LLM(大语言模型)比喻为一个已经训练好的家政阿姨,她懂中文,会做家务,但是对你家里的情况不了解。嵌入:就相当于你省去了对阿姨进行二次培训的,而是在家里贴满纸条,这样阿姨需要做什么事先找纸条,一看到纸条就知道该怎么做了。13①向量数据库以Milvus云原生向量数据库为例,架构非常复杂,是一个开源类库的大杂烩,掌握和调优难度大。1、合理的预计数据量,表数目大小,QPS参数等指标2、选择合适的索引类型和参数Milvus支持了Annoy,Faiss,HNSW,DiskANN等多种不同的索引,用户可以根据对延迟,内存使用和召回率的需求进行选择。3、合理选择流式插入和批量导入4、谨慎使用标量过滤,删除特性等特性Milvus支持了删除,标量过滤,TimeTravel等高级特性。使用这些高级功能可能会对稳定性和性能造成比较严重的影响5、部署监控并观察集群情况Milvus架构图14①多模态支持图像分类模型VGGVGG于2014年由牛津大学科学工程系VisualGeometryGroup组提出的。主要工作是证明了增加网络的深度能够在一定程度上影响网络最终的性能。VGG有两种结构,分别是VGG16和VGG19,两者除了网络深度不一样,其本质并没有什么区别。应用场景以图找图为主,和向量数据库集成后可以实现10亿检索的毫秒级返回。可以泛化到视频分类检索,利用了Milvus的批量搜索功能,先对每个新增视频的多个特征向量进行相似度搜索,召回每个特征向量的前100个相似向量(这里召回的每个相似向量绑定了其对应的视频ID)。接着,对每次相似度搜索召回的所有视频ID去重,再从数据库中查询对应的特征向量。最后,将查询到的每组特征向量和请求视频的特征向量进行特定的视频相似度计算并打分,将得分最高的视频ID作为结果返回完成视频的相似度检索。重点:在企业管理场景中应用多模态技术探索还在早期阶段15①导致大型语言模型产生幻觉的原因:1.数据稀疏性数据稀疏性是导致大型语言模型产生幻觉的主要原因之一。例如,GPT-4是一个在2021年训练的大型语言模型,它无法获取到最新的数据。因此,如果你询问一个涉及近期话题的问题,它很可能会因为无法提供正确答案而产生幻觉。2.非监督学习虽然强化学习可以试图引导大型语言模型朝着更正确的方向发展,但它的基础训练并不是监督学习过程。这使得模型很难区分什么是正确的,什么是不正确的。3.短期上下文大型语言模型的模型架构具有固定的上下文窗口,这意味着它一次只能“看到”一定数量的标记。如果重要的上下文超出了这个窗口范围,模型可能会失去对上下文的追踪能力,从而导致错误。4.无实时反馈循环与人类不同,大型语言模型没有实时反馈循环,也无法立即从错误中学习。人类可以很容易地判断一个故事是否真实可信,但是对于大型语言模型来说这是一项极具挑战的任务,因为它们无法像人类一样具有常识和判断力。大模型产生幻觉–Cont.16①减少幻觉的方法:1.提示设计(PromptDesign):通过简单的提示设计和工程可以减少幻觉。例如,在提示中添加“根据科学证据提供真实答案”等字眼。2.针对特定领域的微调(Fine-tuneforaspecificdomain):可以在更可靠和与所需最小化幻觉的领域高度相关的狭窄数据集上对模型进行微调。3.矛盾检查(Contradictionchecks):可以提示大型语言模型自我矛盾,然后进一步提示它们认识到矛盾并缓解它。这是一种高级提示工程技术。4.检索增强生成(RetrievalAugmentedGeneration):这是在企业级大型语言模型中常用的一种常见技术。通过首先在搜索索引中查找包含答案的相关文档,然后将搜索结果提供给大型语言模型来制定最终答案。由于大型语言模型被迫在其被发送的信息中找到答案,因此它产生的幻觉要少得多。5.人参与循环(HumanIntheLoop):人类专家可以在答案被使用之前检查答案。虽然这是一种劳动密集型选项,但并不理想。6.数据重新加权(DataRe-weighting):在大型语言模型训练期间为可靠和经过验证的数据分配更高的权重,使模型更加关注它们。7.更长的上下文窗口(LongerContextWindows):扩展模型的内存可以帮助它在更长的段落中保持上下文,从而减少幻觉的机会。大模型产生幻觉–Cont.17①大模型产生幻觉–Cont.利用RAG范式可以有效改善大模型幻觉0318推理和预训练方案介绍19①推理和预训练方案介绍各种大模型的推理时间和内存消耗比较,A100GPU40GB1.降低精度:使用float16或bfloat16。这将使模型加速约20%,内存消耗减少2倍。2.使用8位或4位量化:使用8位或4位的模型量化方式可以将内存消耗减少2倍或3倍。这种方法对需要运行于内存受限的小型设备上的模型效果最好。需注意:量化会降低模型预测的质量。3.使用adapters(LoRA、QLoRA)进行微调,能够提高模型在特定数据上的预测准确性和性能。与模型量化技术结合使用效果良好。4.使用张量并行技术(tensorparallelism)能够加速大模型在多GPU上的推理。5.尽可能使用LLM推理和服务库,如DeepSpeed,这些库已经包含了各种优化技术:张量并行(tensorparallelism)、模型量化(quantization)、对连续到达的请求进行批处理操作(continuousbatchingofincomingrequests)、经过优化的CUDA核函数(optimizedCUDAkernels)等等。6.投入生产环境之前进行一些初步测试和评估方案,准备好数据集进行快速测试并非所有的推理加速方法都能稳妥地发挥作用。在软件优化(softwareoptimization)和模型架构(modelarchitecture)之间取得平衡是实现LLM推理高效加速的关键。20①推理和预训练方案介绍–LoRA&QLoRA微调:就相当于阿姨第一次到你家干活的时候,你要花一小时时间告诉她家里的情况,比如物件的摆放、哪些地方不能动,哪些地方要重点照顾。LoRA(Low-RankAdaptationofLargeLanguageModels),大模型低秩适配器。LoRA的基本原理是冻结预训练好的模型权重参数,在冻结原模型参数的情况下,通过往模型中加入额外的网络层,并只训练这些新增的网络层参数。LoRA算法是微软2021年提出的一种针对超大语言模型的轻量化微调算法秩(Rank)表示的是矩阵的信息量。图像就是低秩的QLoRA:EfficientFinetuningofQuantizedLLMs•一种新的数据类型4位NormalFloat(NF4);•双重量化以减少平均内存占用;•分页优化器来管理内存峰值。QLoRA作者对超过1000个规模为80M-65B的模型进行了指令微调,有了如下发现额外发现:•数据质量比数据集大小重要。•对于给定任务,数据集的适用性比大小更重要。•聊天机器人的性能评估发现,模型评估的方式与人类评估相比会具有不确定性。21①推理和预训练方案介绍–训练数据格式-Cont.QuestionandAnswerDatasetContextQuestionAnswerprivacystatementforadborgchoiceoptoutcorrectupdatecontactingthewebsitetheasiandevelopmentbankhascreatedthisprivacystatementinordertodemonstrateour…whatisthepurposeoftheprivacystatementforadb.org?itcoversvariousaspectsofinformationgathering,optingoutofcommunications,updatinginformation,andcontactingthewebsite.TextSummarizationArticleSummarynickfairleyhassignedforthestlouisramsonaoneyearproveyourselfdealwhenfitandfocusedfairleyisoneofthenfl’sbetterdefensivelinemenbuthiscareerhasbeenplaguedwithconcernsaboutinjuriesattitudeandhisweightworth5millionbutwiththeincentivetomakeupto75maccordingtonflinsiderianrapoportthedefensivetacklejoinsarguablythemostfearsomefrontfourinfootballthe27yearoldwilllikelyslotinalongsideeitherdefensiverookieoftheyearaarondonaldormichaelbrockerstoaidtherams’frighteningpassrushramscoachjefffisherposeswithnickfairleyduringhisunveilinginstlouiswithdefensiveendschrislongandrobertquinnquarterbacks…startfairleyheadstothenfcwestandshouldplayakeypartinjefffisherandgreggwilliams’rotatingdefensiveline.thedetroitlionsdidnottakeuphisfifthyeardeal,andfairleypennedaone-yearcontractworth$5mwithincentivestomake$2.5mmore.the27-year-oldjoinsoneofthemostfearedfrontfoursinthenfl.whenfitandfocusedheisadisruptiveforceinthemiddle.butfearsaboutinjuries,attitudeandoff-fieldconcernsremain.end22①推理和预训练方案介绍–训练数据格式-Cont.InstructTuningInstructionOutputwhatisthebestwaytodownloadmusicfromyoutube?thebestwaytodownloadmusicfromyoutubeisthroughathirdpartywebsiteorapplicationmanyofthesewebsitesorapplicationswillletyouconverttheyoutubevideointoanmp3fileandsavetheaudiotoyourdevicehoweverit’simportanttouseareliablesafesourcewhendownloadingmusicfromyoutube.InstructionInputOutputTranslateEnglishtoChinese.Thebestwaytodownloadmusicfromyoutubeisthroughathirdpartywebsiteorapplicationmanyofthesewebsitesorapplicationswillletyouconverttheyoutubevideointoanmp3fileandsavetheaudiotoyourdevicehoweverit’simportanttouseareliablesafesourcewhendownloadingmusicfromyoutube.从YouTube下载音乐的最佳方法是通过第三方网站或应用程序。其中许多网站或应用程序将允许您将YouTube视频转换为MP3文件并保存音频到您的设备上。但是,重要的是在从YouTube下载音乐时使用可靠且安全的来源。23①推理和预训练方案介绍–训练数据格式Human-BotConversationConversationResponse:whatarethefivemostcommoncausesofstressamongpeople?\n:a2017studyshowedthatthetopcausesofstressinamericawere:money(64%)work(60%)theeconomy(49%)familyresponsibilities(47%)personalhealthproblems(46%)\n:howwouldsomeonecopewithstressfromfinancialdifficultiesandwork?\n:Tocopewithfinancialdifficulties:*readuponpersonalfinanceonline.ContinuePre-TrainingTextthomassheridananthropologistthomasesheridanborn5september1951isananthropologistofsonoramexicoandthehistoryandcultureoftheussouthwestheisdistinguishedoutreachprofessorattheuniversityofarizonaaffiliatedwiththedepartmentofanthropologyandthesouthwestcentersince2003sheridan’sfamilymovedtophoenixarizonaattheageof3heleftthesouthwestafterhighschoolattendedreedcollegebrieflybeforereturningandgraduatedfromthefirstincarnationofprescottcollegeinarizonainthe1970shebecameinterestedinnorthernmexicoandtravelledtherefrequentlyforstudyspendingmonthsinbahakinoin1971hecompletedaphdontheyaquiin1983hedirectedthemexicanheritageprojectatthearizonahistoricalsocietyfrom19821984andwascurator…准备包含长文本的数据集,以便进一步预训练语言模型。24①•中文语料集开源项目MNBVC,已经有7984GB的语料数据,毫无疑问的是全球最大的中文语料集项目,而且还是开源的:https://github.com/esbatmop/MNBVC•书生·万卷1.0为书生·万卷多模态语料库的首个开源版本,包含文本数据集、图文数据集、视频数据集三部分,数据总量超过2TB。https://opendatalab.org.cn/OpenDataLab/WanJuan1_dot_0推理和预训练方案介绍–中文开源语料库25①推理和预训练方案介绍–推理服务BentoML:TheUnifiedAIApplicationFramework在生成环境下部署模型提供服务需要一站式AI开发框架,BentoML正好满足需求•自动下载•自动构建•容器化•API服务生成26①推理和预训练方案介绍–指令调优框架27①推理和预训练方案介绍–指令调优框架结构化Prompt-LangGPThttps://github.com/yzfly/LangGPT/blob/main/Docs/HowToWritestructuredPrompts.mdRole(角色)->Profile(角色简介)—>Profile下的skill(角色技能)->Rules(角色要遵守的规则)->Workflow(满足上述条件的角色的工作流程)->Initialization(进行正式开始工作的初始化准备)->开始实际使用0428苍穹GPT的产品发展探讨29①多任务编排,大模型+业务能力灵活组合苍穹GPT智能中控……任务流-B子任务1子任务2……任务流-A子任务1子任务2……智能决策智慧大脑任务分解任务执行动态调度智能选取财务预测算法销售预测算法人力成本预测算法模型企查查金蝶信科WPS第三方API财务插件税务插件HR插件苍穹插件财务提示工程税务提示工程HR提示工程GPT提示多角色智能多模型调度任务异步执行生成式汇总Agents:拥有大模型加持的智能代理30①知识库,盘活企业自有知识资产知识向量化向量数据库问题向量化文本块搜索任务调度企业内搜索内容汇总GPT生成安全过滤文档社区问答网页图片语音内容识别RAG(检索增强生成):接受输入并检索出一组相关/支撑的文档,并给出文档的来源。这些文档作为上下文和输入的原始提示词组合,送给文本生成器得到最终的输出。31①个性化扩展,场景丰富 生成式表单构建 生成式代码编写 对话式规则配置 对话式开发问答苍穹GPT+开发平台苍穹GPT+流程平台 对话式数据分析 对话式数据探索 生成式业务洞察 生成式分析报告苍穹GPT+数据分析平台苍穹GPT+X 对话式流程创建 对话式流程修改 对话式流程问答 对话式流程监控 苍穹GPT+财务 苍穹GPT+HR 苍穹GPT+供应链 苍穹GPT+制造苍穹GPT是AI原生应用最佳开发拍档。1993-2022金蝶国际软件集团有限公司④内部公开请勿外传