彻底改变语言模型：全新架构TTT，ML模型代替RNN隐藏状态 #模型

-loading-

听音频 🔊 . 看视频 🎦

... 2024-07-09 18:50 .. TTT）层。
    研究团队引入两个简单的实例：TTT-Linear和TTT-MLP，其中隐藏状态分别是线性模型和两层MLP。
    TTT层可以集成到任何网络架构中并进行端到端优化，类似于RNN层和自注意力。
    为了让TTT层更加高效，该研究采取了一些技巧来改进TTT层：首先，类似于在常规训练期间对小批量序列采取gradientstep以获得更好的并行性，该研究在TTT期间使用小批量token。
    其次，该研究为每个TTT小批量内的操作开发了一种双重形式，以更好地利用现代GPU和TPU。
    双重形式的输出与简单实现等效，但训练速度快了5倍以上。
    如图3所示，TTT-Linear在8k上下文中比Transformer更快，与Mamba相当。
    研究团队认为：所有序列建模层都可以看作将历史上下文存储到隐藏状态，如图4所示。
    例如，RNN层（如LSTM、RWKV和Mamba层）将上下文压缩为跨时间 .. UfqiNews ↓ 2

...海量且高质量的数据提供了充足的训练“养料”，高性能算力让快速学习成为可能，大型语言模型赋予其出色的理解和内容生成能力.
    生成式人工智能拥有强大的理解、自主学习能力，随着技术迭代，更高效的人工智能应用有望加速服务各行各业，成为智能时代新的重要工具.
    当前，人工智能技术飞速发展，在知识生产领域为人类提供便捷的基础服务.
    同时应当看到，人工智能能力来自人的设计，擅长按照规则操作，胜在超常的运算能力.
    大型语言模型在词语和意义之间建立关联，并输出接近人类理解的结果，靠的是来自人类的知识体系和文本训练.
    应该说，人工智能可以高效完成代码下达的指令，但仍然还不懂所做事情的意义.
    值得注意的是，随着人工智能不断进化、与生产生活融合愈加密切，其带来的风险也不容忽视.
    比如，人工智能生成近似原画的内容、构图等，可能侵犯了原创者的知识产权；大型语言模型处理、生成数据时，可能涉及个人隐私；人工.. 06-13 03:20 ↓ 33

...迈出法律风险管理数字化转型的重要一步.
    邮储银行将法律风险管理数字化转型列入依法治行总体规划，确保对法律风险管理数字化转型的长期投入、持续推进.
    2023年初，邮储银行组建由法律事务部、风险管理部、软件研发中心多部门共同协作的法律审查智能化项目工作小组.
    工作小组依托法律审查人员过去三年积累的审查指引等“专家经验工具箱”、合同文本数据库与法律法规数据库，累计梳理4500余项标准法审意见，对3400余份合同等法律文件进行55，000余条专业标注，并借助开源大模型完成智能法审辅助工具的搭建，初步实现了对法律文本的语义理解并辅助提示部分法律风险.
    大模型的应用开创性地改变了银行业传统的法律审查方式，辅助提升了法律审查工作的规范化水平，同时有助于提高法律审查工作效率.
    该项目曾获“企业法治建设风险管控创新典型案例”.
    邮储银行相关负责人表示，未来将继续探索在合同智能起草、履约管.. 12-21 06:20 ↓ 16 ..UfqiNews