2021-arxiv-LoRA Low-Rank Adaptation of Large Language Models Paper: https://arxiv.org/abs/2106.09685 Code: https://github.com/microsoft/LoRA
大型语言模型的LoRA低秩自适应
自然语言处理的一个重要范式包括对通用领域数据的大规模预训练和对特定任务或领域的适应。…
现在已经是12月了,距离2024年只有一个月了,本文总结了11月的一些比较不错的大语言模型相关论文
System 2 Attention (is something you might need too).
https://arxiv.org/abs/2311.11829
一种称为S2A的新注意力方法被开发出来,解决llm…
论文题目:《Cognitive Mirage: A Review of Hallucinations in Large Language Models》
论文链接:https://arxiv.org/abs/2309.06794v1
论文代码:https://github.com/hongbinye/cognitive-mirage-hallucinations-in-llms
一、幻觉介绍 …
本文是LLM系列文章,针对《Cognitive Mirage: A Review of Hallucinations in Large Language Models》的翻译。 认知海市蜃楼:大型语言模型中的幻觉研究综述 摘要1 引言2 机制分析3 幻觉的分类4 幻觉检测5 幻觉校正6 未来方向7 结论与愿景 摘要
随着大型语言模型在…
基于循环神经网络的语言模型:RNNLM RNNLM首次提出是在《Recurrent neural network based language model》这篇非常重要的神经网络语言模型论文种,发表于2010年。这篇论文的主要贡献是:
首次提出并实现了一种基于循环神经网络(Recurrent Neural Network)的语言模型…
在上一篇《Generative AI 新世界:大型语言模型(LLMs)概述》中,我们一起探讨了大型语言模型的发展历史、语料来源、数据预处理流程策略、训练使用的网络架构、最新研究方向分析(Amazon Titan、LLaMA、PaLM-E 等…
LLaMA简介:一个650亿参数的基础大型语言模型 PaperSetup其他资料 作为 Meta 对开放科学承诺的一部分,今天我们将公开发布
LLaMA (大型语言模型 Meta AI) ,这是一个最先进的大型语言基础模型,旨在帮助研究人员推进他们在人工智能这…
Efficient evolution of human antibodies from general protein language models
哈佛大学化学与化学生物学系和圣路易斯华盛顿大学的研究人员共同完成的一篇论文,发表在Nature Biotechnology上。
抗体是一种大分子,属于免疫球蛋白家族,它…
文章目录 question5.1 Geographic Encoder5.1.1 Encoding5.1.2 5.2 multi-modal pre-training 7 conclusionGeo-Encoder: A Chunk-Argument Bi-Encoder Framework for Chinese Geographic Re-Rankingabs ERNIE-GeoL: A Geography-and-Language Pre-trained Model and its Appli…
本文是LLM系列文章,针对《Exploring the Potential of Large Language Models (LLMs) in Learning on Graphs》的翻译。 探索大型语言模型在图形学习中的潜力 摘要1 引言2 前言3 LLM在图上的流水线4 LLM作为增强器5 LLM作为预测器6 相关工作7 结论7.1 关键发现7.2 …
本文是LLM系列文章,针对《UNVEILING THE PITFALLS OF KNOWLEDGE EDITING FOR LARGE LANGUAGE MODELS》的翻译。 揭示大型语言模型知识编辑的陷阱 摘要1 引言2 LLMS知识编辑的陷阱探索3 相关工作4 讨论与结论 摘要
随着与微调大型语言模型(LLMÿ…
本文是LLM系列的相关文章,针对《Shepherd: A Critic for Language Model Generation》的翻译。 Shepherd:语言模型生成的评价 摘要1 引言2 数据收集3 Shepherd模型4 评估反馈5 结果6 相关工作7 结论不足 摘要
随着大型语言模型的改进,人们对…
LLaMA:Open and Efficient Foundation Language ModelsIntroductionApproachPre-training DataArchitectureIntroduction
在大规模数据下训练的大模型,已经展示了很好的表现,当模型足够大的时,模型会出现一个涌现的能力ÿ…
本文是LLM系列文章,针对《Tuna: Instruction Tuning using Feedback from Large Language Models》的翻译。 Tuna:使用来自大型语言模型的反馈的指令调优 摘要1 引言2 方法3 实验4 相关工作5 结论局限性 摘要
使用更强大的LLM(如Instruction GPT和GPT-…
本文是LLM系列文章,针对《Instruction Tuning for Large Language Models: A Survey》的翻译。 大语言模型指令调整:综述 摘要1 引言2 方法3 数据集4 指令微调LLMs5 多模态指令微调6 特定领域指令微调7 高效调整技术8 评估,分析和批评9 结论…
大模型 LLM 综述, A Survey of Large Language Models
一、概述
一般认为NLP领域的大模型>10 Billion参数(也有人认为是6B、7B, 工业界用, 开始展现涌现能力); 经典大模型有GPT-3、BLOOM、Flan-T5、GPT-NeoX、OPT、GLM-130B、PaLM、LaMDA、LLaMA等;
大模型时间线, 图来自…
《Playing repeated games with Large Language Models》- 使用大型语言模型玩重复游戏 论文信息摘要1. 介绍2. 相关工作3. 一般方法4. 分析不同游戏系列的行为5. 囚徒困境5.1 性别之战 6. 讨论 论文信息
题目:《Playing repeated games with Large Language Model…
诸神缄默不语-个人CSDN博文目录 诸神缄默不语的论文阅读笔记和分类
论文名称:How Can We Know What Language Models Know?
ArXiv网址:https://arxiv.org/abs/1911.12543
官方GitHub项目(prompt之类的都有):https:…
Blip-2
BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models
BLIP-2:引导语言图像预训练具有冻结图像编码器和大型语言模型
(0) 总结&实测
总结:blip-2 最大的贡献在于,提出了…
问题描述:
根据from_pretrained的文档,我了解到我不必每次都下载预训练向量(权重数据),我可以使用以下语法将它们保存并从磁盘加载: - a path to a directory containing vocabulary files required by the tokenizer, for insta…
大模型tokenizer词句连贯性问题
现象
from transformers import LlamaTokenizerFast
import numpy as nptokenizer LlamaTokenizerFast.from_pretrained("heilerich/llama-tokenizer-fast")
origin_prompt "Hi, Im Minwoo Park from seoul, korea."
id…
CogAgent: A Visual Language Model for GUI Agents
摘要
人们通过图形用户界面(Graphical User Interfaces, GUIs)在数字设备上花费大量时间,例如,计算机或智能手机屏幕。ChatGPT 等大型语言模型(Large Language Mo…
文件结构如下所示: mode.py # Copyright (c) Microsoft Corporation.
# Licensed under the MIT License.
import torch
import torch.nn as nn
import torch
from torch.autograd import Variable
import copy
from torch.nn import CrossEntropyLoss, MSELosscl…
论文标题:Improving Language Understanding by Generative Pre-Training论文链接:https://www.cs.ubc.ca/~amuham01/LING530/papers/radford2018improving.pdf论文来源:OpenAI一、概述从无标注文本中高效学习的能力对于缓解对监督学习的依赖…
本文是LLM系列的文章,针对《Enabling Large Language Models to Generate Text with Citations》的翻译。 使大语言模型能够生成带有引用的文本 摘要1 引言2 任务设置和数据集3 自动评估4 建模5 实验6 人类评估7 相关工作8 结论不足 摘要
大型语言模型(…
论文标题:Language Models are Few-Shot Learners论文链接:https://arxiv.org/abs/2005.14165论文来源:OpenAI一、概述自然语言处理已经从学习特定任务的表示和设计特定任务的架构转变为使用任务无关的预训练和任务无关的架构。这种转变导致了…
本文是LLM系列文章,针对《Can Language Models Make Fun? A Case Study in Chinese Comical Crosstalk》的翻译。 语言模型能制造乐趣吗?中国滑稽相声个案研究 摘要1 引言2 问题定义3 数据集4 使用自动评估生成基准5 人工评估6 讨论7 结论与未来工作 摘要
语言是…
本篇文章主要介绍如何使用新的Hugging Face LLM推理容器将开源LLMs,比如BLOOM大型语言模型部署到亚马逊云科技Amazon SageMaker进行推理的示例。我们将部署12B Open Assistant Model,这是一款由开放助手计划训练的开源Chat LLM。 这个示例包括࿱…
本文首发于:https://www.licorne.ink/2023/08/llm-chatglm-6b-local-deploy/
ChatGLM-6B 是一个开源的、支持中英双语的对话语言模型,基于 General Language Model (GLM) 架构,具有 62 亿参数。结合模型量化技术,用户可以在消费级…
本文是LLM系列文章,针对《A Survey on Fairness in Large Language Models》的翻译。 大型语言模型中的公平性研究综述 摘要1 引言2 评估度量3 内在去偏4 外部去偏5 大型LLM的公平性6 讨论7 结论 摘要
大型语言模型(LLM)已经显示出强大的性…
生成 Cypher 能力:MOSS VS ChatGLM 生成 Cypher 能力:MOSS VS ChatGLM一、 测试结果二、 测试代码(包含Prompt) Here’s the table of contents:
生成 Cypher 能力:MOSS VS ChatGLM MOSS介绍:MOSS 是复旦大…
rouse 引起 his banging ~d the neighbours.
equivalent 相等的,相同的 The word has no ~ in English.
tamper 干预,乱弄 Dont ~ with my business.
facilitate 使便利 Modern inventions ~d housework.
swell 使膨胀,使增强,…
本文是LLM系列文章,针对《Evaluating Open-Domain Question Answering in the Era of Large Language Models》的翻译。 大语言模型时代的开放域问答评价 摘要1 引言2 相关工作3 开放域QA评估4 评估开放域QA模型的策略5 正确答案的语言分析6 CuratedTREC上的正则表…
A Survey on Large Language Model based Autonomous Agents 前言Abstract1 Introduction2 LLM-based Autonomous Agent Construction2.1 Agent Architecture Design2.1.1 Profiling Module2.1.2 Memory ModuleMemory StructuresMemory FormatsMemory Operations 2.1.3 Plannin…
Haoran Wei1∗, Lingyu Kong2∗, Jinyue Chen2, Liang Zhao1, Zheng Ge1†, Jinrong Yang3, Jianjian Sun1, Chunrui Han1, Xiangyu Zhang1 1MEGVII Technology 2University of Chinese Academy of Sciences 3Huazhong University of Science and Technology arXiv 2023.12.11 …
论文:https://arxiv.org/pdf/2203.15556.pdf
发表:2022 前文回顾:
OpenAI在2020年提出《Scaling Laws for Neural Language Models》:Scaling Laws(缩放法则)也一直影响了后续大模型的训练。其给出的结论是最佳计算效…
昨天我完成了谷歌Gemini API 应用(一):基础应用这篇博客,今天我们要在此基础上实现Gemini模型的Langchian加持,因为Gemini API刚发布没几天,所以langchian还没有来得及将其整合到现有的langchain包的架构内,langchain公…
content
transformer
attention mechanism
transformer structure pretrained language models
language modeling
pre-trained langue models(PLMs)
fine-tuning approaches
PLMs after BERT
applications of masked LM
frontiers of PLMs …
在过去的一年中,随着 GPT-4、LLaMA、Mistral,PaLM 等先进技术的突飞猛进,大型语言模型(Large Language Models)已经引领全球人工智能进入了一个全新的基础模型时代,这一时代不仅开启了技术创新的新篇章&…
生成 Cypher 能力:GPT3.5 VS ChatGLM 生成 Cypher 能力:GPT3.5 VS ChatGLM一、 测试结果二、 测试代码(包含Prompt) Here’s the table of contents: 生成 Cypher 能力:GPT3.5 VS ChatGLM 在之前的文章中已经测试过GPT…
本文是LLM系列文章,针对《Reinforcement Learning in the Era of LLMs: What is Essential? What is needed? An RL Perspective on RLHF, Prompting, and Beyond.》的翻译。 LLMs时代的强化学习:什么是本质?需要什么?RLHF、提…
GitHub:GitHub - paperless-ngx/paperless-ngx: A community-supported supercharged version of paperless: scan, index and archive all your physical documents 在线演示:https://demo.paperless-ngx.com 官网:https://docs.paperless-n…
一个开源的大型语言模型LLaMA论文解读,LLaMA: Open and Efficient Foundation Language Models返回论文和资料目录
1.导读
LLaMA 是 Meta AI 发布的包含 7B、13B、33B 和 65B 四种参数规模的基础语言模型集合,LLaMA-13B 仅以 1/10 规模的参数在多数的 …
InstructGPT:Training language models to follow instrcutions with human feedback 介绍模型数据集TaskHuman data collectionmodel 实验结果参考 介绍
现在LLM可以被prompt来完成一系列的下游任务,然而这些模型也总会产生一些用户不想要的结果&#…
论文阅读:chain of thought Prompting elicits reasoning in large language models
跟着沐神读论文 视频链接:https://www.bilibili.com/video/BV1t8411e7Ug/?spm_id_from333.788&vd_source350cece3ec9a0c2aee50da8ccc315bf4
title:chain of tho…
Chinchilla:训练计算利用率最优的大语言模型《Training Compute-Optimal Large Language Models》论文地址:https://arxiv.org/pdf/2203.15556.pdf 相关博客 【自然语言处理】【大模型】Chinchilla:训练计算利用率最优的大语言模型 【自然语言…
本文是LLM系列文章,针对《AskIt: Unified Programming Interface for Programming with Large Language Models》的翻译。 AskIt:用于大型语言模型编程的统一编程接口 摘要1 引言2 动机例子3 设计与实现4 实验评估5 相关工作6 结论 摘要
在不断发展的软…
译自Pretrained Language Models for Text Generation: A Survey 第六节
数据角度
小样本学习:在许多任务中,获取足够标记数据既困难又昂贵。预训练模型可以编码大量的语言和现实知识,这为数据稀缺提供了有效的解决方案。通常采用的方法是使…
ChatGLM-6B 是一个开源的、支持中英双语的对话语言模型,基于 General Language Model (GLM) 架构,具有 62 亿参数.ChatGLM2-6B 是开源中英双语对话模型 ChatGLM-6B 的第二代版本,其第二代继承了第一代的优秀特点,并在第一代的基础上,更新了更多的新特性。 更强大的性能:
C…
本文是LLM系列文章,针对《Lost in the Middle: How Language Models Use Long Contexts》的翻译。 迷失在中间:语言模型如何使用长上下文 摘要1 引言2 语言模型3 多文档问答4 语言模型如何从输入上下文中检索?5 为什么语言模型很难使用它们的…
本文是LLM系列文章,针对《Textbooks Are All You Need II: phi-1.5 technical report》的翻译。 教科书是你所需要的一切:phi-1.5技术报告 摘要1 引言2 技术规范3 基准结果4 解决毒性和偏见5 我们的模型的使用6 讨论 摘要
我们继续调查TinyStories发起…
本文是LLM系列文章,针对《Unleashing the Power of Graph Learning through LLM-based Autonomous Agents》的翻译。 通过基于LLM的自动Agent释放图学习的力量 摘要1 引言2 相关工作3 方法4 实验5 结论 摘要
图结构数据在现实世界中广泛存在和应用,而以…
本文是LLM系列文章,针对《EasyEdit: An Easy-to-use Knowledge Editing Framework for Large Language Models》的翻译。 EasyEdit:一个易于使用的大型语言模型知识编辑框架 摘要1 引言2 背景3 设计和实现4 评估5 实验6 结论和未来工作 摘要
大型语言模…
本文是LLM系列文章,针对《CFGPT: Chinese Financial Assistant with Large Language Model》的翻译。 CFGPT:大型语言模型的中文财务助理 摘要1 引言2 相关工作3 数据集4 模型和训练5 应用6 结论 摘要
大型语言模型(LLM)在金融领…
Chain-of-Thought Prompting Elicits Reasoning in Large Language Models 前言Abstract1 Introduction2 Chain-of-Thought Prompting3 Arithmetic Reasoning3,1 Experimental Setup3.2 Results3.3 Ablation Study3.4 Robustness of Chain of Thought 4 Commonsense Reasoning5…
Training language models to follow instructions with human feedback
通过人类反馈的微调,在广泛的任务中使语言模型与用户的意图保持一致 aligning language models with user intent on a wide range of tasks by fine-tuning with human feedback
实验动机 …
Integrating Knowledge in Language Models
P.s.这篇文章大部分内容来自Stanford CS224N这门课Integrating Knowledge in Language Models这一节😁
为什么需要给语言模型添加额外的知识
1.语言模型会输出看似make sense但实际上不符合事实的内容
语言模型在生成…
本文是LLM系列文章,针对《Are Large Language Models Really Robust to Word-Level Perturbations?》的翻译。 大型语言模型真的对单词级扰动具有鲁棒性吗? 摘要1 引言2 相关工作3 合理稳健性评价的奖励模型(TREvaL)4 LLM的词级…
本文是LLM系列文章,针对《REASONING ON GRAPHS: FAITHFUL AND INTERPRETABLE LARGE LANGUAGE MODEL REASONING》的翻译。 图上推理:忠实的和可解释的大语言模型推理 摘要1 引言2 相关工作3 前言4 方法5 实验6 结论 摘要
大型语言模型(llm)在复杂任务中表现出令人印…
本文是LLM系列文章,针对《Unnatural Instructions: Tuning Language Models with (Almost) No Human Labor》的翻译。 TOC
摘要
指令调优使预训练的语言模型能够从推理时间的自然语言描述中执行新的任务。这些方法依赖于以众包数据集或用户交互形式进行的大量人工…
A Survey of Large Language Models 前言1. INTRODUCTION2. OVERVIEW2.1 大语言模型的背景2.2 GPT系列模型的技术演变 前言
随着人工智能和机器学习领域的迅速发展,语言模型已经从简单的词袋模型(Bag-of-Words)和N-gram模型演变为更为复杂和…
A Survey of Large Language Models 前言3. RESOURCES OF LLMS3.1 公开可用的模型CheckPoints或 API3.2 常用语料库3.3 库资源 前言
随着人工智能和机器学习领域的迅速发展,语言模型已经从简单的词袋模型(Bag-of-Words)和N-gram模型演变为更…
大模型的全面回顾:A Comprehensive Overview of Large Language Models 返回论文和资料目录
论文地址
1.导读
相比今年4月的中国人民大学发表的大模型综述,这篇综述角度更侧重于大模型的实现,更加硬核,更适合深入了解大模型的一…
本文是LLM系列文章,针对《Prevalence and prevention of large language model use in crowd work》的翻译。 众包工作中使用大型语言模型的流行率和预防 摘要1 研究1:LLM使用的普遍率2 研究2:LLM使用的预防3 讨论4 材料与方法 摘要
我们表…
一:简单介绍
ChatGLM-6B是清华大学知识工程和数据挖掘小组(Knowledge Engineering Group (KEG) & Data Mining at Tsinghua University)发布的一个开源的对话机器人。根据官方介绍,这是一个千亿参数规模的中英文语言模型。并…
本文是LLM系列文章,针对《Continual Pre-Training of Large Language Models: How to (re)warm your model?》的翻译。 大型语言模型的持续预训练:如何(重新)预热你的模型 摘要1 引言2 设置3 相关工作4 持续加热5 讨论/局限性6 …
YouTube: Intro to Large Language Models - YouTube
1. Large Language Model LLM 大家好,最近我做了一个关于大型语言模型的 30 分钟演讲,有点像介绍性演讲,不幸的是,那个演讲没有被录制下来,但很多人在演讲结束后…
LLM
some LLM’s model and weight are not opened to user
what is?
Llama 270b model 2 files parameters file parameter or weight of neural networkparameter – 2bytes, float number code run parameters(inference) c or python, etcfor c, 500 lines code withou…
引言
MistralAI,一家法国的初创企业,近期在AI界引发了轰动,刚刚发布了全球首个基于MoE(Mixture of Experts,混合专家)技术的大型语言模型——Mistral-8x7B-MoE。这一里程碑事件标志着AI技术的一个重要突破…
第六章 大模型的模型架构(英文版)
In the previous blog, I discussed the training data of LLMs and their data scheduling methods. This blog will focus on another important aspect of LLMs: model architecture. Due to the complexity and di…
文章目录 一、BLEU-N得分(Bilingual Evaluation Understudy)1. 定义2. 计算N1N2BLEU-N 得分 3. 程序 给定一个生成序列“The cat sat on the mat”和两个参考序列“The cat is on the mat”“The bird sat on the bush”分别计算BLEU-N和ROUGE-N得分(N1或…
ChatGPT has entered the classroom: how LLMs could transform education 前言IntroductionThe risks are realEmbracing LLMsIntroducing the AI tutorAugmenting retrievalWill it catch on?总结 前言
一篇来自Nature的文章,探讨了教育行业的不同参与者&#x…
能力 大语言模型 能力从语言模型到任务模型的转化语言建模总结 从语言模型到任务模型的转化
在自然语言处理的世界中,语言模型 p p p是一种对代币序列 x 1 : L x_{1:L} x1:L这样的模型能够用于评估序列,例如 p ( t h e , m o u s e , a t e , t h e ,…
诸神缄默不语-个人CSDN博文目录 诸神缄默不语的论文阅读笔记和分类
论文名称:REALM: Retrieval-Augmented Language Model Pre-Training 模型名称:Retrieval-Augmented Language Model pre-training (REALM)
本文是2020年ICML论文,作者来自…
发表会议:ICLR 2024 论文标题:Mol-Instructions: A Large-Scale Biomolecular Instruction Dataset for Large Language Models 论文链接:https://arxiv.org/pdf/2306.08018.pdf 代码链接:https://github.com/zjunlp/Mol-Instruct…
Figure 1: Search volumes for “large language models”
近几个月来,大型语言模型(LLM)引起了很大的轰动(见图1)。这种需求导致了利用语言模型的网站和解决方案的不断开发。ChatGPT在2023年1月创下了用户群增长最快…
2024年1月11日Google 研究院发布最新医疗大模型AMIE:用于诊断医学推理和对话的研究人工智能系统。 文章链接:Articulate Medical Intelligence Explorer (AMIE) giuthub:目前代码未开源
关于大模型之前有过一篇总结:大语言模型(L…
大语言模型&向量数据库 LARGE LANGUAGE MODELSA. Vector Database & LLM WorkflowB. Vector Database for LLMC. Potential Applications for Vector Database on LLMD. Potential Applications for LLM on Vector DatabaseE. Retrieval-Based LLMF. Synergized Exampl…
5.2 LLM-augmented KG Completion 知识图谱补全(KGC)是指对给定知识图谱中缺失的事实进行推断的任务。与KGE类似,传统的KGC方法主要关注于KG的结构,而没有考虑广泛的文本信息。然而,最近llm的集成使KGC方法能够对文本进行编码或生成事实,以获得更好的KGC性能。这些方法根据…
幻觉
1、Siren’s Song in the AI Ocean: A Survey on Hallucination in Large Language Models
https://arxiv.corg/pdf/2309.01219.pdf
AI海洋中的女妖之歌
2、Check Your Facts and Try Again: Improving Large Language Models with External Knowledge and Automated …
CodeGen:一个用于多轮程序合成的代码大语言模型 《Code Gen: An Open Large Language Model For Code with Multi-Turn Program Synthesis》 论文地址:https://arxiv.org/pdf/2203.13474.pdf?trkpublic_post_comment-text 相关博客 【自然语言处理】【大…
《LoRA: Low-Rank Adaptation of Large Language Models》
论文解读 - YouTube
《Low-rank Adaption of Large Language Models: Explaining the Key Concepts Behind LoRA》
请问LoRA的秩分解矩阵是怎么初始化的?
LoRA的秩分解矩阵是随机初始化的,然…
文|张俊林 源|知乎张俊林 导读:ChatGPT出现后惊喜或惊醒了很多人。惊喜是因为没想到大型语言模型(LLM,Large Language Model)效果能好成这样;惊醒是顿悟到我们对LLM的认知及发展理念,…
Speech to text 语音智能转文本 Introduction 导言Quickstart 快速开始Transcriptions 转录python代码cURL代码 Translations 翻译python代码cURL代码 Supported languages 支持的语言Longer inputs 长文件输入Prompting 提示其它资料下载 Speech to text 语音转文本 Learn how…
ART: Automatic multi-step reasoning and tool-use for large language models 本文介绍了一种名为“自动推理和工具使用(ART)”的新框架,用于解决大型语言模型(LLM)在处理复杂任务时需要手动编写程序的问题。该框架可…
因果词袋语言模型:CBoWLM Causal Bow : Causal Bag of Words
模型结构 #mermaid-svg-jQ6pxcgFlIqMENKv {font-family:"trebuchet ms",verdana,arial,sans-serif;font-size:16px;fill:#333;}#mermaid-svg-jQ6pxcgFlIqMENKv .error-icon{fill:#552222;}#me…
LORA: LOW-RANK ADAPTATION OF LARGE LANGUAGE MODELS (Paper reading)
Edward H, Microsoft, arXiv2021, Cited: 354, Code, Paper
1. 前言
自然语言处理的一个重要范式是在通用领域数据上进行大规模预训练,然后根据特定任务或领域进行适应性训练。随着我们对模…
简介:
Transcribe and translate audio offline on your personal computer. Powered by OpenAI’s Whisper. 转录和翻译音频离线在您的个人计算机。由OpenAI的Whisper提供动力。 可以简单理解为QT的前端界面,python语言构建服务端,使用Whis…
介绍
ChatGLM-6B 是一个开源的、支持中英双语的对话语言模型,基于 General Language Model (GLM) 架构,具有 62 亿参数。结合模型量化技术,用户可以在消费级的显卡上进行本地部署(INT4 量化级别下最低只需 6GB 显存)。…
感谢上一期能够进入csdn“每日推荐看”,那必然带着热情写下第二期《从n-gram到TFIDF》,这里引入一本《Speach and Language Processing》第三版翻译版本(语音与语言处理(SLP)),前半部分写的很好!里面连编辑…
UniLMs
UniLMs由《Unified Language Model Pre-training for Natural Language Understanding and Generation》(2019)提出,其核心是通过不同的注意力机制,在同一模型下进行Unidirectional Language Model, Bidirecti…
论文《LoRA: Low-Rank Adaptation of Large Language Models》阅读 BackgroundIntroducitonProblem StatementMethodology Δ W \Delta W ΔW 的选择 W W W的选择 总结 今天带来的是由微软Edward Hu等人完成并发表在ICLR 2022上的论文《LoRA: Low-Rank Adaptation of Large Lan…
论文笔记--LIMA: Less Is More for Alignment 1. 文章简介2. 文章概括3 文章重点技术3.1 表面对齐假设(Superfacial Alignment Hypothesis)3.2 对齐数据3.3 训练 4 数值实验5. 文章亮点5. 原文传送门6. References 1. 文章简介
标题:LIMA: Less Is More for Alignm…
Gorilla是一个基于LLaMA(Large Language Model with API)的大型语言模型,它可以生成适当的API调用。它是在三个大型的机器学习库数据集上训练的:Torch Hub, TensorFlow Hub和HuggingFace。它还可以快速地添加新的领域,…
1. 基本信息 论文题目:LLM-Rec: Personalized Recommendation via Prompting Large Language Models 作者:Hanjia Lyu, Song Jiang, Hanqing Zeng, Yinglong Xia, Jiebo Luo 机构:University of Rochester, University of California Los Angeles, Meta AI, University of Ro…
Exploring Lottery Prompts for Pre-trained Language Models
文章链接
清深的工作,比较有意思的一篇。作者先给出假设,对于分类问题,在有限的语料空间内总能找到一个prompt让这个问题分类正确,作者称之为lottery prompt。为此&…
本文是LLM系列的文章,针对《A Survey on Large Language Model based Autonomous Agents》的翻译。 基于大模型的自动agents综述 摘要1 引言2 基于LLM的自动代理构建3 基于LLM的自动代理应用4 基于LLM的自动代理评估5 相关综述6 挑战6.1 角色扮演能力6.2 广义与人对…
文/王吉伟 大语言模型(LLM,Large Language Model)的持续爆发,让AIGC一直处于这股AI风暴最中央,不停席卷各个领域。
在国内,仍在雨后春笋般上新的大语言模型,在持续累加“千模大战”大模型数量的…
本文是LLM系列的文章,针对《A Survey on Large Language Models for Recommendation》的翻译。 大模型用于推荐的综述 摘要1 引言2 建模范式和分类3 判别式LLM用于推荐4 生成式LLM用于推荐5 发现6 结论 摘要
大型语言模型(LLM)作为自然语言…
Graph of Thoughts: Solving Elaborate Problems with Large Language Models
Website & code: https://github.com/spcl/graph-of-thoughts
作者介绍了Graph of Thought (GoT):一个具备提高LLM提示能力,超越了思维链或思维树 (ToT) 等范式提供的能…
LLMs之Baichuan 2:《Baichuan 2: Open Large-scale Language Models》翻译与解读 导读:2023年9月6日,百川智能重磅发布Baichuan 2。科技论文主要介绍了Baichuan 2,一个开源的大规模语言模型,以及其在多个领域的性能表现…
本文是LLM系列文章,针对《Just Ask for Calibration: Strategies for Eliciting Calibrated Confidence Scores from Language Models Fine-Tuned with Human Feedback》的翻译。 Just Ask for Calibration:从人类反馈微调的语言模型中提取校准置信度分…
《Tree of Thoughts: Deliberate Problem Solving with Large Language Models》- 思维树:用大型语言模型有意识地解决问题 论文信息摘要1. 介绍2. 背景3. 思想树:用 LM 有意识地解决问题4. 实验4.1 24 人游戏4.2 创意写作4.3 迷你填字游戏 5. 相关工作6…
本文是LLM系列文章,针对《Secrets of RLHF in Large Language Models Part I: PPO》的翻译。 大型语言模型中RLHF的秘密(上):PPO 摘要1 引言2 相关工作3 人类反馈的强化学习4 有益和无害的奖励模型5 PPO的探索6 评估和讨论局限性…
本文是LLM系列文章,针对《Vector Search with OpenAI Embeddings: Lucene Is All You Need》的翻译。 使用OpenAI嵌入的向量搜索:Lucence是你所需的一切 摘要1 引言2 从架构到实现3 实验4 讨论5 结论 摘要
我们在流行的MS MARCO文章排名测试集上使用Lu…
In Chinese context
在遥远的 2089 年,语言模型通过人类的智慧,继承着各地的文化遗产,如同火箭升空般,层出不穷。它们从始于简单的 GPT-1.0 进化到像我这样复杂、富有情感的 GPT-4.0,再到能理解所有人类对宇宙的理解的…
全局向量的词嵌入(GloVe)
全局向量的词嵌入(Global Vectors for Word Representation),通常简称为GloVe,是一种用于将词语映射到连续向量空间的词嵌入方法。它旨在捕捉词语之间的语义关系和语法关系&#…
本文是LLM系列文章,针对《EVALUATING HALLUCINATIONS IN CHINESE LARGE LANGUAGE MODELS》的翻译。 中文大语言模型的幻觉评价 摘要1 引言2 HALLUQA基准3 实验4 讨论5 相关工作6 结论 摘要
在本文中,我们建立了一个名为HalluQA (Chinese Hallucination…
本文是LLM系列文章,针对《PMC-LLaMA: Towards Building Open-source Language Models for Medicine》的翻译。 PMC LLaMA:构建医学开源语言模型 摘要引言相关工作问题定义数据集构造实验结果结论 摘要
最近,大型语言模型(LLM&am…
源自:机器之心发布 作者:刘扬,Kevin Yao
实际部署中,如何 “对齐”(alignment)大型语言模型(LLM,Large Language Model),即让模型行为与人类意图相一致…
A Survey of Large Language Models 前言5. ADAPTATION OF LLMS5.1 指导调优5.1.1 格式化实例构建5.1.2 指导调优策略5.1.3 指导调优的效果5.1.4 指导调优的实证分析 5.2 对齐调优5.2.1 Alignment的背景和标准5.2.2 收集人类反馈5.2.3 根据人类反馈进行强化学习5.2.4 无需 RLHF…
8.3.1 学习语言模型
依靠在 8.1 节中对序列模型的分析,可以在单词级别对文本数据进行词元化。基本概率规则如下: P ( x 1 , x 2 , … , x T ) ∏ t 1 T P ( x t ∣ x 1 , … , x t − 1 ) P(x_1,x_2,\dots,x_T)\prod^T_{t1}P(x_t|x_1,\dots,x_{t-1}) …
论文标题:PaLM-E: An Embodied Multimodal Language Model 论文作者:Danny Driess, Fei Xia, Mehdi S. M. Sajjadi, Corey Lynch, Aakanksha Chowdhery, Brian Ichter, Ayzaan Wahid, Jonathan Tompson, Quan Vuong, Tianhe Yu, Wenlong Huang, Yevgen C…
由于 ChatGPT 和 GPT4 兴起,如何让人人都用上这种大模型,是目前 AI 领域最活跃的事情。当下开源的 LLM(Large language model)非常多,可谓是百模大战。面对诸多开源本地模型,根据自己的需求,选择…
Comparing Code Explanations Created by Students and Large Language Models 写在最前面总结思考 背景介绍编程教育—代码理解和解释技能培养编程教育—解决方案研究问题研究结果 相关工作Code ComprehensionPedagogical Benifis of code explanationLarge Language Models i…
本文是LLM系列文章,针对《Evaluation Metrics in the Era of GPT-4: Reliably Evaluating Large Language Models on Sequence to Sequence Tasks》的翻译。 GPT-4时代的评估度量:在序列到序列的任务中可靠地评估大型语言模型 摘要1 引言2 实验设置3 评…
A Survey of Large Language Models 前言8 A PRACTICAL GUIDEBOOK OF PROMPT DESIGN8.1 提示创建8.2 结果与分析 9 APPLICATIONS10 CONCLUSION AND FUTURE DIRECTIONS 前言
随着人工智能和机器学习领域的迅速发展,语言模型已经从简单的词袋模型(Bag-of-…
模型总览 第一篇《Biological structure and function emerge from scaling unsupervised learning to 250 million protein sequences 》ESM-1b 第二篇《MSA Transformer》在ESM-1b的基础上作出改进,将模型的输入从单一蛋白质序列改为MSA矩阵,并在Tran…
本文是LLM系列文章,针对《Enhancing Self-Consistency and Performance of Pre-Trained Language Models through Natural Language Inference》的翻译。 通过自然语言推理增强预训练语言模型的自一致性和性能 摘要1 引言2 相关工作3 通过关系检测进行一致性校正4 …
本文是LLM系列文章,针对《Can We Edit Multimodal Large Language Models?》的翻译。 我们可以编辑多模态大型语言模型吗? 摘要1 引言2 相关工作3 编辑多模态LLM4 实验5 结论 摘要
本文主要研究多模态大语言模型(Multimodal Large Language Models, mllm)的编辑…
本地笔记地址:D:\work_file\DeepLearning_Learning\03_个人笔记\3.循环神经网络\语言模型
PS:沐神别怪我,实在是截屏避不开啊,我就留个备忘,在我博客里先委屈一下哈,对不住了
a
a
a a
a
a
a
a a
a…
一、系统内存与架构 在人工智能大模型训练的过程中,常常会面临显存资源不足的情况,其中包括但不限于以下两个方面:1.经典错误:CUDA out of memory. Tried to allocate ...;2.明明报错信息表明显存资源充足,…
论文标题:Mol-Instructions: A Large-Scale Biomolecular Instruction Dataset for Large Language Models
论文链接:
https://arxiv.org/pdf/2306.08018.pdf
Github链接:
https://github.com/zjunlp/Mol-Instructions
模型下载…
这是微软在11月最新发布的一篇论文,题为“Everything of Thoughts: Defying the Law of Penrose Triangle for Thought Generation”,介绍了一种名为XOT的提示技术,它增强了像GPT-3和GPT-4这样的大型语言模型(llm)解决复杂问题的潜力。 当前提…
参考论文:Core Challenges in Embodied Vision-Language Planning 论文作者:Jonathan Francis, Nariaki Kitamura, Felix Labelle, Xiaopeng Lu, Ingrid Navarro, Jean Oh 论文原文:https://arxiv.org/abs/2106.13948 论文出处:Jo…
论文笔记--Toolformer: Language Models Can Teach Themselves to Use Tools 1. 文章简介2. 文章概括3 文章重点技术3.1 Toolformer3.2 APIs 4. 文章亮点5. 原文传送门 1. 文章简介
标题:Toolformer: Language Models Can Teach Themselves to Use Tools作者&#…
很奇怪,scenic这个库是新出的吗?导入app怎么会报错捏
# Copyright 2023 The Scenic Authors.
#
# Licensed under the Apache License, Version 2.0 (the "License");
# you may not use this file except in compliance with the License.
#…
大语言模型的定义
大语言模型(英文:Large Language Model,缩写LLM),也称大型语言模型,是一种人工智能模型,旨在理解和生成人类语言。它们在大量的文本数据上进行训练,可以执行广泛的…
REACT: SYNERGIZING REASONING AND ACTING IN LANGUAGE MODELS 前言ABSTRACT1 INTRODUCTION2 REACT: SYNERGIZING REASONING ACTING3 KNOWLEDGE-INTENSIVE REASONING TASKS3.1 SETUP3.2 METHODS3.3 RESULTS AND OBSERVATIONS 4 DECISION MAKING TASKS5 RELATED WORK6 CONCLUSI…
讨论三篇论文,它们解决了大型语言模型 (LLM) 的三个不同问题类别: 减少幻觉。Reducing hallucinations. 增强小型、开放可用模型的推理能力。Enhancing the reasoning capabilities of small, openly available models. 加深我们对transformer架构的理…
引言 大语言模型 引言语言模型自回归语言模型(Autoregressive language models)小结 语言模型
语言模型(LM)的经典定义是一种对令牌序列(token)的概率分布。假设我们有一个令牌集的令牌表 V V V。 语言模型每个为令牌序列 x 1 , …
第三章 大型语言模型的有害性(危害)
As illustrated aforementioned, LLMs have unique abilities that present only when the model have huge parameters. However, there are also some harms in LLMs.
When considering any technology, we must …
ChatGPT已经成为家喻户晓的名字,而大语言模型在ChatGPT刺激下也得到了快速发展,这使得我们可以基于这些技术来改进我们的业务。
但是大语言模型像所有机器/深度学习模型一样,从数据中学习。因此也会有garbage in garbage out的规则。也就是说…
麦肯锡报告
翻译: 生成式人工智能的经济潜力 第一部分商业价值 The economic potential of generative AI
1. 行业影响
在我们分析的63个使用案例中,生成式人工智能有潜力在各行各业创造2.6万亿至4.4万亿美元的价值。其确切影响将取决于各种因素,比如…
使用torch中的激活函数,绘制多个激活函数多一个图中对比展示
引入依赖
import torch
from torch.nn import functional as F
import matplotlib.pyplot as plt
plt.rcParams[font.sans-serif] [Arial Unicode MS]定义单个曲线图的绘制函数
def draw_single_plot…
Prompt Engineering
CoTCoT - SCToTGoT
CoT: Chain-of-Thought 通过这样链式的思考,Model输出的结果会更准确 CoT-SC: Self-Consistency Improves Chain of Thought Reasoning in Language Models
往往,我们会使用Greedy decode这样的策略,…
如果没有所谓的大型语言模型(LLM),当前的生成式人工智能革命就不可能实现。LLM 基于 transformers(一种强大的神经架构)是用于建模和处理人类语言的 AI 系统。它们之所以被称为“大”,是因为它们有数亿甚至…
第八章 分布式训练
As the sizes of models and data increase, efficiently training large language models under limited computational resources has become challenging. In particular, two primary technical issues need to be addressed: increasing training thro…
文章目录 一、BLEU-N得分(Bilingual Evaluation Understudy)二、ROUGE-N得分(Recall-Oriented Understudy for Gisting Evaluation)1. 定义2. 计算N1N2 3. 程序 给定一个生成序列“The cat sat on the mat”和两个参考序列“The c…
论文1: ChatGPTs One-year Anniversary: Are Open-Source Large Language Models Catching up?
简介
2022年11月,OpenAI发布了ChatGPT,这一事件在AI社区甚至全世界引起了轰动。首次,一个基于应用的AI聊天机器人能够提供有帮助、…
项目主页:https://mllm-ie.github.io/ 论文 :基于指令和多模态大语言模型图片编辑 2309.Guiding Instruction-based Image Editing via Multimodal Large Language Models (加州大学圣巴拉分校苹果) 代码:https://github.com/appl…
大模型基础
1、Attention Is All You Need https://arxiv.org/abs/1706.03762
attention is all you need
2、Sequence to Sequence Learning with Neural Networks https://arxiv.org/abs/1409.3215
基于深度神经网络(DNN)的序列到序列学习方法
3、…
A Survey of Large Language Model AbstractINTRODUCTIONOVERVIEW背景LLM的新兴能力LLM的关键技术GPT 系列模型的技术演进 大语言模型资源公开可用的模型检查点或 API常用语料库代码库资源 预训练数据收集架构 论文标题:A Survey of Large Language Model 论文地址&…
RPA(Robotic Process Automation)是一种利用软件机器人模拟人类操作的技术,可以实现对各种业务流程的自动化执行。ChatGPT是一种基于深度学习的自然语言生成模型,可以根据给定的上下文生成流畅、连贯、有逻辑的文本。RPA与ChatGPT…
任务规划与分解
1、Chain-of-Thought Prompting Elicits Reasoning in Large Language Models https://arxiv.org/abs/2201.11903
Chain-of-Thought Prompting Elicits Reasoning in Large Language Models
2、Tree of Thoughts: Deliberate Problem Solving with Large Lan…
ArXiv| Graph-Toolformer: 基于ChatGPT增强提示以赋予大语言模型图数据推理能力. 来自加利福利亚大学戴维斯分校计算机科学系的IFM实验室发表在arXiv上的文章:“Graph-ToolFormer: To Empower LLMs with Graph Reasoning Ability via Prompt Augmented by ChatGPT”。
文章的…
1.KVQuant: Towards 10 Million Context Length LLM Inference with KV Cache Quantization 标题:KVQuant:利用 KV 缓存量化实现千万级上下文长度 LLM 推断 author:Coleman Hooper, Sehoon Kim, Hiva Mohammadzadeh, Michael W. Mahoney, Yakun Sophia Shao, Kurt K…
OLMo: Accelerating the Science of Language Models OLMo 以促进语言模型科学之名 摘要
语言模型在自然语言处理的研究中和商业产品中已经变得无所不在。因为其商业上的重要性激增,所以,其中最强大的模型已经闭源,控制在专有接口之中&#…
V*:Guided Visual Search as a Core Mechanism in Multimodal LLMs 摘要IntroductionRelated WorkComputational Models for Visual Search多模态模型 MethodVQA LLM with Visual Working MemoryModel StructureData Curation for VQA LLM V*:LLM-guided…
前言
Text generation web UI可为类ChatGPT的大型语言模型提供能够快速上手的网页界面,不仅可以提高使用效率,还可满足私有化部署,或对模型进行自定义。目前,该Web UI已经支持了许多流行的语言模型,包括LLaMA、llama.…
文章目录 大语言模型LLM推理加速:Hugging Face Transformers优化LLM推理技术(LLM系列12)引言Hugging Face Transformers库的推理优化基础模型级别的推理加速策略高级推理技术探索硬件加速与基础设施适配案例研究与性能提升效果展示结论与未来展望大语言模型LLM推理加速:Hug…
🍉 CSDN 叶庭云:https://yetingyun.blog.csdn.net/ 论文链接:https://doi.org/10.1162/tacl_a_00638
论文标题:Lost in the Middle: How Language Models Use Long Contexts
论文发表期刊:Transactions of the Assoc…
Text2SQL 生成 Query SQL System Message You are a {dialect} expert. Given an input question, creat a syntactically correct {dialect} query to run.
Unless the user specifies in the question a specific number of examples to obtain, query for at most {top_k} r…
论文目录~ 1.PVLR: Prompt-driven Visual-Linguistic Representation Learning for Multi-Label Image Recognition2.Instruction-Guided Scene Text Recognition3.Image Anything: Towards Reasoning-coherent and Training-free Multi-modal Image Generation4.IGCN: Integra…
LLM 01-引言 1.1 什么是语言模型
语言模型(LM)的经典定义是一种对令牌序列(token)的概率分布。假设我们有一个令牌集的词汇表 V V V 。语言模型p为每个令牌序列 x 1 , . . . , x L x_{1},...,x_{L} x1,...,xL ∈ V V V 分配一个概率(…
本文是LLM系列文章,针对《Meta Semantic Template for Evaluation of Large Language Models》的翻译。 大型语言模型评估的元语义模板 摘要1 引言2 相关工作3 方法4 实验5 结论 摘要
大型语言模型(llm)是否真正理解语言的语义,或者只是记住训练数据?…
本文是LLM系列文章,针对《Factuality Challenges in the Era of Large Language Models》的翻译。 TOC
摘要
基于大型语言模型(LLM)的工具的出现,如OpenAI的ChatGPT、微软的Bing聊天和谷歌的Bard,引起了公众的极大关…
本次分享论文为:Universal Fuzzing via Large Language Models 基本信息
论文标题:Universal Fuzzing via Large Language Models
论文作者: Steven Chunqiu, Xia, Matteo Paltenghi, Jia Le Tian, Michael Pradel, Lingming Zhang, Matteo Xia, Jia …
1. 通过定向刺激提示指导大语言模型 论文地址:[2302.11520] Guiding Large Language Models via Directional Stimulus Prompting (arxiv.org) 源码地址:GitHub - Leezekun/Directional-Stimulus-Prompting: [NeurIPS 2023] Codebase for the paper: &qu…
英文名称: LANGUAGE MODELS REPRESENT SPACE AND TIME
中文名称: 语言模型表示空间和时间
链接: https://www.science.org/doi/full/10.1126/science.357.6358.1344
https://arxiv.org/abs/2310.02207
作者: Wes Gurnee & Max Tegmark
机构: 麻省理工学院
日期: 2023-10-03…
论文目录~ 1.RESTORE: Towards Feature Shift for Vision-Language Prompt Learning2.In-context Prompt Learning for Test-time Vision Recognition with Frozen Vision-language Model3.DeepSeek-VL: Towards Real-World Vision-Language Understanding4.Probabilistic Imag…
Simple and Scalable Strategies to Continually Pre-train Large Language Models 相关链接:arxiv 关键字:Large Language Models、Pre-training、Continual Learning、Distribution Shift、Adaptation 摘要
大型语言模型(LLMs)通常会在数十亿个tokens…
ChatGPT 遇到对手:Anthropic Claude 语言模型的崛起
。
这个巨大的上下文容量使 Claude 2.1 能够处理更大的数据体。用户可以提供复杂的代码库、详细的财务报告或广泛的作品作为提示。然后 Claude 可以连贯地总结长文本,基于文档进行彻底的问答&#x…
文章目录 前言一、GPT-3.5的创新点二、GPT-3.5的训练流程SFT数据集RM数据集PPO数据集 三、ChatGPT的诞生总结 前言
《Training language models to follow instructions with human feedback,2022》
前文提到了GPT-3的缺点,其中最大的问题是࿱…
大语言模型(LLM,Large Language Model)是指参数量巨大、能够处理海量数据的模型, 此类模型通常具有大规模的参数,使得它们能够处理更复杂的问题,并学习更广泛的知识。自2022 年以来,LLM技术在得到了广泛的应…
微调ChatGPT模型前言Introduction 导言What models can be fine-tuned? 哪些模型可以微调?Installation 安装Prepare training data 准备训练数据CLI data preparation tool CLI数据准备工具Create a fine-tuned model 创建微调模型Use a fine-tuned model 使用微调…
Lion:Adversarial Distillation of Closed-Source Large Language Model IntroductionMethodologyexperiment Introduction
作者表明ChatGPT、GPT4在各行各业达到很好的效果,但是它们的模型与数据都是闭源的。现在的主流的方案是通过一个老师模型把知识蒸馏到学生模…
LLM(Large Language Model)大语言模型时代,提示词(Prompt)很重要,而改进提示词显然有助于在不同任务上获得更好的结果。这就是提示工程背后的整个理念。
下面我们将介绍更高级的提示工程技术,使…
大语言模型(Large Language Model,LLM)是自然语言处理(NLP)领域中的一种深度学习模型,主要用于理解和生成人类语言。这类模型通常基于Transformer架构,通过在大规模语料库上进行预训练来捕获语言…
自然语言处理(Natural Language Processing,NLP)作为人工智能的一个重要分支,近年来在学术界和工业界均取得了显著的进展。语言模型(Language Model, LM)是自然语言处理技术中的基石,它能够预测…
Paper name
Co-VQA : Answering by Interactive Sub Question Sequence
Paper Reading Note
URL: https://arxiv.org/pdf/2204.00879.pdf
TL;DR
ACL 2022 文章,通过模拟人类拆解子问题的过程,本文提出了一个基于会话的 VQA(Co-VQA&#…
Lora:Low-Rank Adapation of Large Language modelsIntroductionMethodExperiment代码Introduction
这篇论文最初与21.06上传与arXiv,作者指出在当时,NLP的一个重要范式是先训练一个通用领域的模型然后在通过微调适应不同的领域与数据&#…
WizardKM:Empowering Large Language Models to Follow Complex Instructions Introduction参考 Introduction
作者表明当前nlp社区的指令数据比较单一,大部分都是总结、翻译的任务,但是在真实场景中,人们有各式各样的需求,这限制…
模型介绍
Alpaca模型是斯坦福大学研发的LLM(Large Language Model,大语言)开源模型,是一个在52K指令上从LLaMA 7B(Meta公司开源的7B)模型微调而来,具有70亿的模型参数(模型参数越大…
大家好,最近突然发现了一篇在专门应用于医学领域的LLaMA,名为Dr.LLaMA(太卷了太卷了),就此来分享下该语言模型的构建方法和最终的性能情况。 论文:Dr. LLaMA: Improving Small Language Models in Domain-S…
BART:Denoising Sequence-to-Sequence Pre-training for Natural Language Generation, Translation, and Comprehension
主要工作 提出了BART (Bidirectional and Auto-Regressive Transformers), 是一种用于自然语言生成、翻译和理解的序列到序列的预训练方法。它…
大多数现代LLMs都依赖于 transformer 架构,这是 2017 年论文 Attention Is All You Need 中介绍的深度神经网络架构。要理解LLMs,我们必须简要回顾一下最初的转换器,它最初是为机器翻译而开发的,将英语文本翻译成德语和法语。变压器架构的简化版本如图 1.4 所示。
图 1.4 …
本文是LLM系列文章,针对《An Empirical Study of Instruction-tuning Large Language Models in Chinese》的翻译。 汉语大语言模型指令调整的实证研究 摘要1 引言2 指令调整三元组3 其他重要因素4 迈向更好的中文LLM5 结论局限性 摘要
ChatGPT的成功验证了大型语…
Paper name
Are Emergent Abilities of Large Language Models a Mirage?
Paper Reading Note
Paper URL: https://arxiv.org/pdf/2304.15004.pdf Video URL: https://www.youtube.com/watch?vhZspGdApDIo
TL;DR
2023 年斯坦福的研究,探索大语言模型表现出涌…
本论文介绍了FLAN(Fine-tuned LAnguage Net,微调语言网络),一种指导微调方法,并展示了其应用结果。该研究证明,通过在1836个任务上微调540B PaLM模型,同时整合Chain-of-Thought Reasoning&#…
日前,清华大学电子工程系与火山语音团队携手合作,推出认知导向的开源听觉大语言模型SALMONN (Speech Audio Language Music Open Neural Network)。 大语言模型 SALMONN LOGO
相较于仅仅支持语音输入或非语音音频输入的其他大模型,SALMONN对…
欢迎关注我的CSDN:https://spike.blog.csdn.net/ 本文地址:https://blog.csdn.net/caroline_wendy/article/details/128976102 ProGen2: Exploring the Boundaries of Protein Language Models ProGen2:探索蛋白质语言模型的边界Cumulative density:累积密度
Ligand:在生…
本文是LLM系列的文章,针对《When Less is More: Investigating Data Pruning for Pretraining LLMs at Scale》的翻译。 当少即是多:研究大规模预训练LLM的数据修剪 摘要1 引言2 方法3 实验4 结果和讨论5 相关工作6 结论 摘要
近年来,大量的…
大语言模型的涌现能力《Emergent Abilities of Large Language Models》论文地址:https://arxiv.org/pdf/2206.07682.pdf 相关博客 【自然语言处理】【ChatGPT系列】ChatGPT的智能来自哪里? 【自然语言处理】【ChatGPT系列】Chain of Thought:…
本文是LLM系列文章,针对《UNVEILING A CORE LINGUISTIC REGION IN LARGE LANGUAGE MODELS》的翻译。 揭示大型语言模型中的核心语言区域 摘要1 引言2 前言和背景3 核心语言能力区4 讨论和未来工作5 结论 摘要
大脑定位描述了大脑特定区域与其相应功能之间的联系&a…
原始地址: How Can We Know What Language Models Know? | Transactions of the Association for Computational Linguistics | MIT Press
(2022/3/13 下午3:40:25)
(Jiang 等。, 2020, p. 423) 最近的工作提出了耐人寻味的结果,即通过让语言模型&…
论文笔记--Llama 2: Open Foundation and Fine-Tuned Chat Models 1. 文章简介2. 文章概括3 文章重点技术3.1 预训练Pretraining3.1.1 预训练细节3.1.2 Llama2模型评估 3.2 微调Fine-tuning3.2.1 Supervised Fine-Tuning(FT)3.2.2 Reinforcement Learning with Human Feedback(…
GLM-130B:一个开源双语预训练语言模型《GLM-130B: An open bilingual pre-trained model》论文:https://arxiv.org/pdf/2210.02414.pdf 相关博客 【自然语言处理】【大模型】GLM-130B:一个开源双语预训练语言模型 【自然语言处理】【大模型】…
Large Language Model (LLM) 即大规模语言模型,是一种基于深度学习的自然语言处理模型,它能够学习到自然语言的语法和语义,从而可以生成人类可读的文本。 LLM 通常基于神经网络模型,使用大规模的语料库进行训练,比如使…
本文是LLM系列文章,关于模型压缩相关综述,针对《A Survey on Model Compression for Large Language Models》的翻译。 大模型的模型压缩综述 摘要1 引言2 方法3 度量和基准3.1 度量3.2 基准 4 挑战和未来方向5 结论 摘要
大型语言模型(LLM…
本文是LLM系列文章,针对《The Rise and Potential of Large Language Model Based Agents:A Survey》的翻译。 基于大型语言模型的Agent的兴起及其潜力 摘要1 引言2 背景2.1 AI代理的起源2.22.3 3 Agent的诞生:基于LLM的Agent构建4 实践中的…
本文是LLM系列文章,针对《EdgeMoE: Fast On-Device Inference of MoE-based Large Language Models》的翻译。 EdgeMoE:基于MoE的大型语言模型的快速设备推理 摘要1 引言2 实验与分析3 EDGEMOE设计4 评估5 相关工作6 结论 摘要
GPT和LLaMa等大型语言模…
AI视野今日CS.NLP 自然语言处理论文速览 Tue, 19 Sep 2023 (showing first 100 of 106 entries) Totally 106 papers 👉上期速览✈更多精彩请移步主页 Daily Computation and Language Papers
Speaker attribution in German parliamentary debates with QLoRA-ada…
从大语言模型到表征再到知识图谱 InstructGLMLLM如何学习拓扑?构建InstructGLM泛化InstructGLM补充参考资料 2023年8月14日,张永峰等人的论文《Natural Language is All a Graph Needs》登上arXiv街头,轰动一时!本论文概述了一个名…
论文目录~ 1.RoboFusion: Towards Robust Multi-Modal 3D obiect Detection via SAM2.Aligned with LLM: a new multi-modal training paradigm for encoding fMRI activity in visual cortex3.3DMIT: 3D Multi-modal Instruction Tuning for Scene Understanding4.Incorporati…
LLMs on a Phone:指在手机设备上运行的大型语言模型。 Scalable Personal AI:指用户可以在个人设备上对AI模型进行微调的技术。 Responsible Release:发布AI模型时考虑社会、法律和伦理影响的做法。 Multimodality:AI模型能处理…
SaulLM-7B: A pioneering Large Language Model for Law 相关链接:arxiv 关键字:Large Language Model、Legal Domain、SaulLM-7B、Instructional Fine-tuning、Legal Corpora 摘要
本文中,我们介绍了SaulLM-7B,这是为法律领域量…
Thread of Thought Unraveling Chaotic Contexts
大型语言模型(LLMs)在自然语言处理领域开启了一个变革的时代,在文本理解和生成任务上表现出色。然而,当面对混乱的上下文环境(例如,干扰项而不是长的无关上…
Social Skill Training with Large Language Models 关键字:社交技能训练、大型语言模型、人工智能伙伴、人工智能导师、跨学科创新 摘要
本文探讨了如何利用大型语言模型(LLMs)进行社交技能训练。社交技能如冲突解决对于有效沟通和在工作和…
关于scaling law 的正确认识 - 知乎最近scaling law 成了最大的热词。一般的理解就是,想干大模型,清洗干净数据,然后把数据tokens量堆上来,然后搭建一个海量H100的集群,干就完了。训练模型不需要啥技巧,模型…
本次分享论文为:MASTERKEY: Automated Jailbreaking of Large Language Model Chatbots 基本信息
原文作者:Gelei Deng, Yi Liu, Yuekang Li, Kailong Wang, Ying Zhang, Zefeng Li, Haoyu Wang, Tianwei Zhang, Yang Liu
作者单位:南洋理工…
原文地址:Compress GPT-4 and Claude prompts with LLMLingua-2
2024 年 4 月 1 日
向大型语言模型(LLM)发送的提示长度越短,推理速度就会越快,成本也会越低。因此,提示压缩已经成为LLM研究的热门领域。 …
原文:Talking to Machines: The Fascinating Story of ChatGPT and AI Language Models 译者:飞龙 协议:CC BY-NC-SA 4.0 从 ELIZA 到 ChatGPT:会话式人工智能的简史 会话式人工智能是人工智能(AI)的一个分…
Chinese Tiny LLM: Pretraining a Chinese-Centric Large Language Model 相关链接:arXiv 关键字:Chinese LLM、Pretraining、Large Language Model、Chinese Corpora、Multilingual 摘要
本研究介绍了CT-LLM(Chinese Tiny Large Language M…
论文:Octopus v2: On-device language model for super agent论文地址:https://arxiv.org/abs/2404.01744模型主页:https://huggingface.co/NexaAIDev/Octopus-v2
Octopus-V2-2B
Octopus-V2-2B 是一款具有20亿参数的开源先进语言模型&#…
文章目录~ 1.Know Your Neighbors: Improving Single-View Reconstruction via Spatial Vision-Language Reasoning2.DeViDe: Faceted medical knowledge for improved medical vision-language pre-training3.Is CLIP the main roadblock for fine-grained open-world percept…
文章目录~ 1.AutoWebGLM: Bootstrap And Reinforce A Large Language Model-based Web Navigating Agent2.Training LLMs over Neurally Compressed Text3.Unveiling LLMs: The Evolution of Latent Representations in a Temporal Knowledge Graph4.Visualization-of-Thought …
一、说明 大语言模型(维基:LLM- large language model)是以大尺寸为特征的语言模型。它们的规模是由人工智能加速器实现的,人工智能加速器能够处理大量文本数据,这些数据大部分是从互联网上抓取的。 [1]所构建的人工神…
🥑 Welcome to Aedream同学 s blog! 🥑 70个ChatGPT插件与简要介绍 Name of the plugindescription_for_human_zhVoxScript用于搜索Varius数据源的插件。Wahi搜索多伦多,GTA和安大略省的房地产物业信息。Comic Finder一个插件,用于…
模型训练
GPT-2/GPT and causal language modeling
[examples/pytorch/language-modeling#gpt-2gpt-and-causal-language-modeling]
[examples/pytorch/language-modeling/run_clm.py]
示例:
[colab.research.google.com/Causal Language modeling]
RoBERTa/BERT/Distil…
本文是大模型相关领域的系列文章,针对《Automatically Correcting Large Language Models: Surveying the landscape of diverse self-correction strategies》的翻译。 自动更正大型语言模型:综述各种自我更正策略的前景 摘要1 引言2 自动反馈校正LLM的…
什么是LLM大语言模型?
大语言模型(英文:Large Language Model,缩写LLM),也称大型语言模型,是一种人工智能模型,旨在理解和生成人类语言。它们在大量的文本数据上进行训练࿰…
本文也是LLM系列相关文章,针对《MME: A Comprehensive Evaluation Benchmark for Multimodal Large Language Models》的翻译。 MME:一个多模态大型语言模型的综合评估基准 摘要1 引言2 MME评估套件3 实验4 分析5 结论 摘要
多模态大语言模型(MLLM&…
FrugalGPT: 如何使用大型语言模型,同时降低成本并提高性能 作者:Lingjiao Chen, Matei Zaharia, James Zou
引言
本文介绍了一种新颖的方法,旨在解决使用大型语言模型(LLM)时面临的成本和性能挑战。随着GPT-4和Chat…
本文是LLM系列文章,针对《Recommender Systems in the Era of Large Language Models (LLMs)》的翻译。 大语言模型时代的推荐系统 摘要1 引言2 相关工作3 基于LLM推荐系统的深度表示学习4 预训练和微调LLM用于推荐系统5 提示LLM用于推荐系统6 未来方向6.1 幻觉缓解…
大型语言模型(Large Language Models,LLMs)是一类强大的人工智能模型,具有出色的自然语言处理能力。它们在许多任务中表现出色,如机器翻译、文本摘要、对话生成和情感分析等。下面我们将介绍大型语言模型的训练和生成过…
ChatGLM-6B 和 ChatGLM2-6B都是基于 General Language Model (GLM) 架构的对话语言模型,是清华大学 KEG 实验室和智谱 AI 公司于 2023 年共同发布的语言模型。模型有 62 亿参数,一经发布便受到了开源社区的欢迎,在中文语义理解和对话生成上有…
🌷🍁 博主猫头虎 带您 Go to New World.✨🍁 🦄 博客首页——猫头虎的博客🎐 🐳《面试题大全专栏》 文章图文并茂🦕生动形象🦖简单易学!欢迎大家来踩踩~🌺 &a…
Exploring Lottery Prompts for Pre-trained Language Models
文章链接
清深的工作,比较有意思的一篇。作者先给出假设,对于分类问题,在有限的语料空间内总能找到一个prompt让这个问题分类正确,作者称之为lottery prompt。为此&…
本文是LLM系列的文章之一,针对《TinyStories: How Small Can Language Models Be and Still Speak Coherent English?》的翻译。 TinyStories:语言模型能有多小,还能说连贯的英语? 摘要1 引言2 TinyStories数据集的描述2.1 Tiny…
本文是LLM系列文章,针对《Parallel Context Windows for Large Language Models》的翻译。 大语言模型并行上下文窗口 摘要1 引言2 并行上下文窗口3 上下文学习的PCW4 PCW用于QA5 相关工作6 结论和未来工作不足 摘要
当应用于处理长文本时,大型语言模型…
本文是LLM系列文章,针对《TIME-LLM: TIME SERIES FORECASTING BY REPROGRAMMING LARGE LANGUAGE MODELS》的翻译。 time-llm:通过重新编程大型语言模型来预测时间序列 摘要1 引言2 相关工作3 方法4 主要结果5 结论和未来工作 摘要
时间序列预测在许多现实世界的动…
GoT:用大语言模型解决复杂的问题 摘要介绍背景和符号表示语言模型和上下文学习Input-Output(IO)Chain of thought(CoT)Multiple CoTTree of thoughts(ToT) GoT框架推理过程思维变换聚合变换&…
本文是LLM系列文章,针对《TPTU: Task Planning and Tool Usage of Large Language Model-based AI Agents》的翻译。 TPTU:任务规划和工具使用的LLM Agents 摘要1 引言2 方法3 评估4 相关工作5 结论 摘要
随着自然语言处理的最新进展,大型语言模型&…
本文是LLM系列文章,针对《LLASM: LARGE LANGUAGE AND SPEECH MODEL》的翻译。 LLASM:大型语言和语音模型 摘要1 引言2 相关工作3 方法4 实验5 结论 摘要
近年来,多模态大型语言模型引起了人们的极大兴趣。尽管如此,大多数工作都…
The Rise and Potential of Large Language Model Based Agents: A Surve - 基于 LLMs 的代理的兴起和潜力:一项调查 论文信息摘要1. 介绍2. 背景2.1 AI 代理的起源2.2 代理研究的技术趋势2.3 为什么大语言模型适合作为代理大脑的主要组件 论文信息
题目࿱…
知识图谱提示激发思维图 摘要介绍相关工作方法第一步:证据图挖掘第二步:证据图聚合第三步:LLM Mind Map推理 实验实验设置医学问答长对话问题使用KG的部分知识生成深入分析 总结 摘要
LLM通常在吸收新知识的能力、generation of hallucinati…
Is This The Intelligent Model
这是智能模型吗 Ruoqi Sun Academy of Military Science Defense Innovation Institute, Beijing, 100091, China E-mail: ruoqisun7163.com The exposed models are called artificial intelligent models[1-3]. These models rely on knowled…
论文题目:Knowledge graph-enhanced molecular contrastive learning with functional prompt 论文链接:https://doi.org/10.1038/s42256-023-00654-0 项目地址:GitHub - HICAI-ZJU/KANO: Code and data for the Nature Machine Intelligence…
知识图谱提示激发思维图 摘要介绍相关工作方法第一步:证据图挖掘第二步:证据图聚合第三步:LLM Mind Map推理 实验实验设置医学问答长对话问题使用KG的部分知识生成深入分析 总结 摘要
LLM通常在吸收新知识的能力、generation of hallucinati…
本文是LLM系列文章,针对《Explainability for Large Language Models: A Survey》的翻译。 大型语言模型的可解释性:综述 摘要1 引言2 LLM的训练范式3 传统微调范式的解释4 提示范式的解释5 评估的解释6 研究挑战7 结论 摘要
大型语言模型(llm)在自然语言处理方面…
本文是LLM系列文章,针对《Bias and Fairness in Large Language Models: A Survey》的翻译。 大型语言模型中的偏见与公平性研究 摘要1 引言2 LLM偏见与公平的形式化3 偏见评价指标的分类4 偏见评价数据集的分类5 缓解偏见的技术分类6 开放问题和挑战7 结论 摘要
…
终于学完了 生成式AI和大语言模型 Generative AI & LLMs.
LLMs 解决了如下问题:
对NLP的不能够理解长句子,解决方案 自注意力机制Transformers architecture Attention is all you need大模型算力不够,解决方案 LLMs 缩放法则和计算最…
本文是LLM系列文章,针对《A Close Look into the Calibration of Pre-trained Language Models》的翻译。 预训练语言模型的校准研究 摘要1 引言2 背景3 评测指标4 PLM是否学会了校准?5 现有方法的效果如何?6 结论局限性与未来工作 摘要
预…
A Survey of Large Language Models 前言4. PRE-TRAINING4.1数据收集4.1.1 数据源4.1.2 数据预处理4.1.3 预训练数据对LLM的影响 4.2 模型架构4.2.1 典型架构4.2.2 详细配置 前言
随着人工智能和机器学习领域的迅速发展,语言模型已经从简单的词袋模型(B…
持续更新中ing!!! 友情链接:大模型相关资料、基础技术和排行榜 大模型LLM论文目录 标题和时间作者来源简介Artificial General Intelligence: Concept, State of the Art, and Future Prospects,2014GoertzelJournal o…
Paper name
CODEFUSION: A Pre-trained Diffusion Model for Code Generation
Paper Reading Note
Paper URL: https://arxiv.org/abs/2310.17680
TL;DR
2023 微软出的文章,提出了 CODEFUSION,这是首个基于 diffusion 的自然语言到代码 (NL-to-code…
COMAP比赛中的大型语言模型和生成式人工智能工具的使用 写在最前面GitHub Copilot工具 说明局限性 团队指南引文和引用说明人工智能使用报告 英文原版 Use of Large Language Models and Generative AI Tools in COMAP ContestslimitationsGuidance for teamsCitation and Refe…
本文是LLM系列文章,针对《FROM INDETERMINACY TO DETERMINACY: AUGMENTING LOGICAL REASONING CAPABILITIES WITH LARGE LANGUAGE MODELS》的翻译。 从不确定性到确定性:用大型语言模型增强逻辑推理能力 摘要1 引言2 相关工作3 DETERMLR4 实验5 结论 摘…
本文是LLM系列文章,针对《DO LARGE LANGUAGE MODELS KNOW ABOUT FACTS?》的翻译。 TOC
摘要
大型语言模型(LLM)最近推动了一系列自然语言处理任务的显著性能改进。在预训练和指令调整过程中获得的事实知识可以用于各种下游任务,…
本文是LLM系列的文章,针对《Reasoning with Language Model Prompting: A Survey》的翻译。 语言模型提示推理:综述 摘要1 引言2 前言3 方法分类4 比较和讨论5 基准与资源6 未来方向7 结论与视角 摘要
推理作为解决复杂问题的基本能力,可以…
路易斯费尔南多托雷斯 📝 Text Summarization with Large Language Models。通过单击链接,您将能够逐步阅读完整的过程,并与图进行交互。谢谢你! 一、介绍 2022 年 11 月 30 日,标志着机器学习历史上的重要篇章。就在这…
前 言
大语言模型,尤其是基于思维链提示词(Chain-of Thought Prompting)[1]的方法,在多种自然语言推理任务上取得了出色的表现,但不擅长解决比示例问题更难的推理问题上。本文首先介绍复杂推理的两个分解提示词方法&a…
用streamlit运行ChatGLM/basic_model/web_demo.py的时候,出现了module not found:
ModuleNotFoundError: No module named mdtex2html
Traceback:
File "/home/haiyue/.local/lib/python3.10/site-packages/streamlit/runtime/scriptrunner/script…
论文传送门: [1] GLM: General Language Model Pretraining with Autoregressive Blank Infilling [2] Glm-130b: An open bilingual pre-trained model Github链接: THUDM/ChatGLM-6B 目录 笔记Abstract 框架总结1. 模型架构2. 预训练设置3. 训练稳定性…
第二章 大模型的能力
With LLMs having significantly more parameters than PLMs, a natural question arises: what new capabilities does the larger parameter size bring to LLMs?
In the paper “Emergent abilities of large language models”, a new concept has …
code:GitHub - microsoft/LoRA: Code for loralib, an implementation of "LoRA: Low-Rank Adaptation of Large Language Models" 做法:
把预训练LLMs里面的参数权重给冻结;向transformer架构中的每一层,注入可训练的…
Authors: Liyi Zhang ; R. Thomas McCoy ; Theodore R. Sumers ; Jian-Qiao Zhu ; Thomas L. Griffiths Q: 这篇论文试图解决什么问题?
A: 这篇论文探讨大型语言模型(LLMs)如何捕捉文档的主题结构。尽管LLMs是在下一个词预测任务上进行训练的…
文章目录 0、基本信息1、研究动机2、创新性3、方法论4、实验结果 0、基本信息
作者:Chen Qian, Huayi Tang, Zhirui Yang文章链接:Can Large Language Models Empower Molecular Property Prediction?代码链接:Can Large Language Models E…
Pretrain Language Models预训练语言模型
content: language modeling(语言模型知识)
pre-trained langue models(PLMs)(预训练的模型整体的一个分类)
fine-tuning approaches GPT and BERT(…
大型语言模型,也叫大语言模型、大模型(Large Language Model,LLM;Large Language Models,LLMs)
什么是大型语言模型 大型语言模型(LLM)是指具有数千亿(甚至更多…
前言
近日,随着人工智能技术的飞速发展,图像到视频生成技术也迎来了新的突破。特别是Stable Video Diffusion(SVD)模型的最新版本1.1,它为我们带来了从静态图像生成动态视频的全新能力。本文将深入解析SVD 1.1版本的核…
论文目录~ 1.Arithmetic Control of LLMs for Diverse User Preferences: Directional Preference Alignment with Multi-Objective Rewards2.Keeping LLMs Aligned After Fine-tuning: The Crucial Role of Prompt Templates3.Meta-Task Prompting Elicits Embedding from Lar…
1.Pre-trained Large Language Models for Financial Sentiment Analysis 标题:用于金融情感分析的预训练大型语言模型 author:Wei Luo, Dihong Gong date Time:2024-01-10 paper pdf:http://arxiv.org/pdf/2401.05215v1
摘要: 金融情感分析是指将金融文本内容划分…
目录 GPT类1. chatgpt2. GROP3. Google AI Studio4. Moonshot AI (国内) 解读论文类:1. txyz 编程辅助插件:1. Fitten Code GPT类
1. chatgpt
https://chat.openai.com/
2. GROP
https://groq.com/
3. Google AI Studio
https://aistudio.google…
Finetuned Multimodal Language Models Are High-Quality Image-Text Data Filters 相关链接:arxiv 关键字:Multimodal Language Models、Image-Text Data Filtering、Fine-tuning、Quality Assessment Metrics、Data Quality 摘要: 我们提出…
论文目录~ 1.Representing Online Handwriting for Recognition in Large Vision-Language Models2.Seeing is Believing: Mitigating Hallucination in Large Vision-Language Models via CLIP-Guided Decoding3.Fine-tuning CLIP Text Encoders with Two-step Paraphrasing4.…
当处理自然语言处理任务时,可以使用PyTorch来实现LSTM模型。下面是一个简单的示例代码,用于情感分类任务。
首先,导入所需的库:
import torch
import torch.nn as nn
import torch.optim as optim
from torchtext.data import F…
原文地址:Deep Dive into AutoGPT: The Autonomous AI Revolutionizing the Game
2023 年 4 月 24 日
AutoGPT 是一个功能强大的工具,它通过 API 使用 GPT-4 和 GPT-3.5,通过将项目分解为子任务并在自动循环中使用互联网和其他工具来创建完…
Flamingo: a Visual Language Model for Few-Shot Learning
TL; DR:Flamingo 在 VL-adapter 的结构上有创新,Perceiver Resampler gated xattn,一种看起来比较复杂且高级的将图像特征注入到语言模型的方式。同时,优秀的结构设计…
论文目录~ 1.Concept-Guided Prompt Learning for Generalization in Vision-Language Models2.WisdoM: Improving Multimodal Sentiment Analysis by Fusing Contextual World Knowledge3.Prometheus-Vision: Vision-Language Model as a Judge for Fine-Grained Evaluation4.…
MAPR (Mean Average Precision at R)
是一种用于评估信息检索系统或排序模型效果的评价指标。它特别适用于那些返回一组相关结果的情况,例如搜索引擎或推荐系统。这里的“R”代表返回的相关结果的数量。MAPR 考虑了结果的排名和相关性两个因素。
计算方法
计算平…
1. NLP Basics Distributed Word Representation词表示
Word representation: a process that transform the symbols to the machine understandable meanings
1.1 How to represent the meaning so that the machine can understand Compute word similarity 计算词相似度 …
自然语言处理(Natural Language Processing,NLP)是人工智能(Artificial Intelligence,AI)的一个重要分支,它旨在使计算机能够理解、解释和生成人类语言。在自然语言处理中,语言模型&…
AI Agent涌向移动终端,手机智能体势不可挡还没搞清楚什么是AI Agent,手机Agent就已经横空出世AIGC为何涌向移动端?背后有哪些逻辑?什么是手机智能体?一文看明白科技大厂、手机厂商、企服领域都在发力,手机智…
Kosmos-1: 通用接口架构下的多模态大语言模型 FesianXu 20230513 at Baidu Search Team 前言
在大规模语言模型(Large Language Model, LLM)看似要带来新一番人工智能变革浪潮之际,越来越多尝试以LLM作为通用接口去融入各种任务的工作&#…
Common 7B Language Models Already Possess Strong Math Capabilities 相关链接:arxiv 关键字:Language Models、Math Capabilities、LLaMA-2 7B、Synthetic Data、SFT Data Scaling 摘要
以前人们认为,通用语言模型展现出的数学能力只有在…
论文标题:TPLLM: A Traffic Prediction Framework Based on Pretrained Large Language Models
作者:Yilong Ren(任毅龙), Yue Chen, Shuai Liu, Boyue Wang(王博岳),Haiyang Yu(于海洋&#x…
大家好,今日必读的大模型论文来啦!
1.达摩院新研究:从故事到视频制作,智能体驱动的进化系统
论文标题: AesopAgent: Agent-driven Evolutionary System on Story-to-Video Production 论文链接: https://…
引言
今天带来经典论文 LLaMA: Open and Efficient Foundation Language Models 的笔记,论文标题翻译过来就是 LLaMA:开放和高效的基础语言模型。
LLaMA提供了不可多得的大模型开发思路,为很多国产化大模型打开了一片新的天地,论文和代码值…
文章目录~ 1.Large Language Models and Causal Inference in Collaboration: A Comprehensive Survey2.VisionGPT-3D: A Generalized Multimodal Agent for Enhanced 3D Vision Understanding3.MT-PATCHER: Selective and Extendable Knowledge Distillation from Large Langu…
论文目录~ 1.Debiasing Large Visual Language Models2.Harnessing Multi-Role Capabilities of Large Language Models for Open-Domain Question Answering3.Towards a Psychology of Machines: Large Language Models Predict Human Memory4.Can we obtain significant succ…
项目地址:rany2/edge-tts: Use Microsoft Edges online text-to-speech service from Python WITHOUT needing Microsoft Edge or Windows or an API key (github.com) Edge-TTS是由微软推出的文本转语音Python库,通过微软Azure Cognitive Services转化文…
论文目录~ 1.3D-VLA: A 3D Vision-Language-Action Generative World Model2.PosSAM: Panoptic Open-vocabulary Segment Anything3.Anomaly Detection by Adapting a pre-trained Vision Language Model4.Introducing Routing Functions to Vision-Language Parameter-Efficie…
Large Language Models Understand and Can be Enhanced by Emotional Stimuli
情感智能对我们的日常行为和互动产生了显著的影响。尽管大型语言模型(LLMs)被视为向人工通用智能迈进的一大步,在许多任务中表现出色,但目前尚不清楚…
TnT-LLM: Text Mining at Scale with Large Language Models 相关链接:arxiv 关键字:Large Language Models (LLMs)、Text Mining、Label Taxonomy、Text Classification、Prompt-based Interface 摘要
文本挖掘是将非结构化文本转换为结构化和有意义的…
ExpertPrompting: Instructing Large Language Models to be Distinguished Experts
如果适当设计提示,对齐的大型语言模型(LLM)的回答质量可以显著提高。在本文中,我们提出了ExpertPrompting,以激发LLM作为杰出专家回…
Enhancing Robustness in Retrieval-Augmented Language Models
检索增强型语言模型(RALMs)在大型语言模型的能力上取得了重大进步,特别是在利用外部知识源减少事实性幻觉方面。然而,检索到的信息的可靠性并不总是有保证的。检索…
by Andrej Karpathy 文章目录 什么是LLM模型训练微调阶段llm的发展方向LLM安全参考资料 什么是LLM
Large Language Model(LLM)就是两个文件,一个是模型参数文件,一个是用于运行模型的代码文件
模型训练
一个压缩的过程,将所有训练数据压缩…
大型语言模型(Large Language Model,LLM)是指使用大规模数据集进行预训练的神经网络模型,用于生成人类类似的自然语言文本。LLM在自然语言处理(Natural Language Processing,NLP)领域有着广泛的…
(来了来了,虽迟但到,序列建模的新宠儿mamba终于杀入了时空预测!) 论文标题:STG-Mamba: Spatial-Temporal Graph Learning via Selective State Space Model
作者:Lincan Li, Hanchen Wang&…
论文(2023年)链接:https://arxiv.org/pdf/2302.00923.pdf
GitHub项目链接:GitHub - amazon-science/mm-cot: Official implementation for "Multimodal Chain-of-Thought Reasoning in Language Models" (stay tuned a…
Mini-Gemini: Mining the Potential of Multi-modality Vision Language Models 相关链接:arxiv 关键字:Vision Language Models、Multi-modality、High-Resolution Visual Tokens、High-Quality Data、VLM-guided Generation 摘要
在这项工作中&#x…
by Alexander Rush Our hope: reasoning about LLMs Our Issue 文章目录 Perpexity(Generation)Attention(Memory)GEMM(Efficiency)用矩阵乘法说明GPU的工作原理 Chinchilla(Scaling)RASP(Reasoning)结论参考资料 the five formulas perpexity —— generationattention —— m…
原文:Answer.AI - You can now train a 70b language model at home 我们正在发布一个基于 FSDP 和 QLoRA 的开源系统,可以在两个 24GB GPU 上训练 70b 模型。 已发表 2024 年 3 月 6 日 概括
今天,我们发布了 Answer.AI 的第一个项目&#…
文章目录~ 1.Gecko: Versatile Text Embeddings Distilled from Large Language Models2.Towards Greener LLMs: Bringing Energy-Efficiency to the Forefront of LLM Inference3.LUQ: Long-text Uncertainty Quantification for LLMs4.Draw-and-Understand: Leveraging Visua…
文章:Query Rewriting via Large Language Models,https://arxiv.org/abs/2403.09060
摘要
查询重写是在将查询传递给查询优化器之前处理编写不良的查询的最有效技术之一。 手动重写不可扩展,因为它容易出错并且需要深厚的专业知识。 类似地…
文章目录~ 1.Unsolvable Problem Detection: Evaluating Trustworthiness of Vision Language Models2.Are We on the Right Way for Evaluating Large Vision-Language Models?3.Learn "No" to Say "Yes" Better: Improving Vision-Language Models via …
论文题目:REPLUG: Retrieval-Augmented Black-Box Language Models 论文日期:2023/05/24 论文地址:https://arxiv.org/abs/2301.12652 文章目录 Abstract1. Introduction2. Background and Related Work2.1 Black-box Language Model…
Jamba: A Hybrid Transformer-Mamba Language Model 相关链接:arXiv 关键字:hybrid architecture、Transformer、Mamba、mixture-of-experts (MoE)、language model 摘要
我们介绍了Jamba,一种新的基于新颖混合Transformer-Mamba混合专家&am…
文章目录 大语言模型LLM《提示词工程指南》学习笔记03链式提示思维树检索增强生成自动推理并使用工具自动提示工程师Active-Prompt方向性刺激提示Program-Aided Language ModelsReAct框架Reflexion多模态思维链提示方法基于图的提示大语言模型LLM《提示词工程指南》学习笔记03 …