千亿生物医药公司引发瞩目！清华AI研究专家聂再清谈未来生物医药领域的"Killer APP"

专业版生物医药技术问答工具终于发布！

最近，首个千亿参数的生物医药大型模型产品ChatDD正式发布。这款产品不仅能够全面了解制药各个阶段的知识，还可以与药学专家进行对话，帮助人们快速理解行业术语和概念。千亿生物医药公司引发瞩目！清华AI研究专家聂再清谈未来生物医药领域的"Killer APP"

与AlphaFold2不同的是，目前的大型模型要么只涉及单一模态，要么没有直接对话的功能。

而ChatDD则兼具多模态和对话交互的特点，同时也可以解答医药界学生的疑惑。

这款产品是由今年6月成立的水木分子公司开发的。清华大学智能产业研究院院长、张亚勤院士指出：

ChatDD通过人机协作对话方式，有效地将专家知识与大型模型的知识相结合，开创了传统药物研发TMDD、CADD、AIDD模式之外的全新药物研发模式。

那么，这款产品在哪些方面实现了“划时代”的突破呢？

我们有幸与清华AIR教授、水木分子首席科学家聂再清进行了访谈，详细了解了ChatDD的背景和创新之处。 ChatDD是一个基于中文开源项目的助手产品，具有多种功能和应用场景。

ChatDD的外观和某个产品相似，它是一个网页版的助手，并且可以通过对话实现各种功能。

在对话能力方面，ChatDD不仅能够优秀地总结英文内容，还可以进行中文对话，甚至能理解一些专业术语，比如“疾病画像”。

如果遇到无法理解的分子，你可以直接上传相关文件，让ChatDD来解读该分子的作用。

同时，ChatDD也可以处理复杂任务，例如计算亲和力问题。它可以直接推荐相应工具，并迅速计算出结果。

此外，你也不必担心ChatDD的培训数据截止日期，因为它能够通过联网或者从数据库中查找答案。

ChatDD背后的底座被命名为ChatDD-FM，它的参数量级达到了千亿级别。

最新推出的ChatDD-FM-100B是全球首个拥有千亿参数的多模态生物医药对话大模型。在C-Eval评测中，该模型在全部医学4个专业中都获得了第一名，并且是唯一一个平均得分超过90分的模型。

我们可以联系到团队之前发布的BioMed***-10B。这两者都是基于LLaMA2架构的自然语言模态的大模型，是否有什么关联呢？

聂再清表示，ChatDD-FM和BioMed*** 在受众和用途上有所不同。这有点像****和***-3.5之间的区别，前者在对话和意图对齐能力上有更大提升。

BioMed***主要用于科研领域，特别擅长处理英文生物医药科研任务，可作为生物医药领域相关科研任务的基础模型。

ChatDD-FM主要为国内医药行业提供辅助服务，侧重于中文对话能力，并融入了更多专家的对话模式和经验。

从技术上讲，ChatDD-FM相比BioMed***主要在三个方面进行了增强：模态、训练数据和参数量级。

在模态方面，ChatDD-FM增加了蛋白质结构数据；在训练数据方面，增加了中文、专家对话和调用工具能力相关的数据；而在参数量级上，从百亿级别增加到千亿级别。

ChatDD-FM之所以能提升其"专业度"和让其说话更像"行内人"的秘诀，仍然是高质量数据的使用。这些数据可以分为两个主要部分。

首先是预训练用的医药知识数据，其主要目的是提升ChatDD-FM的专业素养，使其能在几个月内掌握行业知识。

由于之前缺乏相关的数据集（包括大小分子等多个模态和自然语言对齐的数据），尤其是缺乏中文数据，因此团队自己收集整理了一系列的训练数据集。

首先，与厂商合作翻译专业英文期刊，并整理中文期刊，以收集带有中文专业名词的大量数据，以降低大型模型对专业词汇的不熟悉程度；

接着，团队找来一批医学院的博士和博士后，设计了一个系统来整理这些数据，直到它们可以被大型模型使用。

聂再清强调，这些博士并不是进行数据标注，因为相比有监督学习，自监督学习更加关注数据清洗和查找的工作：

这些期刊数据当然不是一个人一篇一篇地去阅读，那是不可行的；也不是一个字一个字地手动输入，也是不可行的。

毕竟，大型模型的主要能力来自于自监督学习，所以这些博士更多地是进行数据清洗和查找的工作。

当然，医药领域的期刊是不断更新的，因此这一部分的工作也将持续进行下去。

第二部分是"专家数据集"，专门用于提高ChatDD-FM的对话能力。

ChatDD的用户中有许多医药领域的专业用户，为了让ChatDD能够无缝理解行业内人士的专业术语和用语，必须先了解专家们平时的说话方式。

为此，团队找了一些专家，"观察"他们平时提问的方式，并根据这些问题整理了一套数据集，专门用于训练ChatDD。

这样，在使用ChatDD时，医药专业用户不仅可以像与同事聊天一样直接提问，还可以选择"提示词模板"来进行直接的替换填充。

ai工具箱
ai导航
免费aigc导航
aigc工具
免费ai工具