最后更新于2024年1月24日(星期三)14:41:53 GMT

斯图尔特·米勒和瑞恩·威尔逊合著.

自2014年成立以来,Rapid7在贝尔法斯特进行了大幅扩张, 导致了公司最大的R&在美国以外的一个中心,有350多名员工分布在我们的八层楼 Chichester Street office.  整个Rapid7平台的产品开发和工程都在这里进行, 但我们最关心的是,贝尔法斯特已经成为我们20多年来在数据方面投资的中心. 它为我们的人工智能、机器学习和数据科学工作奠定了基础.

继续阅读,了解更多关于数据和AI在Rapid7的重要性!

前瞻性的数据态度

First up let’s talk data.  多年来,我们在贝尔法斯特有一个专门的数据中心, 最初专注于消费, distribution, 以及对优质产品使用数据的分析, 通过Amazon SNS/SQS等接口, 将数据导入时间序列数据存储,如TimescaleDB和InfluxDB.  产品使用数据是独一无二的,因为它的高容量和基数, 这些数据存储针对哪些进行了优化.  Rapid7的数据演变需要更大的规模, 所以我们一直在引入更具可扩展性的技术,比如Apache Kafka, Spark, and Iceberg.  这个堆栈将启用多个入口点来访问我们的数据.

  • Apache Kafka, 我们数据基础设施的核心, 分布式流媒体平台是否允许我们轻松地处理实时数据流.  Kafka作为一个可靠的、可扩展的管道, 从各种来源实时摄取大量数据. 它的发布-sub架构确保数据在整个系统中有效地分布, 每个主题有多种类型的使用者,使团队能够在信息流中处理和分析信息.
  • Transforms run via Apache Spark, 作为处理引擎,将我们的数据提升到一个新的水平, 让我们可以直接从Kafka进行批处理或流处理,在Kafka中,我们最终将数据放置到一个对象存储中,上面有冰山层.
  • Apache Iceberg 是开放表格式的大规模数据集, 提供ACID交易, schema evolution, 以及时间旅行能力. 这些功能有助于保持数据的一致性和可靠性, 对于Rapid7的人工智能和分析来说,哪一点至关重要.  Additionally, 使用Iceberg执行时间旅行查询的能力使我们能够分析和管理历史数据, 这是构建预测性人工智能模型的重要组成部分.

我们的工程师不断在这个堆栈上开发应用程序,以促进ETL管道的语言,如 Python, Java and Scala,在K8s集群中运行.  与我们对数据的前瞻性态度保持一致, 我们将继续采用新的工具和治理来促进增长, 例如引入数据目录,通过元数据的可搜索接口来可视化沿袭.  In this way, 用户可以自己发现数据,但也可以了解特定数据集之间的关系, 对用法有更清晰的理解.  所有这些都使数据和人工智能工程师能够发现和吸收Rapid7上可用的大量数据.

我们以数据为中心的人工智能方法

我们人工智能工程的核心是以数据为中心的方法, 与最近逐渐远离以模型为中心的方法的趋势一致.  我们发现模型设计并不总是区分因素:更多时候是数据.  根据我们的经验,当比较不同的模型用于分类任务时, 比如说一组神经网络加上一些传统的分类器, 它们在处理高质量数据时的表现可能都相当相似.  数据在Rapid7的前沿和中心是我们整体战略的关键部分, 我们面临着利用高质量的重大机遇, 我们的人工智能解决方案中的大容量数据集, leading to better results.

当然,总有模型设计更有影响力的情况.  然而,边际性能的提高, 经常出现在注重创新的学术界, 在实践中可能不值得额外的实现工作或计算费用. 并不是说我们没有遇到新的模型和架构——我们每周都会回顾它们——尽管经典的说法“避免不必要的复杂性”也适用于人工智能.

数据在基因学中日益增长的重要性

让我们以genAI法学硕士为例.  任何关注事态发展的人都可能已经注意到,训练数据越来越受到关注, 这再次表明了以数据为中心的方法.  LLMs, 基于变压器体系结构, have been getting bigger, 供应商也在大力推销最新款手机.  但仔细看,它们往往是用不同的数据集训练的, 通常也会与公共基准数据结合使用.  However, 如果来自不同供应商的两三个llm用完全相同的数据进行足够长的训练,我们愿意打赌它们之间的性能差异可能很小. Further, 我们看到研究人员正在往另一个方向推进, trying to create smaller, 相对于规模更大的商业法学硕士来说,不那么复杂的开源法学硕士更有优势.

考虑到这种以数据为中心的转变, 一般来说,更复杂的模型可能不会像您想象的那样驱动性能.  同样的原则也适用于更传统的分析、机器学习和数据科学.  我们训练的一些模型也有非常小的数据集, 也许只有100-200个例子, 然而,由于准确标记的数据代表了野生环境,因此可以很好地概括.  庞大的数据集存在重复或错误标记的风险, 本质显著噪声, 所以这是关于数据的质量和数量.  值得庆幸的是,我们拥有丰富的这两种数据,而且我们的数据规模你不太可能在其他地方找到.

扩大我们在贝尔法斯特的卓越人工智能中心

Rapid7正在贝尔法斯特进一步投资,作为我们新的人工智能卓越中心的一部分, 涵盖了所有的人工智能, ML and data science.  我们的使命是利用数据和人工智能来加速威胁调查、检测和响应&R)我们的保安行动中心(SOC)的能力.  AI CoE与我们的数据和D&R团队帮助客户评估风险、检测威胁并使其安全程序自动化.  It ensures AI, 机器学习和数据科学被有意义地应用于增加客户价值, 最好地实现业务目标并交付ROI.  避免不必要的复杂性, with a creative, fast-fail, 高度迭代的方法,加速从概念验证到进行或不进行的想法.

The group's make-up is such that our technical skills complement one another; we share our AI, 机器学习和数据科学知识,同时也偶尔与NIST等知名机构合作,为新的外部人工智能政策举措做出贡献.  例如,我们使用mix of LLMs, sklearn, PyTorch and more, 同时,该团队在ACM CCS和IEEE等AISec上发表了获奖的研究成果.  所有这些都是由数据驱动的,AI CoE的目标是雄心勃勃的.

Interested in joining us?

我们总是对那些渴望成为大事业一部分的人感兴趣.  如果你想在职业生涯中成长,并在数据和人工智能方面产生影响,那么这就是你的选择.  我们目前正在贝尔法斯特招聘多个全新的数据和人工智能职位,跨越不同级别的资历,因为我们扩大了这两个团队——我们很乐意听到你的声音!   请查看角色 here!