Rapid7在贝尔法斯特的以数据为中心的AI方法| Rapid7博客-十大赌博正规信誉网址

Rapid7在贝尔法斯特以数据为中心的人工智能方法

Jan 05, 2024
5 min read
Ryan Wilson

最后更新于2024年1月24日(星期三)14:41:53 GMT

斯图尔特·米勒和瑞恩·威尔逊合著.

自2014年成立以来，Rapid7在贝尔法斯特进行了大幅扩张, 导致了公司最大的R&在美国以外的一个中心，有350多名员工分布在我们的八层楼 Chichester Street office. 整个Rapid7平台的产品开发和工程都在这里进行, 但我们最关心的是，贝尔法斯特已经成为我们20多年来在数据方面投资的中心. 它为我们的人工智能、机器学习和数据科学工作奠定了基础.

继续阅读，了解更多关于数据和AI在Rapid7的重要性!

前瞻性的数据态度

First up let’s talk data. 多年来，我们在贝尔法斯特有一个专门的数据中心, 最初专注于消费, distribution, 以及对优质产品使用数据的分析, 通过Amazon SNS/SQS等接口, 将数据导入时间序列数据存储，如TimescaleDB和InfluxDB. 产品使用数据是独一无二的，因为它的高容量和基数, 这些数据存储针对哪些进行了优化. Rapid7的数据演变需要更大的规模, 所以我们一直在引入更具可扩展性的技术，比如Apache Kafka, Spark, and Iceberg. 这个堆栈将启用多个入口点来访问我们的数据.

Apache Kafka, 我们数据基础设施的核心, 分布式流媒体平台是否允许我们轻松地处理实时数据流. Kafka作为一个可靠的、可扩展的管道, 从各种来源实时摄取大量数据. 它的发布-sub架构确保数据在整个系统中有效地分布, 每个主题有多种类型的使用者，使团队能够在信息流中处理和分析信息.
Transforms run via Apache Spark, 作为处理引擎，将我们的数据提升到一个新的水平, 让我们可以直接从Kafka进行批处理或流处理，在Kafka中，我们最终将数据放置到一个对象存储中，上面有冰山层.
Apache Iceberg 是开放表格式的大规模数据集, 提供ACID交易, schema evolution, 以及时间旅行能力. 这些功能有助于保持数据的一致性和可靠性, 对于Rapid7的人工智能和分析来说，哪一点至关重要. Additionally, 使用Iceberg执行时间旅行查询的能力使我们能够分析和管理历史数据, 这是构建预测性人工智能模型的重要组成部分.

我们的工程师不断在这个堆栈上开发应用程序，以促进ETL管道的语言，如 Python, Java and Scala，在K8s集群中运行. 与我们对数据的前瞻性态度保持一致, 我们将继续采用新的工具和治理来促进增长, 例如引入数据目录，通过元数据的可搜索接口来可视化沿袭. In this way, 用户可以自己发现数据，但也可以了解特定数据集之间的关系, 对用法有更清晰的理解. 所有这些都使数据和人工智能工程师能够发现和吸收Rapid7上可用的大量数据.

我们以数据为中心的人工智能方法

我们人工智能工程的核心是以数据为中心的方法, 与最近逐渐远离以模型为中心的方法的趋势一致. 我们发现模型设计并不总是区分因素:更多时候是数据. 根据我们的经验，当比较不同的模型用于分类任务时, 比如说一组神经网络加上一些传统的分类器, 它们在处理高质量数据时的表现可能都相当相似. 数据在Rapid7的前沿和中心是我们整体战略的关键部分, 我们面临着利用高质量的重大机遇, 我们的人工智能解决方案中的大容量数据集, leading to better results.

当然，总有模型设计更有影响力的情况. 然而，边际性能的提高, 经常出现在注重创新的学术界, 在实践中可能不值得额外的实现工作或计算费用. 并不是说我们没有遇到新的模型和架构——我们每周都会回顾它们——尽管经典的说法“避免不必要的复杂性”也适用于人工智能.

数据在基因学中日益增长的重要性

让我们以genAI法学硕士为例. 任何关注事态发展的人都可能已经注意到，训练数据越来越受到关注, 这再次表明了以数据为中心的方法. LLMs, 基于变压器体系结构, have been getting bigger, 供应商也在大力推销最新款手机. 但仔细看，它们往往是用不同的数据集训练的, 通常也会与公共基准数据结合使用. However, 如果来自不同供应商的两三个llm用完全相同的数据进行足够长的训练，我们愿意打赌它们之间的性能差异可能很小. Further, 我们看到研究人员正在往另一个方向推进, trying to create smaller, 相对于规模更大的商业法学硕士来说，不那么复杂的开源法学硕士更有优势.

考虑到这种以数据为中心的转变, 一般来说，更复杂的模型可能不会像您想象的那样驱动性能. 同样的原则也适用于更传统的分析、机器学习和数据科学. 我们训练的一些模型也有非常小的数据集, 也许只有100-200个例子, 然而，由于准确标记的数据代表了野生环境，因此可以很好地概括. 庞大的数据集存在重复或错误标记的风险, 本质显著噪声, 所以这是关于数据的质量和数量. 值得庆幸的是，我们拥有丰富的这两种数据，而且我们的数据规模你不太可能在其他地方找到.

扩大我们在贝尔法斯特的卓越人工智能中心

Rapid7正在贝尔法斯特进一步投资，作为我们新的人工智能卓越中心的一部分, 涵盖了所有的人工智能, ML and data science. 我们的使命是利用数据和人工智能来加速威胁调查、检测和响应&R)我们的保安行动中心(SOC)的能力. AI CoE与我们的数据和D&R团队帮助客户评估风险、检测威胁并使其安全程序自动化. It ensures AI, 机器学习和数据科学被有意义地应用于增加客户价值, 最好地实现业务目标并交付ROI. 避免不必要的复杂性, with a creative, fast-fail, 高度迭代的方法，加速从概念验证到进行或不进行的想法.

The group's make-up is such that our technical skills complement one another; we share our AI, 机器学习和数据科学知识，同时也偶尔与NIST等知名机构合作，为新的外部人工智能政策举措做出贡献. 例如，我们使用mix of LLMs, sklearn, PyTorch and more, 同时，该团队在ACM CCS和IEEE等AISec上发表了获奖的研究成果. 所有这些都是由数据驱动的，AI CoE的目标是雄心勃勃的.

Interested in joining us?

我们总是对那些渴望成为大事业一部分的人感兴趣. 如果你想在职业生涯中成长，并在数据和人工智能方面产生影响，那么这就是你的选择. 我们目前正在贝尔法斯特招聘多个全新的数据和人工智能职位，跨越不同级别的资历，因为我们扩大了这两个团队——我们很乐意听到你的声音! 请查看角色 here!

Rapid7在贝尔法斯特以数据为中心的人工智能方法

前瞻性的数据态度

我们以数据为中心的人工智能方法

数据在基因学中日益增长的重要性

扩大我们在贝尔法斯特的卓越人工智能中心

Interested in joining us?

POST TAGS

SHARING IS CARING

AUTHOR

Topics

Popular Tags

Related Posts

Success! Thank you for submission. 我们很快就会联系你.

Oops! 在服从方面有个问题. Please try again.

提交您的信息，我们将与您取得联系.

Rapid7在贝尔法斯特以数据为中心的人工智能方法

前瞻性的数据态度

我们以数据为中心的人工智能方法

数据在基因学中日益增长的重要性

扩大我们在贝尔法斯特的卓越人工智能中心

Interested in joining us?

POST TAGS

SHARING IS CARING

AUTHOR

Topics

Popular Tags

Related Posts

Related Posts

Success! Thank you for submission. 我们很快就会联系你.

Oops! 在服从方面有个问题. Please try again.

提交您的信息，我们将与您取得联系.

Never miss a blog