System Monitoring 和 Troubleshooting

了解为什么系统监视和故障排除是IT团队职责的基本组成部分.

下载SecOps电子书

What is System Monitoring 和 Troubleshooting?

系统监视和故障排除是IT团队职责的基本组成部分. 而 合规框架 like NIST 和 ITIL can offer guidelines for monitoring, these st和ards can often leave a lot of room for interpretation, 和 implementing a monitoring strategy can be daunting. The below sections provide an overview of the who, 什么, 在哪里, 当, 和 how of monitoring your IT environment.

要监视的数据类型

考虑监控环境的一种方法是将数据分为三类.

首先是测井数据, which can be defined as any data written to a log file, regardless of whether it’s a common structure or simple text. 日志数据提供了在IT环境中发生的事务的详细记录. 第二种是资产数据,它指的是直接从资产中获取的任何数据.

这可以从基本的资源指标(如CPU和内存)到关于在给定IT资产上运行的进程和应用程序的信息. 在监视通常不会在标准日志文件中捕获的事件时,资产数据可能特别有用. 最后是网络数据, which refers to data that’s specific to network performance, 包括带宽, 网络连接详细信息, 路由行为.

而 monitoring all three of these data types is fundamental to mature 安全操作,系统监控通常侧重于对日志数据和资产数据的分析.

监控系统

有 a lot of systems you could potentially monitor, 和 the ones you select will ultimately depend on your environment. 选项可能包括:

服务器: Server monitoring covers a broad range of systems, including servers hosting applications, Active 导演y Domain Controllers, 文件共享, 电子邮件服务器. 无论是Windows、Linux还是Mac机器,大多数服务器都会提供一定程度的事件日志记录.

数据库: 许多数据库提供不同的日志级别,以帮助管理员调试错误和识别即将出现的问题. 从数据库记录的典型事件包括缓慢的查询和SQL超时, 行限制, 内存限制, 还有缓存问题.

应用程序: 应用程序既包括您购买的第三方应用程序,也包括内部开发的应用程序. 一些第三方应用程序将向其主机写入日志,然后可以收集日志.

您的内部团队开发的应用程序也应该被构建为记录可以捕获的重要事件. Consider whether these applications are customer-facing or employee-facing. 而 application performance monitoring is important regardless of application audience, customer-facing applications 和 services may deserve more verbose logging.

云服务: Cloud services, especially infrastructure-as-a-service solutions like AWSAzure, are instrumental to a system monitoring plan. 这些服务可以在服务本身内提供日志查看功能, but you can also collect 和 store logs outside of these services. 将所有日志收集并存储在一个位置可以使以后查找信息变得更容易.

容器: 由于像Docker这样的服务,容器化正在成为构建和托管应用程序和基础设施的流行方法. As infrastructure becomes more compartmentalized, 更短暂, 和更多的 dependent on code than physical machines, 集装箱安全 can play a role in system health.

员工工作站: 当员工机器上的软件或进程发生冲突或可能使您的网络充斥数据包时, 能够看到员工的工作站上正在运行什么是必要的. It’s important to be able to do this remotely, as tracking down the physical asset can be time-consuming or not feasible.

事件 和 Metrics to Monitor

错误: Logging application 和 system errors is an easy choice, 关键字“错误”通常是IT调查的一个很好的起点. 一些系统 categorize errors by type, which can provide indications of which 事件 to pay attention to. 

CRUD事件: 在一般情况下, capturing 当 information is created, 读, 更新, or deleted can be useful for debugging issues later, 特别是在应用程序中. 而 these 事件 won’t often provide direct indications of an issue, 在追踪问题的根本原因时,它们可以成为极好的信息来源.

事务: “Transactions” often refer to important 事件 like purchases, 订阅, 取消, 和提交. 应该密切监视单个交易,以防止失败的交易和不完整的交易. 取决于系统, 错误代码可能会被记录下来,其中包含导致事务问题的重要信息. 一些系统, 比如Microsoft SQL Server, 提供专用的事务日志,以便在一个日志中捕获此信息. In other systems, you may need to 集中 this information yourself.

Access Requests 和 Permission Change: 来自活动目录等服务的日志记录可以为您的环境中的用户行为提供重要的视图. 监视和收集诸如权限更改之类的数据可以帮助您防止用户获得意外的管理权限. 这种类型的监视通常是满足某些遵从性标准所必需的

系统指标: 系统指标,如CPU, 内存, 并且应该始终密切监视磁盘利用率,以防止系统故障. 这些值的剧烈变化可能表明停机或即将停机. 在较长时间内收集这些指标还可以帮助将来进行容量规划.

如何监控系统

Given the b读th of systems, 事件, 和 metrics to be monitoring, 将您的数据收集集中到一个单一的真实来源中可能是一个不错的决定, especially if a system were to go down. 有 日志管理 solutions available to collect, 集中, 和 organize logs in a way that makes them easy to search, 可视化, 并从.

监视还可以扩展到日志管理之外,包括对单个IT资产的监视. 这种类型的监视包括对资源利用度量的持续度量,以及对运行在资产上的软件和过程的跟踪. 软件使用情况通常不会被记录在传统的日志中,但是可以为系统问题的根本原因提供重要的线索. 不仅能够度量IT资产数据,还能够记录结果,从而在整个IT环境中提供重要的可见性.

何时监控

简而言之, 如果您的系统需要保持持续的可用性,系统监控应该是24/7的. 通常,监视可以在后台进行,而不需要您持续关注. 话虽如此, 在某些情况下,您应该期望保持对系统数据的积极关注, 包括:

系统更新: Anytime a system is being 更新, 存在更新失败或更新导致意外并发症的风险.

Application Deployments 和 Rollbacks: When deploying code (or rolling-back code) to applications, there could be unexpected issues, even if all unit tests 和 acceptance tests pass.

迁移: 数据迁移通常具有挑战性,并且会出现数据类型不匹配的问题, 验证问题, 和更多的.

高峰交易时间: Some businesses have known periods of increased transactions, such as e-commerce companies during holidays or sales. 在这些高峰时段发生的可用性问题如果不能迅速解决,可能会造成严重后果.

IT系统监控和故障排除涉及很多因素. 通过将IT环境分解为需要监视的系统和事件, 您将离为您的组织确定最佳监视策略和解决方案又近了一步.

Read More From the Rapid7 博客

Security Operations: Latest 新闻 from the 博客