登录 注册
当前位置:主页 > 资源下载 > 9 > aws-pdf-textract-pipeline:数据管道,用于从Web抓取PDF并使用AWS textract将其内容转换为结构化数据。 使用AWS CDK + TypeScript构建下载

aws-pdf-textract-pipeline:数据管道,用于从Web抓取PDF并使用AWS textract将其内容转换为结构化数据。 使用AWS CDK + TypeScript构建下载

  • 更新:2024-12-10 10:21:56
  • 大小:103KB
  • 推荐:★★★★★
  • 来源:网友上传分享
  • 类别:Typescript - 前端
  • 格式:ZIP

资源介绍

aws-pdf-textract-pipeline :magnifying_glass_tilted_left: 数据管道,用于从Web上检索PDF并使用将其内容转换为结构化数据。 使用AWS CDK + TypeScript构建。 这是一个示例数据管道,它说明了用于大规模无服务器PDF处理的一种可能方法-它应该为根据自己的目的进行修改提供良好的基础。 入门 运行以下命令以安装依赖项,构建CDK堆栈并将CDK堆栈部署到AWS。 yarn install yarn build cdk bootstrap cdk deploy 总览 以下是此CDK堆栈执行的每个过程的概述。 从网站抓取PDF下载URL 从网站上收集数据。 将PDF下载URL存储在DynamoDB中 将PDF下载到S3 在DynamoDB中创建新的PDF下载URL时,将触发lambda。 使用AWS Textract处理PDF 将PDF下载到S3存储桶后,另一个lambda触发。 处理AWS Textract结果 从AWS Textract检测到SNS事件时,将触发lambda来处理结果。 将处理