当前位置:主页
> 资源下载 > 9 > aws-pdf-textract-pipeline:数据管道,用于从Web抓取PDF并使用AWS textract将其内容转换为结构化数据。 使用AWS CDK + TypeScript构建下载
-
aws-pdf-textract-pipeline:数据管道,用于从Web抓取PDF并使用AWS textract将其内容转换为结构化数据。 使用AWS CDK + TypeScript构建下载
资源介绍
aws-pdf-textract-pipeline
:magnifying_glass_tilted_left: 数据管道,用于从Web上检索PDF并使用将其内容转换为结构化数据。 使用AWS CDK + TypeScript构建。
这是一个示例数据管道,它说明了用于大规模无服务器PDF处理的一种可能方法-它应该为根据自己的目的进行修改提供良好的基础。
入门
运行以下命令以安装依赖项,构建CDK堆栈并将CDK堆栈部署到AWS。
yarn install
yarn build
cdk bootstrap
cdk deploy
总览
以下是此CDK堆栈执行的每个过程的概述。
从网站抓取PDF下载URL
从网站上收集数据。
将PDF下载URL存储在DynamoDB中
将PDF下载到S3
在DynamoDB中创建新的PDF下载URL时,将触发lambda。
使用AWS Textract处理PDF
将PDF下载到S3存储桶后,另一个lambda触发。
处理AWS Textract结果
从AWS Textract检测到SNS事件时,将触发lambda来处理结果。
将处理