当前位置:主页 > 资源下载 > 9 > aws-pdf-textract-pipeline：数据管道，用于从Web抓取PDF并使用AWS textract将其内容转换为结构化数据。使用AWS CDK + TypeScript构建下载

aws-pdf-textract-pipeline：数据管道，用于从Web抓取PDF并使用AWS textract将其内容转换为结构化数据。使用AWS CDK + TypeScript构建下载

更新：2024-12-10 10:21:56
大小：103KB
推荐：★★★★★
来源：网友上传分享
类别：Typescript - 前端
格式：ZIP

反馈 / 投诉

资源介绍

aws-pdf-textract-pipeline :magnifying_glass_tilted_left: 数据管道，用于从Web上检索PDF并使用将其内容转换为结构化数据。使用AWS CDK + TypeScript构建。这是一个示例数据管道，它说明了用于大规模无服务器PDF处理的一种可能方法-它应该为根据自己的目的进行修改提供良好的基础。入门运行以下命令以安装依赖项，构建CDK堆栈并将CDK堆栈部署到AWS。 yarn install yarn build cdk bootstrap cdk deploy 总览以下是此CDK堆栈执行的每个过程的概述。从网站抓取PDF下载URL 从网站上收集数据。将PDF下载URL存储在DynamoDB中将PDF下载到S3 在DynamoDB中创建新的PDF下载URL时，将触发lambda。使用AWS Textract处理PDF 将PDF下载到S3存储桶后，另一个lambda触发。处理AWS Textract结果从AWS Textract检测到SNS事件时，将触发lambda来处理结果。将处理

上一篇: netty案例，netty4.1中级拓展篇六《SpringBoot+Netty+Es信息数据存储》源码
下一篇: 结构化数据和非结构化数据检索

相关推荐

12-02 aws-pdf-textract-pipeline：数据管道，用于从Web抓取PDF并使用AWS textract将其内容转换为结构化数据。使用AWS CDK + TypeScript构建下载

aws-pdf-textract-pipeline：数据管道，用于从Web抓取PDF并使用AWS textract将其内容转换为结构化数据。使用AWS CDK + TypeScript构建下载

资源介绍

热门标签

资源声明

aws-pdf-textract-pipeline：数据管道，用于从Web抓取PDF并使用AWS textract将其内容转换为结构化数据。 使用AWS CDK + TypeScript构建下载

资源介绍

热门标签

资源声明

aws-pdf-textract-pipeline：数据管道，用于从Web抓取PDF并使用AWS textract将其内容转换为结构化数据。使用AWS CDK + TypeScript构建下载