NLP学习——CoreNLP的下载使用

内容分享3个月前发布
1 0 0

在这一部分,我们将介绍如何开始使用CoreNLP以及其不同的使用模式。您可以通过命令行、Java代码或者对服务器的调用来使用CoreNLP。并且,CoreNLP支持多种语言,包括阿拉伯语、中文、英语、法语、德语和西班牙语。

Getting a copy

你可以通过下面的链接下载Stanford CoreNLP。

https://stanfordnlp.github.io/CoreNLP/download.html

这将下载一个较大的(482MB)zip文件,其中包含:

  1. CoreNLP代码jar
  2. CoreNLP模型jar(大多数任务需要在您的类路径中)
  3. 运行CoreNLP所需的库
  4. 项目的文档/源代码。

这些就是开始使用英语版CoreNLP所需的所有东西!解压这个文件,打开结果文件夹,您就可以开始使用它了。

其他语言:如果你想使用Stanford CoreNLP处理其他(人类)语言,你需要额外的模型文件。我们提供了多种语言的模型文件,还有更多针对英语的模型文件,包括处理非标准大写英语的模型(即在文本或电报中不一般大写的英语)。你可以在下面的表格中找到最新的模型。早期版本的模型可以在发布历史页面找到。

Language

Model Jar

Version

Arabic

https://search.maven.org/remotecontent?filepath=edu/stanford/nlp/stanford-corenlp/4.4.0/stanford-corenlp-4.4.0-models-arabic.jar

4.5.4

Chinese

https://search.maven.org/remotecontent?filepath=edu/stanford/nlp/stanford-corenlp/4.4.0/stanford-corenlp-4.4.0-models-chinese.jar

4.5.4

English (extra)

https://search.maven.org/remotecontent?filepath=edu/stanford/nlp/stanford-corenlp/4.4.0/stanford-corenlp-4.4.0-models-english.jar

4.5.4

English (KBP)

https://search.maven.org/remotecontent?filepath=edu/stanford/nlp/stanford-corenlp/4.4.0/stanford-corenlp-4.4.0-models-english-kbp.jar

4.5.4

French

https://search.maven.org/remotecontent?filepath=edu/stanford/nlp/stanford-corenlp/4.4.0/stanford-corenlp-4.4.0-models-french.jar

4.5.4

German

https://search.maven.org/remotecontent?filepath=edu/stanford/nlp/stanford-corenlp/4.4.0/stanford-corenlp-4.4.0-models-german.jar

4.5.4

Hungarian

https://search.maven.org/remotecontent?filepath=edu/stanford/nlp/stanford-corenlp/4.4.0/stanford-corenlp-4.4.0-models-hungarian.jar

4.5.4

Italian

https://search.maven.org/remotecontent?filepath=edu/stanford/nlp/stanford-corenlp/4.4.0/stanford-corenlp-4.4.0-models-italian.jar

4.5.4

Spanish

https://search.maven.org/remotecontent?filepath=edu/stanford/nlp/stanford-corenlp/4.4.0/stanford-corenlp-4.4.0-models-spanish.jar

4.5.4

如果你想修改源代码并重新编译文件,请参阅这些说明。之前的版本可以在发布历史页面上找到。

GitHub: https://github.com/stanfordnlp/CoreNLP

Maven:你可以在Maven Central上找到Stanford CoreNLP。最关键的一点是CoreNLP需要它的模型才能运行(除了分词器和句子分割器之外的大部分),所以你需要在你的pom.xml中指定代码库和模型库,如下所示:(注意:Maven的发布一般在网站发布几天后进行。)

<dependencies>
<dependency>
    <groupId>edu.stanford.nlp</groupId>
    <artifactId>stanford-corenlp</artifactId>
    <version>4.4.0</version>
</dependency>
<dependency>
    <groupId>edu.stanford.nlp</groupId>
    <artifactId>stanford-corenlp</artifactId>
    <version>4.4.0</version>
    <classifier>models</classifier>
</dependency>
</dependencies>

如果你想从Maven中获取阿拉伯语、中文、德语或西班牙语的语言模型jar包,也需要在你的pom.xml的依赖项中添加以下内容:

<dependency>
    <groupId>edu.stanford.nlp</groupId>
    <artifactId>stanford-corenlp</artifactId>
    <version>4.4.0</version>
    <classifier>models-chinese</classifier>
</dependency>

将“models-chinese”替换为“models-english”、“models-english-kbp”、“models-arabic”、“models-french”、“models-german”或“models-spanish”以获得其他语言的资源!

有一个使用Stanford CoreNLP的示例Maven项目,可以在GitHub发布版本中找到。

它位于
examples/sample-maven-project目录下。

你可以使用这个命令来构建项目:

mvn compile

你可以像这样用一个命令运行一个演示程序:

export MAVEN_OPTS="-Xmx14000m"
mvn exec:java -Dexec.mainClass="edu.stanford.nlp.StanfordCoreNLPEnglishTestApp"

从官方版本设置的步骤

这个示例解释了如何从最新的官方版本设置CoreNLP。这个示例将引导你下载包,并运行一个简单的CoreNLP命令行调用。

准备:

  • Java 8。通过命令java -version可以查询。输出结果: java version “1.8.0_92”
  • Zip工具
  • 为了完全按照下面的步骤进行:需要bash或类似的shell,以及wget或类似的下载器。

步骤:

下载 CoreNLP 压缩包。
http://stanfordnlp.github.io/CoreNLP/index.html#download:

wget http://nlp.stanford.edu/software/stanford-corenlp-latest.zip

或者用 curl (what you get by default on macOS):

curl -O -L http://nlp.stanford.edu/software/stanford-corenlp-latest.zip

解压此版本:

unzip stanford-corenlp-latest.zip

进入解压后的文件夹:

cd stanford-corenlp-4.5.4

设置你的classpath。如果你在使用IDE,你应该在IDE中设置类路径。如果你在使用bash或类似的shell,下面的方法会起作用。

for file in `find . -name "*.jar"`; do export
CLASSPATH="$CLASSPATH:`realpath $file`"; done

如果您常常使用CoreNLP,那么在您的 ~/.bashrc(或等效的)文件中,下面这行代码会很有用,您需要将目录 /path/to/corenlp/ 替换为您解压 CoreNLP 的适当路径:

for file in `find /path/to/corenlp/ -name "*.jar"`; do export
CLASSPATH="$CLASSPATH:`realpath $file`"; done

试试看!例如,下面的操作将创建一个简单的文本文件进行注解,并在该文件上运行CoreNLP。输出将以JSON文件的形式保存到input.txt.out。请注意,默认情况下在默认的注解管道中运行所有的CoreNLP注解器需要相当多的内存。大多数情况下,您应该至少给它3GB的内存(-mx3g)。

echo "the quick brown fox jumped over the lazy dog" > input.txt
java -mx3g edu.stanford.nlp.pipeline.StanfordCoreNLP -outputFormat json -file input.txt

从GitHub HEAD版本设置的步骤

准备:

  • Java 8。通过命令java -version可以查询。输出结果: java version “1.8.0_92”
  • Apache Ant
  • Zip工具
  • 为了完全按照下面的步骤进行:需要bash或类似的shell,以及wget或类似的下载器。

步骤:

CoreNLP Git仓库中克隆:

git clone git@github.com:stanfordnlp/CoreNLP.git

进入CoreNLP目录:

cd CoreNLP

将项目构建成一个自包含的jar文件。最简单的方法是用:

ant jar

下载最新的model:

wget http://nlp.stanford.edu/software/stanford-corenlp-models-current.jar

或者用 curl (what you get by default on macOS):

curl -O -L http://nlp.stanford.edu/software/stanford-corenlp-models-current.jar

设置你的classpath。如果你在使用IDE,你应该在IDE中设置类路径。如果你在使用bash或类似的shell,下面的方法会起作用。

export CLASSPATH="$CLASSPATH:javanlp-core.jar:stanford-corenlp-models-current.jar";
for file in `find lib -name "*.jar"`; do export CLASSPATH="$CLASSPATH:`realpath $file`"; done

如果您常常使用CoreNLP,那么在您的 ~/.bashrc(或等效的)文件中,下面这行代码会很有用,您需要将目录 /path/to/corenlp/ 替换为您解压 CoreNLP 的适当路径:

export CLASSPATH="$CLASSPATH:/path/to/corenlp/javanlp-core.jar:/path/to/corenlp/stanford-corenlp-models-current.jar";
for file in `find /path/to/corenlp/lib -name "*.jar"`; do export CLASSPATH="$CLASSPATH:`realpath $file`"; done

试试看!例如,下面的操作将创建一个简单的文本文件进行注解,并在该文件上运行CoreNLP。输出将以JSON文件的形式保存到input.txt.out。请注意,默认情况下在默认的注解管道中运行所有的CoreNLP注解器需要相当多的内存。大多数情况下,您应该至少给它3GB的内存(-mx3g)。

echo "the quick brown fox jumped over the lazy dog" > input.txt
java -mx3g edu.stanford.nlp.pipeline.StanfordCoreNLP -outputFormat json -file input.txt

NLP学习——CoreNLP的下载使用

© 版权声明

相关文章

2025 年的 AIGC 浪潮,你赶上了吗?AIGC 技术正以摧枯拉朽之势,重塑各行各业的格局,从内容创作到电商营销,从影视娱乐到智能教育,到处都有它的身影。据权威数据预测,2025 年 AIGC 市场规模将突破万亿,可人才缺口却高达 200 万 +,这意味着什么?这意味着机遇,一个让你逆袭的绝佳机遇!而拿下 AIGC 应用工程师证书,就是抓住这个机遇的关键。【权威认证,行业硬通货】我们考的这个 AIGC 应用工程师证书,由工信部教育与考试中心颁发。工信部的权威性不言而喻,这张证书就是你踏入 AIGC 行业的 “金字招牌”。它是企业招聘 AIGC 岗位的重要筛选标准,在腾讯、字节跳动等大厂,以及众多中小科技企业中,都有着极高的认可度。有了它,你在求职时就能脱颖而出,获得优先录用的机会。【薪资诱人,职业发展无忧】薪资方面,AIGC 应用工程师简直不要太香。初级工程师月薪轻松 1.5 万 – 3 万,随着经验积累和技能提升,资深专家年薪 60 万 – 150 万都不在话下,甚至大模型训练工程师年薪超 200 万。而且职业发展路径十分清晰,从初级工程师起步,逐步晋升为 AIGC 产品经理、技术总监,或者转型成为自由职业者,承接高收益项目,未来晋升空间巨大。【报考条件亲民,零基础可学】很多宝子担心自己基础不够,不敢报考。别慌!中级证书报考条件超宽松,大专学历有 1 年工作经验,或者本科应届生,专业不限都能报考;高级证书要求本科学历 + 2 年 AIGC 相关经验,或者硕士学历。就算你是零基础小白,只要对 AIGC 感兴趣,愿意学习,都有机会拿下这张证书,开启高薪职业之路。【学习内容丰富,紧跟行业前沿】学习内容涵盖了当下最热门、最实用的 AIGC 技术。你将系统学习大模型原理,掌握 Stable Diffusion、Midjourney、GPT – 5 等主流工具链的使用技巧,学会进行大模型微调(LoRA、P – Tuning)、提示词工程优化,了解多模态生成技术以及 AI 版权合规审查等重要知识。这些技能都是企业急需的,学完就能直接应用到工作中。【报考流程简单,拿证快人一步】报考流程也很简单。首先,通过工x部教考中心官网核验,选择正规的授权机构提交报名材料,包括身份证、学历证明、2 寸蓝底照等。然后,开通线上课程,开启系统学习之旅,完成培训并取得合格证明。每年 3 月、6 月、9 月、12 月参加机考,考试时间 120 分钟,线上或线下形式都有。考后 15 天就能查成绩,60 分合格,45 天左右就能拿到官网可查的证书,快人一步踏入 AIGC 高薪赛道。不管你是技术转型者,想从传统编程领域转向 AIGC 工程化方向;还是创意从业者,如设计师、文案策划,希望借助 AI 提升创作效率;亦或是企业管理者,想布局 AIGC 战略,为企业赋能;甚至是大学生,想在毕业时增加就业竞争力,这个证书都非常适合你。别再犹豫了,抓住这波 AIGC 的风口,考下 AIGC 应用工程师证书,让自己的职业发展更上一层楼。#AIGC #考证 #高

暂无评论

none
暂无评论...