chatbase.co:可行的行业解决方案

介绍:

1、网址:chatbase.co
2、功能:给定网站,自动爬其中的内容,限制是只爬45s,不过支持多个网站。爬完之后,计算所有数据的字节数,40万以下是免费plan,超过则需付费,最高plan(399美元/月)可以支持到1100万字符。可以通过删掉一些无用的url让字符数变少。
3、可以上传PDF,撰写txt。与website一起,它同时支持这三个源。当然,所有源提供的字符数超过40万还是要收费,200万以下是19.9美元/月。
4、数据源搞完之后,它就直接生成一个bot页面了,这时候就可以直接在网页上聊天了,你的聊天对象是ChatGPT3.5+刚刚捆绑的数据(对于19.9美元/月的用户,默认2000次问答/月,如果切换到GPT-4,则除以20)。
5、然后它给你两段代码,可以根据需要直接嵌入其中一段到你的网站去,用户在网页上即可开始聊天了。

缺陷:

1、如果这个网站是需要用户名密码登录的,例如很多公司的内部系统的外网链接,一上来就是登录页面,那就不好搞了。不过当然可以提供无需用户名密码的秘密链接,让它爬完就可以关闭。
2、它不能“自动”更新数据源,没有实时监控网站内容变化的能力,只能定期手动重新爬一遍。

行业场景:

1、将企业内的知识库网站,切分为小块,确保每一小块可以在45s内被读取。
2、将企业的数据资料做成PDF(非扫描版本),并上传。
3、手工将企业的其他资料以纯文本形式贴进去(建议用PDF方式替代)。
4、创建企业bot,每年不到3.5万的成本,即可创建一个最多达1100万字的企业资料库聊天机器人。
5、体验全新的知识管理!

实际测试:

1、用本blog测试:效果不错,内容基本上都识别也可以响应。
2、用20万字的项目说明书,先去掉图片,再用HTML中转成PDF,为了更好地脱水,然后上传PDF,发现效果不咋地。
推测:图文并茂的word格式过分复杂,上面通过HTML中转的方式仍然产生了大量的垃圾信息,如何有效脱水是关键。