消息称字节跳动旗下BytePlus考虑在泰国新建数据中心
据曼谷邮报(BangkokPost)今日报道,一位熟悉字节跳动的消息人士透露,字节跳动旗下的BytePlus部门正考虑于2025年在泰国建立一个数据中心,提供基于云和人工智能(AI)的服务。该消息人士表示,泰国是字节跳动东盟扩张计划的一部分,该国的电子商务具有巨大的增长潜力,特别是在拥有众多追随者和顶级(OTT)参与者的大型...
图灵奖得主授课 字节跳动Byte Camp夏令营开营
字节跳动夏令营是字节跳动ByteCamp训练营每年两场核心活动之一。字节跳动于2018年起举办的ByteCamp,每年在夏季、冬季各有一场高水平的核心活动,活动旨在提高顶尖高校在校学生在计算机领域的专业度,完善从基础环境搭建到技术产品应用的全流程能力,实现能力跃迁。其中,字节跳动夏令营以“封闭式课程+实践性项目”为主...
2024字节跳动“安全范儿”高校挑战赛报名开启,三大赛道等你来战!
本届“安全范儿”高校挑战赛8月29日开启报名,面向全日制高校本科生/研究生,不限专业与院校(可跨校组队),累计提供80多万元专项奖励,分ByteCTF大师赛、ByteAI安全挑战赛、ByteHACK三大赛道。ByteCTF大师赛为定向邀请制,赛题深度结合字节跳动业务场景,覆盖AI、Web、逆向工程等7大方向,助力选手提升工程实战能力和思考深度。
豆包大模型团队&港大提出新成果ByteCheckpoint,性能最高优化...
8月8日消息,近日,字节跳动豆包大模型团队与香港大学联合提出了ByteCheckpoint大模型Checkpointing系统,旨在提升大模型训练效率、减少训练进度损失。随着训练规模与模型大小的日益增长,克服软硬件故障,提高训练效率成为大模型迭代的重要影响要素。近期,Meta官方报告中披露的一组大模型万卡集群训练故障率数据引起业内广泛关注,...
ByteHouse技术详解:基于OLAP构建高性能GIS地理空间能力
●ByteHouseGIS将OLAP和GIS结合了起来。在OLAP层面,ByteHouse对比PostGIS已经有计算优势。●在GIS层面,空间数据对象按照列的方式存储,而非序列化成字节数组,在存储上能够做到更加紧凑并节省空间,在计算上能够充分发挥向量化的优势。●特别是在空间函数层面,可以利用硬件的并行化能力提速。对比社区ClickHouse:●Byte...
火山引擎发布ByteHouse性能白皮书,揭秘OLAP性能突破的关键技术
作为一款OLAP引擎,伴随字节跳动各业务的发展,ByteHouse已经过数百个应用场景和数万用户锤炼,部署规模已超过1万8000台,最大的集群规模在2400余个节点,管理总数据量超过700PB,并逐步在外部金融、泛互等场景应用和推广(www.e993.com)2024年10月24日。为了更好支持字节内外部大规模数据和复杂场景应用,性能一直以来是ByteHouse重点打磨的产品基本功。
ByteSRC奖励再升级,单个重大漏洞提升至10万元
近日,字节跳动安全响应中心(ByteSRC)发布《字节安全响应中心安全报告处置规则V6.0》(试运行版),重大漏洞奖励单价提升至10万元。ByteSRC是字节跳动安全与风控部门面向外部白帽师傅、安全研究员、安全开发者的官方漏洞/情报收录平台,公开收取字节跳动中国区产品及应用漏洞/情报。
火山引擎ByteHouse:如何提升云原生架构下的数据导入能力?
火山引擎ByteHouse云原生架构图由于云原生架构的应用,面对字节跳动内部激增的业务量以及处理庞大数据量的需求,ByteHouse在实时导入技术方面进行了相应的优化升级。目前,ByteHouse以Kafka和物化MySQL作为实时导入的主要数据源。在Kafka导入实现中,ByteHouse可以实现秒级数据延时和单表GiB级吞吐,支持绝大部分在线实时分析业务...
火山引擎ByteHouse:Serverless在OLAP领域应用的五点思考
作为一款火山引擎推出的云原生数据仓库,ByteHouse基于开源ClickHouse构建,并在字节跳动内外部场景的检验下,对OLAP引擎能力、性能、运维、架构进一步升级。除此之外,ByteHouse也在Serverless方向探索,基于cloud-native云原生的理念构建了全新一代的数据仓库,架构上进行了三层解耦,期望在Serverless的加持下,提供更稳定、...
不分割成token,直接从字节中高效学习,Mamba原来还能这样用
与字节级Transformers相比,MambaByte能更快地实现更好的性能,计算效率也明显更高。作者还考虑了无token语言模型与现有最先进的子词模型相比的可行性。在这方面,他们发现MambaByte与各种子词基线模型相比具有竞争力,但它能处理更长的序列。研究结果表明,MambaByte是现有依赖分词器(tokenizer)的模型的...